易。
而且这不是一劳永逸的,得定期回头看:比如过了半年,客户偏好变了,就得重新挖;模型准确率下降了,就得用新数据重新训练。挖掘是个“挖→用→再挖”的循环过程。
三、讲工具:数据挖掘的“五大挖宝神器”
数据挖掘的算法有几十种,但最常用的就五种,像挖宝的五件工具:有的擅长找关联,有的擅长分群,各有各的本事。咱们用生活例子讲,不用公式也能懂。
1 关联规则挖掘:找“搭子”的神器,代表算法“apriori”
这是最接地气的算法,专门找“经常一起出现的东西”,核心是算两个数:支持度(两样东西一起出现的频率)和置信度(买了a之后买b的概率)。
举个例子:超市分析1000笔订单,发现“买面包的有200笔,买牛奶的有150笔,面包和牛奶一起买的有100笔”。
如果这两个数都超过设定的标准(比如支持度≥5,置信度≥40),就形成一条关联规则:“买面包→买牛奶”。超市就可以把牛奶放在面包区旁边,促进销量。
实际用处:除了超市货架摆放,电商的“商品推荐”(买手机壳推手机膜)、外卖的“套餐搭配”(点汉堡推可乐),都是靠这个算法挖出来的。
优点:简单易懂,能直接落地;缺点:数据量大时算得慢,容易挖出“没用的关联”(比如“买牙刷的人多买牙膏”,这是常识,不用挖)。
2 分类算法:贴“标签”的神器,代表算法“决策树”
分类算法就像“教电脑做选择题”,先给它看“带答案的题目”,学完后自己给“新题目写答案”。决策树是最直观的分类算法,长得像一棵倒过来的树,每一个分叉都是一个判断条件。
举个例子:用决策树给“贷款申请人”
电脑学完这棵“树”后,遇到新申请人,顺着分叉一路判断,就能自动给出“通过”或“拒绝”的结论。
实际用处:垃圾邮件过滤、信用卡审核、疾病诊断(根据症状判断是否患病),都常用决策树。
优点:过程看得见,能解释“为啥这么判断”;缺点:遇到复杂数据容易“学偏”(比如只记住个别案例)。
3 聚类算法:找“同类”的神器,代表算法“k-ans”
聚类算法是“无师自通”的高手,不用给标签,能自动把“相似的数据”聚成一堆。k-ans是最常用的,“k”就是想分的组数。
举个例子:电商用k-ans给1000个客户分群,设k=3(分3类)。
1 先随机选3个“种子客户”当临时的“群中心”
2 算每个客户到3个中心的“距离”(距离越近越相似,距离用“消费金额、购买频率”
3 把客户分到最近的群里,然后重新算每个群的“新中心”里所有人的平均消费金额);
4 重复2、3步,直到中心不再变,最后分出3个群:
- 群1:高消费、高频次(客户);
- 群2:中消费、中频次(稳定客户);
- 群3:低消费、低频次(潜力客户)。
实际用处:客户分群、新闻分类(把“体育新闻”自动归到一类)、异常检测(把和大多数数据不一样的“ outliers ”挑出来,比如信用卡盗刷)。
优点:速度快,适合大数据;缺点:得先确定k值(分几组),选不好结果就差,而且对“异常数据”很敏感。
4 回归算法:算“趋势”的神器,代表算法“线性回归”
回归算法专门处理“数值预测”问题,比如“预测下个月销量多少”“预测房价多少”。线性回归最简单,核心是找“数据里的直线趋势”。
举个例子:奶茶店想预测“气温和销量的关系”。
- 收集数据:气温20c时销量500杯,25c时600杯,30c时700杯;
- 画成图会发现,气温每涨5c,销量涨100杯,能画出一条直线;
- 这条直线就是“回归模型”,用它能预测:35c时销量大概800杯。
实际用处:销量预测、房价预测、股价走势分析、用电量预测,都离不开回归算法。
优点:计算简单,结果直观;缺点:只能处理“线性关系”,遇到复杂情况(比如销量随气温先涨后跌)就没用了。
5 神经网络算法:解“复杂题”的神器,代表“深度学习模型”
这是现在最火的算法,模仿人脑的神经结构,由无数个“节点”,能处理超复杂用大白话讲透
的数据,比如图像、语音、文本。
举个例子:用神经网络识别“ct片里的肿瘤”。
- 学完后,给一张新ct片,电脑会从“像素级”开始分析:先识别哪些区域是肺部组织,再找是否有异常密度区,最后判断异常区是否符合肿瘤特征,整个过程像医生看片一样,但速度快10倍以上,准确率甚至能超过经验丰富的主治医生。