数据挖掘：从海量数据里“淘金子”的技术（3 / 7）

易。

而且这不是一劳永逸的，得定期回头看：比如过了半年，客户偏好变了，就得重新挖；模型准确率下降了，就得用新数据重新训练。挖掘是个“挖→用→再挖”的循环过程。

三、讲工具：数据挖掘的“五大挖宝神器”

数据挖掘的算法有几十种，但最常用的就五种，像挖宝的五件工具：有的擅长找关联，有的擅长分群，各有各的本事。咱们用生活例子讲，不用公式也能懂。

1 关联规则挖掘：找“搭子”的神器，代表算法“apriori”

这是最接地气的算法，专门找“经常一起出现的东西”，核心是算两个数：支持度（两样东西一起出现的频率）和置信度（买了a之后买b的概率）。

举个例子：超市分析1000笔订单，发现“买面包的有200笔，买牛奶的有150笔，面包和牛奶一起买的有100笔”。

如果这两个数都超过设定的标准（比如支持度≥5，置信度≥40），就形成一条关联规则：“买面包→买牛奶”。超市就可以把牛奶放在面包区旁边，促进销量。

实际用处：除了超市货架摆放，电商的“商品推荐”（买手机壳推手机膜）、外卖的“套餐搭配”（点汉堡推可乐），都是靠这个算法挖出来的。

优点：简单易懂，能直接落地；缺点：数据量大时算得慢，容易挖出“没用的关联”（比如“买牙刷的人多买牙膏”，这是常识，不用挖）。

2 分类算法：贴“标签”的神器，代表算法“决策树”

分类算法就像“教电脑做选择题”，先给它看“带答案的题目”，学完后自己给“新题目写答案”。决策树是最直观的分类算法，长得像一棵倒过来的树，每一个分叉都是一个判断条件。

举个例子：用决策树给“贷款申请人”

电脑学完这棵“树”后，遇到新申请人，顺着分叉一路判断，就能自动给出“通过”或“拒绝”的结论。

实际用处：垃圾邮件过滤、信用卡审核、疾病诊断（根据症状判断是否患病），都常用决策树。

优点：过程看得见，能解释“为啥这么判断”；缺点：遇到复杂数据容易“学偏”（比如只记住个别案例）。

3 聚类算法：找“同类”的神器，代表算法“k-ans”

聚类算法是“无师自通”的高手，不用给标签，能自动把“相似的数据”聚成一堆。k-ans是最常用的，“k”就是想分的组数。

举个例子：电商用k-ans给1000个客户分群，设k=3（分3类）。

1 先随机选3个“种子客户”当临时的“群中心”

2 算每个客户到3个中心的“距离”（距离越近越相似，距离用“消费金额、购买频率”

3 把客户分到最近的群里，然后重新算每个群的“新中心”里所有人的平均消费金额）；

4 重复2、3步，直到中心不再变，最后分出3个群：

- 群1：高消费、高频次（客户）；

- 群2：中消费、中频次（稳定客户）；

- 群3：低消费、低频次（潜力客户）。

实际用处：客户分群、新闻分类（把“体育新闻”自动归到一类）、异常检测（把和大多数数据不一样的“ outliers ”挑出来，比如信用卡盗刷）。

优点：速度快，适合大数据；缺点：得先确定k值（分几组），选不好结果就差，而且对“异常数据”很敏感。

4 回归算法：算“趋势”的神器，代表算法“线性回归”

回归算法专门处理“数值预测”问题，比如“预测下个月销量多少”“预测房价多少”。线性回归最简单，核心是找“数据里的直线趋势”。

举个例子：奶茶店想预测“气温和销量的关系”。

- 收集数据：气温20c时销量500杯，25c时600杯，30c时700杯；

- 画成图会发现，气温每涨5c，销量涨100杯，能画出一条直线；

- 这条直线就是“回归模型”，用它能预测：35c时销量大概800杯。

实际用处：销量预测、房价预测、股价走势分析、用电量预测，都离不开回归算法。

优点：计算简单，结果直观；缺点：只能处理“线性关系”，遇到复杂情况（比如销量随气温先涨后跌）就没用了。

5 神经网络算法：解“复杂题”的神器，代表“深度学习模型”

这是现在最火的算法，模仿人脑的神经结构，由无数个“节点”，能处理超复杂用大白话讲透

的数据，比如图像、语音、文本。

举个例子：用神经网络识别“ct片里的肿瘤”。

- 学完后，给一张新ct片，电脑会从“像素级”开始分析：先识别哪些区域是肺部组织，再找是否有异常密度区，最后判断异常区是否符合肿瘤特征，整个过程像医生看片一样，但速度快10倍以上，准确率甚至能超过经验丰富的主治医生。