咱们先从一个生活场景切入:你打开购物APP首页立马弹出“猜你喜欢”的商品;刷短视频时系统总能推你爱看的内容;银行办信用卡时几分钟就告诉你“审核通过”——这些背后都藏着“数据挖掘”的影子。
有人说数据挖掘是“用电脑给数据算命”也有人说它是“在数据垃圾堆里找宝藏”。
其实都对却又不全对。
简单讲数据挖掘就是用自动化的技术从海量数据里挖出那些隐藏的、有用的规律和知识就像考古学家从一堆泥土里筛出珍贵文物只不过它挖的是“数据文物”。
接下来咱们就彻底掰扯明白:数据挖掘到底是啥、它和咱们常说的数据分析有啥不一样、挖数据要走哪些流程、有哪些核心“挖宝工具”、在生活里怎么发挥作用全程不用专业术语全是家常话。
一、先搞懂:数据挖掘到底是“啥玩意儿”? 要理解数据挖掘得先拆清楚它的核心要素。
就像学做饭得先懂“食材、工具、步骤”搞懂数据挖掘也得从“挖什么、怎么挖、挖来干啥”这三个基本问题入手。
1. 挖的“原料”:不只是数字还有各种“数据形态” 数据挖掘的原料就是“数据”但这数据可不是简单的“1、2、3”它就像一个大杂烩啥样的都有。
按“有没有固定格式”能分成两大类咱们用“厨房食材”打比方就好懂了: - 结构化数据:像切好的标准化食材 这类数据有明确的“格式规矩”就像超市里按重量分装的净菜拿过来就能直接用。
比如Excel表格里的“姓名、年龄、消费金额”银行APP里的“转账时间、金额、收款方”这些数据都存在整齐的表格里每一列的含义都清清楚楚。
这是数据挖掘最常用的原料处理起来最方便。
- 非结构化数据:像没处理的散装食材 这类数据没有固定格式就像刚从菜市场买回来的带泥蔬菜得先处理才能用。
比如你发的朋友圈文字、刷的短视频、语音消息、医院的CT影像、电商评论区的吐槽这些都是非结构化数据。
它们占了现在数据总量的80%以上挖起来更费劲但藏的宝贝也更多。
不管是哪种数据都得先“处理干净”才能挖。
就像做饭前要洗菜、切菜数据挖掘前也得把残缺的、错误的数据修好把非结构化数据转成能分析的格式——这一步叫“数据预处理”是挖宝的基础。
2. 挖的“目标”:找四种“宝贝”解决实际问题 数据挖掘不是瞎挖而是带着明确目标找“有用的规律”。
这些规律主要分四种覆盖了从“总结过去”到“预测未来”的全需求: - 关联知识:发现“藏在一块的秘密” 就是找数据之间的“捆绑关系”比如“买A的人大概率会买B”。
最经典的例子是沃尔玛的“啤酒与尿布”——超市分析销售数据时发现周末买尿布的男性顾客有很多会顺便买啤酒。
原来爸爸们买尿布时会给自己囤点酒超市于是把两者放一起销量立马涨了不少。
咱们购物APP的“买了又买”推荐就是靠这招挖出来的。
- 分类知识:给数据“贴标签、分好坏” 先给已有数据贴好标签再让电脑学会“给新数据贴标签”。
比如垃圾邮件过滤:先告诉电脑“含‘中奖’‘汇款’的邮件是垃圾邮件”电脑学完后收到新邮件就能自动分类。
银行审核信用卡也是如此把“有逾期记录、收入不稳定”的客户标为“高风险”新申请时就靠模型自动判断该不该通过。
- 聚类知识:给“同类数据”找组织 没有标签时让电脑自动把“长得像”的数据归为一类。
比如电商平台给客户分群:电脑分析“购买频率、消费金额、浏览偏好”后会自动把客户分成“高频高消的VIP”“偶尔买打折品的性价比用户”“只逛不买的潜力客户”商家再针对不同群体搞促销比瞎撒网管用多了。
- 时序知识:从“时间线”里找趋势 分析按时间排列的数据预测未来的变化。
比如奶茶店分析过去一年的销售数据发现“夏天芒果味卖得最好冬天热可可销量暴涨”还能预测明年夏天大概要备多少芒果原料;股票分析软件里的“涨跌预测”本质也是用这种方法挖时间数据里的规律。
3. 挖的“本质”:不是“分析数据”是“发现新知” 很多人会把数据挖掘和数据分析搞混其实两者差得老远。
咱们用“侦探破案”来对比一下子就能分清: 数据分析的核心目标是解释“过去发生了啥”靠人主导用统计、图表找答案结果是明确的结论比如“上月销量涨了20%”典型场景是老板问“为啥上月销量下滑了”。
而数据挖掘的核心目标是发现“隐藏的规律”、预测“未来会发生啥”靠算法自动挖电脑自己找规律结果是模型或规则比如“买A的人70%买B”典型场景是老板问“怎么让下月销量涨起来”。
这章没有结束请点击下一页继续阅读!。
本文地址大白话聊透人工智能数据挖掘从海量数据里淘金子的技术来源 http://www.jingaoyang.com
这个忍者不对劲
校花别追了我的富婆女友又萌又甜
重生之金融巨头
热血传奇这个战士真无敌
三国结拜关张开局灭黄巾
综穿之初昕
震惊团宠神豪宿主是什么邪操作
Heterospecies
铁血逆袭从楚云飞开始
孽徒子
绿茵教父传奇
终末纪元我的据点能升级
卷走家产资本家小姐被军官强娶了
侠盗燕子李三的100个传奇故事
江湖听风录
穿越兽世被五大兽夫追着跑