这个系列跟你以往看到的AI相关的文章都不同,它没有复杂的公式和具体的技术实现细节,而是尝试从最底层的逻辑出发,用大白话为初学者补充这个领域必要的基础知识。你也可以把它当成一篇休闲的“科技哲学文”来读,在里面领略数据与算法之美。
AI的强大表现,其根基在于海量的数据。曾几何时,图像识别的准确率只能徘徊在60%~70%的区间。这其中有机器学习算法本身和当时计算机硬件性能的局限,但更重要的是缺少足够多、足够好的数据。
一个里程碑式的事件发生在2009年,斯坦福大学的李飞飞教授和普林斯顿大学的李凯教授共同发起了ImageNet项目。他们收集了超过5000万张高清图片,标注了8万多个单词类别,并以此为基础举办图像识别竞赛,极大地推动了计算机视觉领域的发展。随后,有研究团队基于这种大规模数据集,提出了深度学习模型,进一步将图像识别的准确率提升到了新的高度。
这清晰地表明,大数据不仅能描绘客户行为、洞察商业规律,更是训练AI模型不可或缺的基本“原料”。
然而,AI对数据的要求是极其严苛的,并非所有数据都直接可用。有效的数据必须是完整的、大量的、蕴含业务含义的、并且带有特征标签的。很多原始数据需要经过一系列复杂的加工、处理、分析和挖掘,才能“喂”给AI模型,这个过程本身就是一门精深的学问。
一、大数据:不仅仅是“大”
“大数据”这个概念其实在20世纪就已经被提出。麦肯锡公司将其定义为“一种规模大到在获取、存储、管理、分析方面大大超出传统数据库软件工具能力范围的数据集合”。
时至今日,大数据的含义在不同的语境下有所不同。它既指复杂且庞大的数据集合本身,也指处理这些海量数据的一系列技术栈,有时还能代表一种由数据驱动的商业模式。

大数据的“大”是相对的,没有绝对的标准。它并不单纯指数据容量的大小,更要看按照特定需求处理这些数据的难度。真正的大数据通常具备“4V”特征:Volume(体量大)、Variety(种类多)、Velocity(处理速度快)、Value(价值密度低)。
这个“大”也带来了挑战——数据体量越大,其中真正有价值的信息比例可能越低,这种现象被称为“价值洼地”。数据的规模增长,往往意味着挖掘有效信息的难度剧增,数据中隐含的错误可能更多,面临的技术挑战也更大。
二、数据处理的流程与方法
数据的使用主要有两种基本方式:
- 数据面向“结果”:直接对数据进行分析和处理,旨在发现数据间的关联关系,挖掘出有价值的信息和洞察。
- 数据面向“过程”:通过机器学习的方式来处理数据或构建AI模型。此时,数据不再是直接分析的对象,而是作为训练模型的“输入原料”。在实际应用中,这两种方式常常混合使用。
下面我们主要展开介绍第一种方式,第二种方式将在后续关于机器学习算法的章节中详谈。
1. 数据收集——“从无到有”
这一步是整个数据价值链的起点,最难也最重要。很多人误以为AI的核心在于算法,其实不尽然。当前,AI的大部分基础算法已经发展得较为成熟,许多研究工作集中在算法的改进与优化上,其底层逻辑与十几年前并无本质区别。但数据收集则完全不同,它是所有后续工作的前提和基石。业内有一句经典论断:“数据决定了机器学习的上限,而算法只是尽可能逼近这个上限!”
数据收集的渠道:
- 一手数据:通过直接调查获得的原始数据,是数据源头,通常最新、也最有价值。
- 二手数据:别人调查后公布的数据,或是原始数据经过加工汇总后的数据。这类数据可能掺杂错误或存在信息滞后。
数据收集的重要性不仅体现在科学研究中,对AI产业的发展更是至关重要。在许多领域,研究人员乐于公开自己的算法,却很少公开自己的训练数据。正如谷歌首席科学家彼得·诺维格曾评价谷歌的产品优势:“我们没有更好的算法,有的只是更多的数据。”
2. 数据加工——“从有到能用”
a. ETL:数据的提取、转换与加载

数据加工通常分为三个核心步骤:抽取(Extract)、转换(Transform)、加载(Load),合称ETL。其目的是将分散、零乱、标准不统一的数据整合到一起,为后续的分析与决策提供统一、高质量的数据支撑。
- 数据抽取:难点在于数据源的多样性。数据可能保存在不同的地方,涉及不同的数据库软件、文件格式或网络接口,因此需要针对性地选择抽取方法。
- 数据转换:这是按照特定业务需求对数据进行聚合、统计、汇总的过程。它通常是ETL过程中花费时间最长的环节,可能占到总工作量的60%~70%。工作内容繁杂,例如:将字符型变量转换为数值型变量、处理缺失值、剔除异常数据、去重、检查并保证数据的一致性等。
- 数据加载:转换完成的数据,最终会被加载并写入数据仓库或数据湖中,实现集中存储。集中存储的好处很多,例如可以方便地将各种类型的数据关联起来进行分析,也能对它们执行高效的批量查询和计算。
不同业务场景对数据处理的速度要求不同,主要分为离线处理和实时处理:
- 离线处理:对实时性要求低,但处理的数据总量巨大,需要更多的存储资源。
- 实时处理:对实时性要求高,需要在单位时间内快速处理数据流,需要更强的计算资源。
数据加工是让原始数据发挥价值的基础性工作。市面上有很多成熟的ETL工具,单独执行一个数据加工任务时它们很好用。但当企业有成百上千个这样的任务需要调度和管理,并确保所有任务长期稳定、准确无误地运行时,依然面临着巨大的挑战。
b. 独热编码与特征工程

假设我们要用计算机描述三个人:
- A:32岁,男,程序员
- B:28岁,女,老师
- C:38岁,男,医生
如何用数字表示?年龄本身就是数字,无需改变;性别可以用0(女)或1(男)表示;对于职业这种类别型数据,常用“独热编码”(One-Hot Encoding)。假设世界上有30000种职业,我们为“程序员”、“老师”、“医生”分别编号为1、2、3。那么,这三个人的职业就可以用一个30000维的向量来表示,仅在对应编号的位置为1,其余全为0。
最终,A、B、C三个人可以分别用一个30002维的向量(年龄1维 + 性别1维 + 职业30000维)来表示。这种表示方法虽然清晰,但也带来了问题:机器学习要处理海量样本的海量维度,这需要消耗巨大的存储和计算资源。
“维度灾难” 是我们在选择算法和模型时必须考虑的关键因素。简单来说,有些特征需要转换编码(如独热编码),有些高维特征需要做降维处理,还有些特征可能是不必要的,可以进行剔除或整合。
因此,在应用机器学习算法之前,一个至关重要的准备工作就是——特征工程。特征工程,顾名思义,就是把现实世界的实体对象(如一个用户、一辆车、一张图片)“特征化”。它是将原始数据转化为适合模型训练的“特征”数据的过程,包括数据清洗、特征构建、特征选择和特征转换。
特征选择本身是一个复杂的组合优化问题。特征太多会导致模型训练缓慢、过拟合(即“维度灾难”);特征太少则可能无法充分刻画问题,导致模型表现不佳。特征工程的目的就是获取“好”的数据。这一步如果做得出色,即使使用相对简单的算法,也能取得不错的效果。
3. 数据分析:从解释到探索
数据分析、数据科学、数据挖掘、知识发现等术语有时会混用,没有绝对明确的界限。数据分析的终极目的是辅助决策。常见的分析场景有两类:
- 问题已知,答案未知。例如:“本月的销售额是多少?”、“哪个产品卖得最好?”。这是用数据来给出解释。
- 问题和答案都未知。例如:超市运营者并不清楚货架商品是否有更优的摆放方式,只能尝试性地从用户购物数据中寻找潜在规律。这种情况并不确定一定能找到答案,甚至一开始都不清楚需要哪些数据。这是对数据进行探索。
下面简单介绍几种经典的数据分析算法与应用。
a. 关联分析算法:发现“最佳组合”
许多电商APP会以“买了这个的人同时也买了...”或“最佳组合”的形式推荐商品。这背后常用的一种高效算法是 Apriori算法(先验算法)。它是一种经典的关联规则挖掘算法,用于从交易数据中发现那些经常一起出现的商品集合——即 频繁项集。

Apriori算法依赖于两个核心度量指标:支持度和置信度。
- 支持度:代表了某个商品或商品组合在整个数据集中出现的频率。例如,在100次购买记录中,商品A出现了30次,那么A的支持度就是30%。
- 置信度:代表了在出现某种商品(或组合)的情况下,另一种商品也出现的条件概率。例如,在所有购买A的30人中,有15人同时购买了B,那么规则“A -> B”的置信度就是15/30 = 50%。
在门店运营中,我们可以先用支持度过滤掉那些本身购买量就很少的冷门商品;然后用置信度来衡量商品间的关联强度,置信度越高,关联性越强,借此就能找到那些关联性很强的商品组合。
Apriori算法在计算时遵循一个 先验原则:如果某个项集是频繁的,那么它的所有子集也一定是频繁的;反之,如果某个项集是非频繁的,那么它的所有超集也一定是非频繁的。 这个原则能极大地剪枝搜索空间,提升算法效率。
它的计算过程本质上是“数数”,通过循环检验找出频繁共现的组合。以下是其简化步骤:
举例,假设我们拥有一批顾客购买商品的清单,Apriori算法计算过程如下:
第1步:设定支持度、置信度的阈值。
第2步:计算每个商品的支持度、去除小于支持度阈值的商品。
第3步:将商品(或项集)两两组合,计算支持度,去除小于支持度阈值的商品(或项集)组合。
第4步:重复上述步骤,直到把所有非频繁集合都去掉,剩下的频繁项集,就是经常出现的商品组合。
第5步:建立频繁项集的所有关联规则,计算置信度。
第6步:去掉所有小于置信度阈值的规则,得到强关联规则。对应的集合就是我们要找的具有
高关联关系的商品集合。
第7步:针对得到的商品集合,从业务角度分析实际意义。
b. 用户画像与商品推荐
除了关联分析,数据分析另一个常见的应用是构建 用户画像。用户画像是企业通过收集和分析用户的多维度数据,抽象出的一个虚拟的、代表某一用户群体的综合模型。它刻画了用户的社会属性、生活习惯、消费行为和偏好,为产品个性化设计、广告精准推送和营销策略制定提供依据。例如,抖音正是通过分析用户的点赞、收藏、观看时长和搜索历史等数据,来刻画用户兴趣,并推送他们可能感兴趣的内容。
c. 广告心理学与A/B测试
你是否曾为了使用商家给的优惠券而费力凑单,最终发现自己买了很多非必需品,花费反而更多了?这背后往往是商家在运用大数据分析、广告心理学和行为经济学的手段,巧妙地引导用户决策。
一个典型的心理学效应是 锚定现象:当人们对某个未知量进行估算时,最初接收到的信息(锚点)会像一个标杆,对后续的判断产生显著影响。例如,在订机票时,推荐列表中可能会有一个价格明显偏高的选项,它本身可能并不期望被选中,但其作用是充当“锚点”,让其他票价显得更实惠。
在互联网产品的优化中,“不断试错”是常见策略。当产品面临多个设计方案时,常采用 A/B测试 来做出数据驱动的选择:即随机将用户分为两组,一组使用方案A,另一组使用方案B,通过对比关键指标(如点击率、转化率)来决定哪个方案更优。实际上,复杂的A/B测试远不止两个版本,像广告标题的字体、颜色、句式等有无数种组合,都需要通过这种方式寻找最优解。
拓展:数据可视化
人是视觉动物,大脑皮层约40%的区域与视觉处理相关。因此,优秀的数据可视化至关重要。好的图表设计需要在信息量和可读性之间取得平衡,做到 信(真实准确)、达(清晰传达)、雅(简洁美观)。
三、大数据改变了什么?
大数据正在深刻改变我们的生活。所有的经验、时间、记忆在大数据时代都可能被重新量化和定义。
更重要的是,它改变了人类发现问题、解决问题的方式。以前对于海量数据,我们往往只能依赖抽样统计的方法。而在大数据时代,我们有可能直接分析全量数据,从而发现一些传统抽样方法无法洞察的细微规律和深层结论。
人们的思维方式也在从 专家经验驱动 转向 数据驱动。AlphaGo需要学习上亿盘棋局数据,智能汽车需要海量真实路况数据来训练,人脸识别系统也需要数以亿计的人脸图像作为基础。
有一句话说得很好:“知道数据在哪里,比知道数据本身更有价值!” 例如,比起死记硬背圆周率的小数点后一百位,知道如何快速、准确地查询到圆周率的值显然更有用。用理解和查找能力取代机械记忆,这是大数据和人工智能带给我们的另一重思维变革。
结语
海量、丰富且高质量的数据是AI的基石,它帮助AI模型不断自我学习和迭代改进。可以说,大数据赋予了AI“智能”的潜力。而将这种潜力转化为现实,让机器真正实现“智能”学习的过程,则必须依赖强大的机器学习算法。关于算法的精妙世界,我们将在后续的章节中继续探讨。
如果你对本文讨论的大数据处理、特征工程或机器学习基础有更多兴趣,希望与同行交流实践经验,欢迎来到 云栈社区 的相关板块参与讨论,这里聚集了许多深耕于数据智能领域的开发者。