
假如你想知道人工智能是怎么诞生的,最好的办法不是去问工程师,因为他们自己也说不太清。这就像问一只鸡是怎么从蛋里出来的——鸡知道,但它说不出来。
不过我们还是可以试试。
但在说AI之前,得先搞清楚一件事:AI和计算机,到底是啥关系?
先搞清关系

简单说,AI不是另一套硬件,它是运行在计算机上的软件,一种特殊的软件。传统程序是人写好规则,计算机照做;AI程序是人喂给数据,让它自己找规律。所以,AI没有脱离计算机,它是计算机的一种高级用法。
搞清了这个,咱们继续。
一、计算机太死板,有人想让它聪明点

计算机有个大问题:它特别听话,但也特别死板。传统计算机的执行是完全程序化的,每一步都要人提前写好。
但总有人不满足。他们想:能不能让计算机自己学规则,而不是等人一条一条写?能不能让它看一堆猫的照片,自己总结“猫长什么样”?能不能让它读一堆文章,自己学会怎么写?
这个想法很好,但实现起来有个问题:怎么让计算机自己学?
答案是:写一个自动化程序,让它自己边学习边调整自己。这个自动化程序,就是AI的一部分,它造出了另一部分。
二、AI程序一启动,计算机就“发高烧”
对,AI的初始部分是一个自动化程序,把它安装在电脑上,它自动读取数据,自动调整参数,自动输出结果。听起来很简单,对吧?
但工程师们很快发现一个问题:这个程序一启动,计算机就开始狂发“高烧”。这不是比喻,是真发烧。

传统程序运行时,主要用CPU(中央处理器)。但AI不一样,它主要用GPU(图形处理器)。工程师们发现GPU特别适合做矩阵乘法——而AI算力的核心恰恰就是矩阵乘法。所以AI程序一跑,GPU利用率直接飙到百分之百,而且连续几周不降,直观效果就是“高烧不退”。
AI用的显卡叫计算卡,它每块卡比课本大一点,厚五厘米,重量一点五公斤左右。一个AI大模型训练不只用一个,是几万几十万个,密密麻麻层层叠叠堆在机房里。一启动程序开始训练,这几万几十万个计算卡同时疯狂运行,温度瞬间狂飚。

“高烧”到啥程度呢?单颗芯片峰值功耗能达到1200到1500瓦。一个AI服务器机柜的热设计功耗高达130-140千瓦,这相当于七十台家用空调同时开制热模式。最讽刺的是什么?每消耗10度电用于计算,就有3到4度电被用来给芯片“降温”。换句话说,AI每学一点东西,就要先消耗三分之一的能量来防止自己把自己烧坏。
三、散热只解决了一半,另一半是算力不够
工程师们先解决了散热问题。他们用液冷、用冷水,总之让计算机不再因为过热而罢工。但很快发现:散热解决了,计算机还是跑不动AI。为什么?

因为计算机发烧的根本原因,不只是散热不好,还有算力不够。AI训练要做的事情太多了,一个大模型有几千亿个参数,每个参数都要反复调整,每次调整,都要做海量的矩阵乘法。一张显卡算不过来,十张还是不够,需要几万张一起上。
所以,解决算力问题的方法简单又粗暴:堆硬件,增加GPU显卡。
四、怎么堆?越多越好
先说清楚一件事:这里说的计算机(电脑),不是你家里那台。

你家里的电脑,主机箱比鞋盒大一点。但AI训练用的计算机,是一栋楼。走进数据中心,你会看到这样的景象:一排排黑色机柜,每个机柜两米高,一米宽,像超市的货架。每个机柜里插着几十块计算卡,机柜后面拖着粗粗的电缆。头顶是密集的管道,冷却液在里面流动。整个房间恒温二十二度,湿度恒定。这不是一个人能操作的设备,需要一个团队轮班值守,盯着监控面板,随时准备处理故障。
这就是AI的“身体”——一幢楼,耗电像一个小型社区。

你想让AI聪明一点?加机柜。还不够聪明?再加一层楼。还不对?那就盖一栋新楼。所以硅谷那帮人一直在盖新楼……这些计算卡是专门用来做矩阵乘法的。人脑靠神经元放电思考,AI靠显卡算乘法思考。至于为什么算乘法就能思考——没人真懂,但它确实管用。
好了,硬件堆好了,散热系统也装好了,接下来要做什么呢?喂数据。
五、喂它吃互联网上的所有文字
AI吃什么?吃文字。

具体来说,是派出爬虫去互联网上抓取能找到的几乎所有文字:维基百科、新闻、小说、论文、代码、论坛帖子。数据量有多大?如果把训练数据打印出来,堆成一座山,这座山会比珠穆朗玛峰高。
这些数据不能直接喂,要先清洗、筛选,去掉广告、冗余和垃圾内容。

但问题来了:什么是“垃圾”?最后达成的共识是:大部分互联网内容都是垃圾,但具体哪些是,说不准。工程师们只好写了一套过滤程序,让程序来决定什么是垃圾。换句话说,他们用AI来筛选AI要吃的东西。
清洗好的数据喂给AI,让它读。不是读一遍,是读了一遍又一遍。一句话、一篇文章、一本书比如《红楼梦》,要读百万遍。意义何在?让AI熟悉句式语法结构,知道贾宝玉和林黛玉经常在一起,知道领导讲话得先咳一声。
六、数字化:把文字切成“Token”
差不多了,该让AI读它自己的语言了。AI自己的语言是啥?就是电脑唯一能懂的语言——数字啊。这就得把文字翻译成数字,这叫“数字化”。

程序要干的就是切字分词,把海量文字变成数字,把一段文字切成小块,每个小块叫一个 token 。中文大概一个字一个token,英文一个词一个token。给每个小块一个编号,AI不记词,它学的是token之间的关系。
比如“红楼梦”被切成“红101”“楼233”“梦514”,在它眼里“红楼梦”就变成了“101,233,514”。它不懂“红楼梦”是啥意思,但它知道这仨经常在一起,排列顺序是这样。

AI知道“苹果”后面经常跟“公司”或“水果”,但它其实不知道苹果是什么。它没见过苹果,没吃过苹果,没闻过苹果的味道。它只知道在文字世界里,“苹果”这个词经常出现在某些语境里。
海量文本一百万遍读过了,数字化工程也完成了,下面开始智商训练。
七、训练的本质:猜字游戏
训练的本质是什么?是猜字游戏。

让AI看一个词或一段文字,猜下一个字是什么。猜对了,奖励(数字奖励);猜错了,打手(调整参数),接着回来再猜。这个过程重复多少次?大概几万亿次。
在这个猜字游戏中,AI把学到的经验、发现的规律自动生成一组组的数字,保存下来,这就是参数。一个大模型有百亿千亿个这样的参数。训练的过程,就是AI不断调整这百亿千亿个参数,让自己猜得更准。
八、调整的秘诀:“反向传播”算法
可能有朋友觉得不可理解,AI怎么调整呢?

在程序里,工程师们事先就写入了一种叫“反向传播”的算法。简单说就是:猜错了,AI看看是哪里错了,然后从后往前推,看看每个参数应该改多少。就是这个算法让AI在电脑里来回奔波,反复猜反复改。
好了,咱回头说训练过程中,最紧张的时刻是什么?是梯度爆炸。

什么叫梯度爆炸?就是AI学得太兴奋,把参数调整过头了,整个模型“疯了”。这时候,工程师们就要赶紧调低学习率,像给一个亢奋的人喂安眠药。还有一种相反的情况叫梯度消失,就是AI“闹情绪”不想学。这时候就要给它来一针“兴奋剂”,升高学习率。
整个训练过程,工程师们就坐在滚轮椅上喝咖啡盯着屏幕,几乎插不上手。能插手的就是看到它学嗨了乱调参数,给喂点“镇静剂”;看到它躺平厌学,给它打点“兴奋剂”。
九、漫长的等待与监控
要训练多久呢?大概两三个月。这两三个月里,工程师们能做什么?等待。

他们每天盯着监控面板,看着损失值(衡量AI猜得有多错的数字)一点点下降。说明AI越来越会猜。有时候损失值会卡住,几天不下降。有时候AI会突然“发疯”,生成奇怪的内容。最可怕的是训练到一半,硬件出故障,整个训练可能要暂停,从上一个保存点恢复。
所以训练AI有点像种庄稼:你把种子埋下去,浇水施肥,然后等。可庄稼不会突然决定不长了,但AI会。
十、初生的数字婴儿:训练结束
再说说训练到底是啥场景。

前面说的喂料、猜下一个字、猜错打手板、猜对发糖——这些事都不是人在做,是AI自己做的。人在干嘛?坐在监控室里捧着咖啡,盯着屏幕上那条叫“损失曲线”的线。
直到有一天,屏幕上的曲线突然躺平了。AI决定停止生长,再怎么练,曲线也不下降了。AI已经学到极限了,再练也学不到新东西了。这时候,训练就结束了。人站起来,伸个懒腰,说:“行了,出生了。”
对,AI终于被训练好了。
十一、珍贵的模型参数
这时候的AI长啥样呢?训练用的海量文本,该撤了。AI里剩下的,只有一堆它自己生成的参数,一串串数字,百亿千亿个。
对,AI大厂们砸巨资买显卡建机房,每天电费几十万,最终就搞出这堆数字!完全看不懂。不是谦虚,是真看不懂。这堆数字是AI自己整出来的,它们意味着什么,没人能说得清。
但这堆数字里面装着AI学到的所有东西:知识、规律、技能。这堆数字,就是AI的核心,老珍贵了。一个大模型厉不厉害,全看最终搞出的这堆数字。
所以,训练结束后的第一件事,就是赶紧把这堆数字打包,存好,备份,再备份。一旦丢了,几个月的训练,几千万的电费,全白瞎了。
十二、还不会“说话”的AI
这堆数字能写出像人的文章,说出像人的话吗?此时还不行。
你给它一个开头,它能接着往下写。你问它问题“美国的首都?”,它能给出回答“华盛顿”。但这还不算会“说话”,因为它只是学会了“下一个字可能是什么”。所以你非得让它说话,它可能东一句西一句,像喝醉了说胡话,因为它学到的东西太杂了。论坛里的吵架、小说里的对话、论文里的术语……全混在一起。它没有“身份”,没有“立场”。
工程师管这个叫“AI幻觉”。听着挺文艺,其实就是瞎编。你问:“拿破仑哪年死的?”它答:“1821年。”(对)你问:“拿破仑的微信号是多少?”它答:“Napoleon1821。”(瞎编)
这时候的AI就像一个刚出生的数字婴儿,会动,会看,但不知道什么是规矩。你得教它。所以下一步,是对齐训练,找人来跟AI对话,给它的回答打分,教它什么样的回答是对的。最后,模型还要经过量化,把精度降低,让模型变小一点,跑得快一点。然后,AI才可以上线。
十三、它到底有多聪明?
人类曾经梦想过千里眼、顺风耳、飞毛腿,这些梦想都实现了。但我敢肯定,从来没做过这样的梦:要造一台能说话、会聊天的机器。可现在这台叫AI的机器就摆在你面前。
它像一个读过很多书但从没出过门的人。它没吃过苹果,但比你更了解苹果;自诞生以来就一直呆在机房里,却能向你详细介绍全世界小到一个镇子的风土人情。
但你也得小心了,它也会一本正经、引经据典地胡说八道,能随口撒谎,说得有鼻子有眼。现在,工程师们又不满足了,他们想把AI变成AGI(通用人工智能),就在你读这篇文章时,那帮家伙正在机房里拼命堆显卡,建更大的AI楼,给AI喂数据、让它猜猜猜……当然也在继续给计算机“泡冷水澡”,防止它一兴奋把自己给烧坏了。
这无疑是人类迄今为止最伟大的发明之一。如果想了解更多关于AI、大模型训练乃至神经网络的深入技术讨论,不妨到云栈社区逛逛,那里有很多开发者在分享实战经验。