云栈社区»论坛 › 技术文档「 Note & Doc 」 › 聊聊AI大模型是怎么“出生”的：从显卡“高烧”到参数“顿悟” ...

发回帖发新帖

5684 积分	1 好友	759 主题

发消息

聊聊AI大模型是怎么“出生”的：从显卡“高烧”到参数“顿悟”

发表于 2026-2-27 07:40:58 | 查看: 106| 回复: 0

由二进制代码与神经元图案构成的AI概念图

假如你想知道人工智能是怎么诞生的，最好的办法不是去问工程师，因为他们自己也说不太清。这就像问一只鸡是怎么从蛋里出来的——鸡知道，但它说不出来。

不过我们还是可以试试。

但在说AI之前，得先搞清楚一件事：AI和计算机，到底是啥关系？

先搞清关系

解释AI与计算机关系的文字说明图

简单说，AI不是另一套硬件，它是运行在计算机上的软件，一种特殊的软件。传统程序是人写好规则，计算机照做；AI程序是人喂给数据，让它自己找规律。所以，AI没有脱离计算机，它是计算机的一种高级用法。

搞清了这个，咱们继续。

一、计算机太死板，有人想让它聪明点

计算机程序化执行模式示意图

计算机有个大问题：它特别听话，但也特别死板。传统计算机的执行是完全程序化的，每一步都要人提前写好。

但总有人不满足。他们想：能不能让计算机自己学规则，而不是等人一条一条写？能不能让它看一堆猫的照片，自己总结“猫长什么样”？能不能让它读一堆文章，自己学会怎么写？

这个想法很好，但实现起来有个问题：怎么让计算机自己学？

答案是：写一个自动化程序，让它自己边学习边调整自己。这个自动化程序，就是AI的一部分，它造出了另一部分。

二、AI程序一启动，计算机就“发高烧”

对，AI的初始部分是一个自动化程序，把它安装在电脑上，它自动读取数据，自动调整参数，自动输出结果。听起来很简单，对吧？

但工程师们很快发现一个问题：这个程序一启动，计算机就开始狂发“高烧”。这不是比喻，是真发烧。

CPU与GPU在AI程序中的作用对比图

传统程序运行时，主要用CPU（中央处理器）。但AI不一样，它主要用GPU（图形处理器）。工程师们发现GPU特别适合做矩阵乘法——而AI算力的核心恰恰就是矩阵乘法。所以AI程序一跑，GPU利用率直接飙到百分之百，而且连续几周不降，直观效果就是“高烧不退”。

AI用的显卡叫计算卡，它每块卡比课本大一点，厚五厘米，重量一点五公斤左右。一个AI大模型训练不只用一个，是几万几十万个，密密麻麻层层叠叠堆在机房里。一启动程序开始训练，这几万几十万个计算卡同时疯狂运行，温度瞬间狂飚。

AI计算能耗与散热问题说明图

“高烧”到啥程度呢？单颗芯片峰值功耗能达到1200到1500瓦。一个AI服务器机柜的热设计功耗高达130-140千瓦，这相当于七十台家用空调同时开制热模式。最讽刺的是什么？每消耗10度电用于计算，就有3到4度电被用来给芯片“降温”。换句话说，AI每学一点东西，就要先消耗三分之一的能量来防止自己把自己烧坏。

三、散热只解决了一半，另一半是算力不够

工程师们先解决了散热问题。他们用液冷、用冷水，总之让计算机不再因为过热而罢工。但很快发现：散热解决了，计算机还是跑不动AI。为什么？

解释算力问题的文字说明图

因为计算机发烧的根本原因，不只是散热不好，还有算力不够。AI训练要做的事情太多了，一个大模型有几千亿个参数，每个参数都要反复调整，每次调整，都要做海量的矩阵乘法。一张显卡算不过来，十张还是不够，需要几万张一起上。

所以，解决算力问题的方法简单又粗暴：堆硬件，增加GPU显卡。

四、怎么堆？越多越好

先说清楚一件事：这里说的计算机（电脑），不是你家里那台。

数据中心内部结构描述图

你家里的电脑，主机箱比鞋盒大一点。但AI训练用的计算机，是一栋楼。走进数据中心，你会看到这样的景象：一排排黑色机柜，每个机柜两米高，一米宽，像超市的货架。每个机柜里插着几十块计算卡，机柜后面拖着粗粗的电缆。头顶是密集的管道，冷却液在里面流动。整个房间恒温二十二度，湿度恒定。这不是一个人能操作的设备，需要一个团队轮班值守，盯着监控面板，随时准备处理故障。

这就是AI的“身体”——一幢楼，耗电像一个小型社区。

AI算力规模与硬件堆叠说明图

你想让AI聪明一点？加机柜。还不够聪明？再加一层楼。还不对？那就盖一栋新楼。所以硅谷那帮人一直在盖新楼……这些计算卡是专门用来做矩阵乘法的。人脑靠神经元放电思考，AI靠显卡算乘法思考。至于为什么算乘法就能思考——没人真懂，但它确实管用。

好了，硬件堆好了，散热系统也装好了，接下来要做什么呢？喂数据。

五、喂它吃互联网上的所有文字

AI吃什么？吃文字。

网络爬虫工作原理与数据规模说明图

具体来说，是派出爬虫去互联网上抓取能找到的几乎所有文字：维基百科、新闻、小说、论文、代码、论坛帖子。数据量有多大？如果把训练数据打印出来，堆成一座山，这座山会比珠穆朗玛峰高。

这些数据不能直接喂，要先清洗、筛选，去掉广告、冗余和垃圾内容。

数据清洗与筛选过程说明图

但问题来了：什么是“垃圾”？最后达成的共识是：大部分互联网内容都是垃圾，但具体哪些是，说不准。工程师们只好写了一套过滤程序，让程序来决定什么是垃圾。换句话说，他们用AI来筛选AI要吃的东西。

清洗好的数据喂给AI，让它读。不是读一遍，是读了一遍又一遍。一句话、一篇文章、一本书比如《红楼梦》，要读百万遍。意义何在？让AI熟悉句式语法结构，知道贾宝玉和林黛玉经常在一起，知道领导讲话得先咳一声。

六、数字化：把文字切成“Token”

差不多了，该让AI读它自己的语言了。AI自己的语言是啥？就是电脑唯一能懂的语言——数字啊。这就得把文字翻译成数字，这叫“数字化”。

文本数字化与Token化说明图

程序要干的就是切字分词，把海量文字变成数字，把一段文字切成小块，每个小块叫一个 token 。中文大概一个字一个token，英文一个词一个token。给每个小块一个编号，AI不记词，它学的是token之间的关系。

比如“红楼梦”被切成“红101”“楼233”“梦514”，在它眼里“红楼梦”就变成了“101，233，514”。它不懂“红楼梦”是啥意思，但它知道这仨经常在一起，排列顺序是这样。

AI语义理解局限性说明图

AI知道“苹果”后面经常跟“公司”或“水果”，但它其实不知道苹果是什么。它没见过苹果，没吃过苹果，没闻过苹果的味道。它只知道在文字世界里，“苹果”这个词经常出现在某些语境里。

海量文本一百万遍读过了，数字化工程也完成了，下面开始智商训练。

七、训练的本质：猜字游戏

训练的本质是什么？是猜字游戏。

AI猜字游戏训练过程说明图

让AI看一个词或一段文字，猜下一个字是什么。猜对了，奖励（数字奖励）；猜错了，打手（调整参数），接着回来再猜。这个过程重复多少次？大概几万亿次。

在这个猜字游戏中，AI把学到的经验、发现的规律自动生成一组组的数字，保存下来，这就是参数。一个大模型有百亿千亿个这样的参数。训练的过程，就是AI不断调整这百亿千亿个参数，让自己猜得更准。

八、调整的秘诀：“反向传播”算法

可能有朋友觉得不可理解，AI怎么调整呢？

反向传播算法原理说明图

在程序里，工程师们事先就写入了一种叫“反向传播”的算法。简单说就是：猜错了，AI看看是哪里错了，然后从后往前推，看看每个参数应该改多少。就是这个算法让AI在电脑里来回奔波，反复猜反复改。

好了，咱回头说训练过程中，最紧张的时刻是什么？是梯度爆炸。

梯度爆炸与梯度消失问题说明图

什么叫梯度爆炸？就是AI学得太兴奋，把参数调整过头了，整个模型“疯了”。这时候，工程师们就要赶紧调低学习率，像给一个亢奋的人喂安眠药。还有一种相反的情况叫梯度消失，就是AI“闹情绪”不想学。这时候就要给它来一针“兴奋剂”，升高学习率。

整个训练过程，工程师们就坐在滚轮椅上喝咖啡盯着屏幕，几乎插不上手。能插手的就是看到它学嗨了乱调参数，给喂点“镇静剂”；看到它躺平厌学，给它打点“兴奋剂”。

九、漫长的等待与监控

要训练多久呢？大概两三个月。这两三个月里，工程师们能做什么？等待。

AI训练过程监控与问题处理说明图

他们每天盯着监控面板，看着损失值（衡量AI猜得有多错的数字）一点点下降。说明AI越来越会猜。有时候损失值会卡住，几天不下降。有时候AI会突然“发疯”，生成奇怪的内容。最可怕的是训练到一半，硬件出故障，整个训练可能要暂停，从上一个保存点恢复。

所以训练AI有点像种庄稼：你把种子埋下去，浇水施肥，然后等。可庄稼不会突然决定不长了，但AI会。

十、初生的数字婴儿：训练结束

再说说训练到底是啥场景。

AI训练损失曲线监控图

前面说的喂料、猜下一个字、猜错打手板、猜对发糖——这些事都不是人在做，是AI自己做的。人在干嘛？坐在监控室里捧着咖啡，盯着屏幕上那条叫“损失曲线”的线。

直到有一天，屏幕上的曲线突然躺平了。AI决定停止生长，再怎么练，曲线也不下降了。AI已经学到极限了，再练也学不到新东西了。这时候，训练就结束了。人站起来，伸个懒腰，说：“行了，出生了。”

对，AI终于被训练好了。

十一、珍贵的模型参数

这时候的AI长啥样呢？训练用的海量文本，该撤了。AI里剩下的，只有一堆它自己生成的参数，一串串数字，百亿千亿个。

对，AI大厂们砸巨资买显卡建机房，每天电费几十万，最终就搞出这堆数字！完全看不懂。不是谦虚，是真看不懂。这堆数字是AI自己整出来的，它们意味着什么，没人能说得清。

但这堆数字里面装着AI学到的所有东西：知识、规律、技能。这堆数字，就是AI的核心，老珍贵了。一个大模型厉不厉害，全看最终搞出的这堆数字。

所以，训练结束后的第一件事，就是赶紧把这堆数字打包，存好，备份，再备份。一旦丢了，几个月的训练，几千万的电费，全白瞎了。

十二、还不会“说话”的AI

这堆数字能写出像人的文章，说出像人的话吗？此时还不行。

你给它一个开头，它能接着往下写。你问它问题“美国的首都？”，它能给出回答“华盛顿”。但这还不算会“说话”，因为它只是学会了“下一个字可能是什么”。所以你非得让它说话，它可能东一句西一句，像喝醉了说胡话，因为它学到的东西太杂了。论坛里的吵架、小说里的对话、论文里的术语……全混在一起。它没有“身份”，没有“立场”。

工程师管这个叫“AI幻觉”。听着挺文艺，其实就是瞎编。你问：“拿破仑哪年死的？”它答：“1821年。”（对）你问：“拿破仑的微信号是多少？”它答：“Napoleon1821。”（瞎编）

这时候的AI就像一个刚出生的数字婴儿，会动，会看，但不知道什么是规矩。你得教它。所以下一步，是对齐训练，找人来跟AI对话，给它的回答打分，教它什么样的回答是对的。最后，模型还要经过量化，把精度降低，让模型变小一点，跑得快一点。然后，AI才可以上线。

十三、它到底有多聪明？

人类曾经梦想过千里眼、顺风耳、飞毛腿，这些梦想都实现了。但我敢肯定，从来没做过这样的梦：要造一台能说话、会聊天的机器。可现在这台叫AI的机器就摆在你面前。

它像一个读过很多书但从没出过门的人。它没吃过苹果，但比你更了解苹果；自诞生以来就一直呆在机房里，却能向你详细介绍全世界小到一个镇子的风土人情。

但你也得小心了，它也会一本正经、引经据典地胡说八道，能随口撒谎，说得有鼻子有眼。现在，工程师们又不满足了，他们想把AI变成AGI（通用人工智能），就在你读这篇文章时，那帮家伙正在机房里拼命堆显卡，建更大的AI楼，给AI喂数据、让它猜猜猜……当然也在继续给计算机“泡冷水澡”，防止它一兴奋把自己给烧坏了。

这无疑是人类迄今为止最伟大的发明之一。如果想了解更多关于AI、大模型训练乃至神经网络的深入技术讨论，不妨到云栈社区逛逛，那里有很多开发者在分享实战经验。

人工智能, GPU, Transformer, 机器学习, 模型训练