找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3879

积分

1

好友

536

主题
发表于 11 小时前 | 查看: 0| 回复: 0

由二进制代码与神经元图案构成的AI概念图

假如你想知道人工智能是怎么诞生的,最好的办法不是去问工程师,因为他们自己也说不太清。这就像问一只鸡是怎么从蛋里出来的——鸡知道,但它说不出来。

不过我们还是可以试试。

但在说AI之前,得先搞清楚一件事:AI和计算机,到底是啥关系?

先搞清关系

解释AI与计算机关系的文字说明图

简单说,AI不是另一套硬件,它是运行在计算机上的软件,一种特殊的软件。传统程序是人写好规则,计算机照做;AI程序是人喂给数据,让它自己找规律。所以,AI没有脱离计算机,它是计算机的一种高级用法。

搞清了这个,咱们继续。

一、计算机太死板,有人想让它聪明点

计算机程序化执行模式示意图

计算机有个大问题:它特别听话,但也特别死板。传统计算机的执行是完全程序化的,每一步都要人提前写好。

但总有人不满足。他们想:能不能让计算机自己学规则,而不是等人一条一条写?能不能让它看一堆猫的照片,自己总结“猫长什么样”?能不能让它读一堆文章,自己学会怎么写?

这个想法很好,但实现起来有个问题:怎么让计算机自己学?

答案是:写一个自动化程序,让它自己边学习边调整自己。这个自动化程序,就是AI的一部分,它造出了另一部分。

二、AI程序一启动,计算机就“发高烧”

对,AI的初始部分是一个自动化程序,把它安装在电脑上,它自动读取数据,自动调整参数,自动输出结果。听起来很简单,对吧?

但工程师们很快发现一个问题:这个程序一启动,计算机就开始狂发“高烧”。这不是比喻,是真发烧。

CPU与GPU在AI程序中的作用对比图

传统程序运行时,主要用CPU(中央处理器)。但AI不一样,它主要用GPU(图形处理器)。工程师们发现GPU特别适合做矩阵乘法——而AI算力的核心恰恰就是矩阵乘法。所以AI程序一跑,GPU利用率直接飙到百分之百,而且连续几周不降,直观效果就是“高烧不退”。

AI用的显卡叫计算卡,它每块卡比课本大一点,厚五厘米,重量一点五公斤左右。一个AI大模型训练不只用一个,是几万几十万个,密密麻麻层层叠叠堆在机房里。一启动程序开始训练,这几万几十万个计算卡同时疯狂运行,温度瞬间狂飚。

AI计算能耗与散热问题说明图

“高烧”到啥程度呢?单颗芯片峰值功耗能达到1200到1500瓦。一个AI服务器机柜的热设计功耗高达130-140千瓦,这相当于七十台家用空调同时开制热模式。最讽刺的是什么?每消耗10度电用于计算,就有3到4度电被用来给芯片“降温”。换句话说,AI每学一点东西,就要先消耗三分之一的能量来防止自己把自己烧坏。

三、散热只解决了一半,另一半是算力不够

工程师们先解决了散热问题。他们用液冷、用冷水,总之让计算机不再因为过热而罢工。但很快发现:散热解决了,计算机还是跑不动AI。为什么?

解释算力问题的文字说明图

因为计算机发烧的根本原因,不只是散热不好,还有算力不够。AI训练要做的事情太多了,一个大模型有几千亿个参数,每个参数都要反复调整,每次调整,都要做海量的矩阵乘法。一张显卡算不过来,十张还是不够,需要几万张一起上。

所以,解决算力问题的方法简单又粗暴:堆硬件,增加GPU显卡

四、怎么堆?越多越好

先说清楚一件事:这里说的计算机(电脑),不是你家里那台

数据中心内部结构描述图

你家里的电脑,主机箱比鞋盒大一点。但AI训练用的计算机,是一栋楼。走进数据中心,你会看到这样的景象:一排排黑色机柜,每个机柜两米高,一米宽,像超市的货架。每个机柜里插着几十块计算卡,机柜后面拖着粗粗的电缆。头顶是密集的管道,冷却液在里面流动。整个房间恒温二十二度,湿度恒定。这不是一个人能操作的设备,需要一个团队轮班值守,盯着监控面板,随时准备处理故障。

这就是AI的“身体”——一幢楼,耗电像一个小型社区。

AI算力规模与硬件堆叠说明图

你想让AI聪明一点?加机柜。还不够聪明?再加一层楼。还不对?那就盖一栋新楼。所以硅谷那帮人一直在盖新楼……这些计算卡是专门用来做矩阵乘法的。人脑靠神经元放电思考,AI靠显卡算乘法思考。至于为什么算乘法就能思考——没人真懂,但它确实管用。

好了,硬件堆好了,散热系统也装好了,接下来要做什么呢?喂数据

五、喂它吃互联网上的所有文字

AI吃什么?吃文字。

网络爬虫工作原理与数据规模说明图

具体来说,是派出爬虫去互联网上抓取能找到的几乎所有文字:维基百科、新闻、小说、论文、代码、论坛帖子。数据量有多大?如果把训练数据打印出来,堆成一座山,这座山会比珠穆朗玛峰高。

这些数据不能直接喂,要先清洗、筛选,去掉广告、冗余和垃圾内容。

数据清洗与筛选过程说明图

但问题来了:什么是“垃圾”?最后达成的共识是:大部分互联网内容都是垃圾,但具体哪些是,说不准。工程师们只好写了一套过滤程序,让程序来决定什么是垃圾。换句话说,他们用AI来筛选AI要吃的东西。

清洗好的数据喂给AI,让它读。不是读一遍,是读了一遍又一遍。一句话、一篇文章、一本书比如《红楼梦》,要读百万遍。意义何在?让AI熟悉句式语法结构,知道贾宝玉和林黛玉经常在一起,知道领导讲话得先咳一声。

六、数字化:把文字切成“Token”

差不多了,该让AI读它自己的语言了。AI自己的语言是啥?就是电脑唯一能懂的语言——数字啊。这就得把文字翻译成数字,这叫“数字化”。

文本数字化与Token化说明图

程序要干的就是切字分词,把海量文字变成数字,把一段文字切成小块,每个小块叫一个 token 。中文大概一个字一个token,英文一个词一个token。给每个小块一个编号,AI不记词,它学的是token之间的关系。

比如“红楼梦”被切成“红101”“楼233”“梦514”,在它眼里“红楼梦”就变成了“101,233,514”。它不懂“红楼梦”是啥意思,但它知道这仨经常在一起,排列顺序是这样。

AI语义理解局限性说明图

AI知道“苹果”后面经常跟“公司”或“水果”,但它其实不知道苹果是什么。它没见过苹果,没吃过苹果,没闻过苹果的味道。它只知道在文字世界里,“苹果”这个词经常出现在某些语境里。

海量文本一百万遍读过了,数字化工程也完成了,下面开始智商训练。

七、训练的本质:猜字游戏

训练的本质是什么?是猜字游戏。

AI猜字游戏训练过程说明图

让AI看一个词或一段文字,猜下一个字是什么。猜对了,奖励(数字奖励);猜错了,打手(调整参数),接着回来再猜。这个过程重复多少次?大概几万亿次。

在这个猜字游戏中,AI把学到的经验、发现的规律自动生成一组组的数字,保存下来,这就是参数。一个大模型有百亿千亿个这样的参数。训练的过程,就是AI不断调整这百亿千亿个参数,让自己猜得更准。

八、调整的秘诀:“反向传播”算法

可能有朋友觉得不可理解,AI怎么调整呢?

反向传播算法原理说明图

在程序里,工程师们事先就写入了一种叫“反向传播”的算法。简单说就是:猜错了,AI看看是哪里错了,然后从后往前推,看看每个参数应该改多少。就是这个算法让AI在电脑里来回奔波,反复猜反复改。

好了,咱回头说训练过程中,最紧张的时刻是什么?是梯度爆炸

梯度爆炸与梯度消失问题说明图

什么叫梯度爆炸?就是AI学得太兴奋,把参数调整过头了,整个模型“疯了”。这时候,工程师们就要赶紧调低学习率,像给一个亢奋的人喂安眠药。还有一种相反的情况叫梯度消失,就是AI“闹情绪”不想学。这时候就要给它来一针“兴奋剂”,升高学习率。

整个训练过程,工程师们就坐在滚轮椅上喝咖啡盯着屏幕,几乎插不上手。能插手的就是看到它学嗨了乱调参数,给喂点“镇静剂”;看到它躺平厌学,给它打点“兴奋剂”。

九、漫长的等待与监控

要训练多久呢?大概两三个月。这两三个月里,工程师们能做什么?等待。

AI训练过程监控与问题处理说明图

他们每天盯着监控面板,看着损失值(衡量AI猜得有多错的数字)一点点下降。说明AI越来越会猜。有时候损失值会卡住,几天不下降。有时候AI会突然“发疯”,生成奇怪的内容。最可怕的是训练到一半,硬件出故障,整个训练可能要暂停,从上一个保存点恢复。

所以训练AI有点像种庄稼:你把种子埋下去,浇水施肥,然后等。可庄稼不会突然决定不长了,但AI会。

十、初生的数字婴儿:训练结束

再说说训练到底是啥场景。

AI训练损失曲线监控图

前面说的喂料、猜下一个字、猜错打手板、猜对发糖——这些事都不是人在做,是AI自己做的。人在干嘛?坐在监控室里捧着咖啡,盯着屏幕上那条叫“损失曲线”的线。

直到有一天,屏幕上的曲线突然躺平了。AI决定停止生长,再怎么练,曲线也不下降了。AI已经学到极限了,再练也学不到新东西了。这时候,训练就结束了。人站起来,伸个懒腰,说:“行了,出生了。”

对,AI终于被训练好了。

十一、珍贵的模型参数

这时候的AI长啥样呢?训练用的海量文本,该撤了。AI里剩下的,只有一堆它自己生成的参数,一串串数字,百亿千亿个。

对,AI大厂们砸巨资买显卡建机房,每天电费几十万,最终就搞出这堆数字!完全看不懂。不是谦虚,是真看不懂。这堆数字是AI自己整出来的,它们意味着什么,没人能说得清。

但这堆数字里面装着AI学到的所有东西:知识、规律、技能。这堆数字,就是AI的核心,老珍贵了。一个大模型厉不厉害,全看最终搞出的这堆数字。

所以,训练结束后的第一件事,就是赶紧把这堆数字打包,存好,备份,再备份。一旦丢了,几个月的训练,几千万的电费,全白瞎了。

十二、还不会“说话”的AI

这堆数字能写出像人的文章,说出像人的话吗?此时还不行。

你给它一个开头,它能接着往下写。你问它问题“美国的首都?”,它能给出回答“华盛顿”。但这还不算会“说话”,因为它只是学会了“下一个字可能是什么”。所以你非得让它说话,它可能东一句西一句,像喝醉了说胡话,因为它学到的东西太杂了。论坛里的吵架、小说里的对话、论文里的术语……全混在一起。它没有“身份”,没有“立场”。

工程师管这个叫“AI幻觉”。听着挺文艺,其实就是瞎编。你问:“拿破仑哪年死的?”它答:“1821年。”(对)你问:“拿破仑的微信号是多少?”它答:“Napoleon1821。”(瞎编)

这时候的AI就像一个刚出生的数字婴儿,会动,会看,但不知道什么是规矩。你得教它。所以下一步,是对齐训练,找人来跟AI对话,给它的回答打分,教它什么样的回答是对的。最后,模型还要经过量化,把精度降低,让模型变小一点,跑得快一点。然后,AI才可以上线。

十三、它到底有多聪明?

人类曾经梦想过千里眼、顺风耳、飞毛腿,这些梦想都实现了。但我敢肯定,从来没做过这样的梦:要造一台能说话、会聊天的机器。可现在这台叫AI的机器就摆在你面前。

它像一个读过很多书但从没出过门的人。它没吃过苹果,但比你更了解苹果;自诞生以来就一直呆在机房里,却能向你详细介绍全世界小到一个镇子的风土人情。

但你也得小心了,它也会一本正经、引经据典地胡说八道,能随口撒谎,说得有鼻子有眼。现在,工程师们又不满足了,他们想把AI变成AGI(通用人工智能),就在你读这篇文章时,那帮家伙正在机房里拼命堆显卡,建更大的AI楼,给AI喂数据、让它猜猜猜……当然也在继续给计算机“泡冷水澡”,防止它一兴奋把自己给烧坏了。

这无疑是人类迄今为止最伟大的发明之一。如果想了解更多关于AI、大模型训练乃至神经网络的深入技术讨论,不妨到云栈社区逛逛,那里有很多开发者在分享实战经验。




上一篇:杰弗里·辛顿最新演讲:从神经网络到AI理解,预测超级智能的真正风险
下一篇:我为什么说一人公司的本质不是一个人?从打工人到超级个体的思维跃迁
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-27 18:43 , Processed in 1.370440 second(s), 47 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表