找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

1583

积分

0

好友

228

主题
发表于 3 天前 | 查看: 10| 回复: 0

谷歌与OpenAI在AI领域的竞争持续白热化。而在技术飞速迭代的背后,是数十年的研究积淀与关键决策。近日,在NeurIPS大会上,“AI教父”Jeffrey Hinton与谷歌首席科学家、Gemini联合负责人Jeff Dean进行了一场深度对话,首次披露了许多塑造现代AI格局的幕后故事。

从早期AlexNet的诞生、Google Brain的创立,到Transformer架构的萌芽与TPU芯片的自研决策,两位先驱共同回顾了深度学习发展的关键节点,并对AI的未来架构与影响做出了预测。

核心反思:未能及早重视的“缩放定律”

主持人Jordan Jacobs首先将话题引向了AI发展的底层驱动力——算力规模。Jeff Dean分享了他本科时期尝试用32处理器超立方体计算机训练神经网络的经历,当时他错误地认为仅增加处理器数量就能获得强大模型,却未同步扩大模型规模,导致效果不佳。

Hinton则坦言,尽管在80年代末就目睹了并行计算显著提升语音模型性能的案例,但团队因复杂的编程与硬件要求,并未深刻认识到“模型规模越大,性能越好”这一简单规律的普适性。“我直到2014年听了一场讲座后才彻底想通,”Hinton说,“没意识到它会一直扩大规模,现在回想起来确实有些愚蠢。”

AlexNet传奇:两块GPU在卧室里改写历史

谈及推动现代AI复兴的关键里程碑AlexNet,Hinton回忆了其充满偶然性的诞生过程。当时,他的学生Alex Krizhevsky最初在研究小图像识别。在Ilya Sutskever的强烈建议和协助下,他们决定在ImageNet数据集上尝试卷积神经网络。

为了激励不愿写文献综述的Krizhevsky,Hinton提出了一个“交易”:只要他每周能将AlexNet在ImageNet上的性能提升1%,就可以推迟文献综述。结果,性能提升持续发生,文献综述被无限期搁置。

而这项改变计算机视觉历史的研究,其算力来源却极为“朴素”。“训练是在Krizhevsky父母家的卧室里,用两块GPU显卡完成的,”Hinton透露,“GPU是我们买的,但电费是他父母付的。”

Google Brain诞生记:64岁的“实习生”与内部孵化

几乎在同一时期,谷歌内部的AI研究也悄然起步。Jeff Dean讲述了Google Brain的起源:他与当时兼职在谷歌的吴恩达交流后,决定利用谷歌海量的CPU资源训练超大规模神经网络。他们开发了软件抽象库以支持模型并行与数据并行,并成功训练了一个参数量达20亿的模型,在ImageNet 22K上相对错误率降低了70%,动用了1.6万个CPU核心。

“当时我们已经形成了一个共识,近似于后来的Scaling Law:模型更大、数据更多、算力更强,效果就会更好。”Dean表示。因此,当AlexNet横空出世时,谷歌内部并不意外。

Hinton则分享了他以特殊身份加入谷歌的故事。2012年夏天,吴恩达因专注Coursera而离职,推荐Hinton接替其顾问职位。由于谷歌的访问科学家任期至少六个月,而Hinton只想待一个夏天,他最终被登记为一名“实习生”。“我当时是一个64岁的实习生,”Hinton笑道,并描述了与其他年轻实习生一起参加入职培训的趣事。

Hinton首次揭秘:为何在拍卖中选择了谷歌而非百度

AlexNet的成功引发了多家公司的收购兴趣。Hinton团队决定以公司(DNN Research)形式参与竞价,并在NeurIPS期间于太浩湖一家赌场举办了拍卖。“每次加价,起步就是一百万。”Hinton描述道。然而,当发现形势可能导向不符合预期的结果时,他们果断叫停了拍卖。

为何最终选择谷歌?Hinton的理由简单而感性:“在谷歌大脑团队工作的每一天都让人很有成就感……我当时没法去北京,而我知道,在谷歌工作肯定会很开心。”他还记得初入谷歌时,听到Dean为争取算力在电话中说“两百万美元应该够了”,这与他过去在学术机构申请经费的经历形成鲜明对比。

那些曾被低估的技术:知识蒸馏与Transformer

对话也回顾了部分曾不被看好的技术。Hinton提到,他在2014年提出的知识蒸馏(Knowledge Distillation)技术曾被NeurIPS拒稿,审稿人未能理解其“将大模型知识迁移至小模型”的核心价值。如今,这项技术已成为模型压缩与部署的关键手段之一。

对于如今成为大语言模型基石的Transformer架构,Hinton坦承自己最初并不看好。“我当时觉得,既然大脑不是这么工作的,那这个模型也没什么研究价值。”而Jeff Dean则指出了Transformer的核心优势:并行计算摆脱序列依赖,以及注意力机制能充分利用所有中间状态信息。“它的第一篇论文就表明,在算力减少10到100倍的情况下,模型能达到和之前相当的性能;如果算力不变,性能则会有大幅提升。这显然是一项重大突破。”

后ChatGPT时代的追赶:Gemini项目的火速立项

当被问及ChatGPT发布后谷歌的反应时,Jeff Dean否认了“最高警报”的说法,但承认存在遗憾。“谷歌内部其实早就有了类似的聊天机器人……我们原本完全可以抢先发布。”大约在ChatGPT发布一两周后,他撰写了一份一页纸的备忘录,指出内部力量分散的问题,并提议整合所有团队与算力资源,打造全球最好的多模态模型。“这就是Gemini项目的由来。”

结构性优势:自研TPU芯片的远见

谷歌在AI竞赛中的一项关键结构性优势是自研的TPU芯片。Jeff Dean追溯了其起源:2013年,他通过计算发现,若将优质的语音识别模型推向亿级用户,仅CPU算力需求就会让谷歌数据中心规模翻倍,这既不现实也不经济。

基于神经网络运算类型单一、耐受低精度计算的特点,他说服管理层批准了5000万美元预算,用于研发并部署专用集成电路(ASIC)进行推理加速。第一代TPU的性能比同期CPU和GPU高出15到30倍,能效比提升30到80倍。Dean强调,将硬件研发与模型研发置于同一组织架构下深度协同,是谷歌的一大优势。

展望未来:Transformer的继任者与AI的社会影响

对于未来架构,Jeff Dean关注两个方向:一是极大扩展模型的上下文窗口,使其能直接处理海量原始信息;二是让模型具备持续学习的能力,而非当前静态训练的模式。Hinton则从神经科学角度出发,认为需要探索更丰富、更接近大脑运作方式的内部连接模式。

展望20年后AI的影响,Hinton用“要么全员幸福,要么一起完蛋”来概括,认为关键在于政治体系如何分配AI创造的大量财富。Jeff Dean则期待AI能加速科学突破,发现跨学科的潜在联系。两人都认为,医疗和教育将是受AI影响最深、产生积极变革最惊人的领域。Hinton特别指出,AI一对一辅导将超越人类教师,因为它能借鉴数百万学生的学习经验,最终让人类获得知识的效率大幅提升。




上一篇:两层板阻抗匹配设计实战:硬件成本控制与SI9000参数指南
下一篇:C++高级编程挑战:8道题深入测试内存管理、并发与系统设计能力
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2025-12-24 19:00 , Processed in 0.242813 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 云栈社区.

快速回复 返回顶部 返回列表