找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

5267

积分

0

好友

698

主题
发表于 1 小时前 | 查看: 3| 回复: 0

今天看了 Andrej Karpathy 关于他一次炉边谈话要点的文章,里面梳理出的三条线索挺有启发的。我把它整理成了中文版,分享出来。

我想强调的第一个线索是:LLM 的意义远不止“加速已有事物”(比如编程)。这里有三个新领域的例子:

  1. menugen(应该是 AK 之前做的一个 App):一个可以被 LLM 完全“吞没”的应用,压根不需要任何经典代码。输入一张图片,输出也是一张图片,LLM 可以原生地完成这件事,根本无需一个传统 App。
  2. .md 技能代替 .sh 脚本:为什么还要写一个复杂的 Software 1.0 bash 脚本来安装某个软件?直接用文字描述安装过程,然后告诉你的 LLM “把这个给它看”就行了。LLM 扮演着一个高级的英语解释器角色,它可以智能地适配你的安装环境,即时调试一切。
  3. LLM 知识库:这是一个用经典代码不可能实现的例子,因为它是对非结构化数据(知识)——来自任意来源、任意格式的数据,包括纯文本文章等——进行计算。这也是之前 AK 基于 Markdown、图片、Wiki 及 LLM 构建知识库的理论和实践。

我之所以强调这些,是因为在每一次新的范式变革中,显而易见的东西往往都是在加速或改进已有事物。但当我们看到上面这些例子时,你会发现:有些东西根本不该存在了(比如 1 和 2),而有些则在以前根本无法实现(比如 3)。

第二个(持续进行中的)线索是试图解释 LLM 能力“参差不齐”(jaggedness)的模式。为什么同一个产物,可以一边连贯地重构一个 10 万行代码库,一边又让你走去洗车行洗车(那个被人类嘲笑的步行洗车问题)?

我之前曾从领域的可验证性来解释这点,这里我想进一步补充说,这还与经济因素有关。因为收入(或者说 TAM)决定了前沿实验室在 RL 阶段会选择将哪些内容打包进训练数据分布中。你要么在数据分布中,仿佛在 RL 电路的轨道上飞速前进;要么就在数据分布之外的丛林里,用砍刀开路。话虽如此,道理还是那个道理。

我对目前这个解释还不完全满意,但这确实是一个持续的挑战——如果你想在实际中利用 LLM 的强大能力,同时又想避开它的陷阱,就必须为 LLM 的能力建立一个准确的心智模型。这也引出了……

最后一个线索是 Agent 原生经济。产品和服务如何分解为传感器、执行器和逻辑(分散在 1.0、2.0、3.0 计算范式中)?我们如何让信息对 LLM 最大化地清晰可读?快速兴起的 Agent 工程及其技能组合是怎样的?一些相关的招聘实践又会如何演变?甚至,它可能还涉及一个完全由神经网络处理大部分计算,而由(经典)CPU 作为协处理器辅助的梦想或暗示。

云栈社区 ,我们同样关注这些正在重塑开发者未来的技术趋势,并期待与你一起碰撞出更多思想火花。




上一篇:LABUBU冰箱一夜溢价4000元,谁在抢藏?谁在炒卖?
下一篇:1.8B端侧翻译模型硬刚72B:腾讯混元Hy-MT1.5离线跑赢云端大模型
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-5-2 19:08 , Processed in 0.784853 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表