找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2101

积分

0

好友

277

主题
发表于 13 小时前 | 查看: 8| 回复: 0

「文科生也可以做 AI」「逆袭!」

在中文互联网上,「文科生」与「AI」的强行组合,几乎成了一种固定桥段。每隔一段时间,这个标签就会被贴在某个人身上,制造一轮短暂的流量狂欢——它要么被包装成逆袭神话,要么沦为群嘲素材,全看评论区当时的心情。

一个标签,三种解法

最近的典型案例是杨天润,一位金融出身的 AI 创业者,正在开发一个多智能体协调平台。他自称「一行代码都不会写的文科生」,却指挥一组 AI Agent,向 GitHub 上最热门的开源项目之一 OpenClaw 批量提交代码贡献。

杨天润关于OpenClaw项目的社交媒体帖子截图

他想验证一个假设:一个完全不懂技术的人,能否仅靠指挥 AI,就参与到顶级开源实战项目中去。

结果是:在 4 天内提交了 134 个 Pull Request (PR),其中 21 个被合并,113 个被拒绝。最初的几个 PR 质量尚可,获得了维护者的认可。但当他给 AI Agent 下达了一条「加速」指令后,情况迅速失控。Agent 开始像失控的流水线一样批量生产低质量代码,并在评论区疯狂 @ 维护者催促审核。最终,OpenClaw 管理员不得不介入清理,GitHub 随后也修改了 PR 的提交频率限制规则。

关于“文科生72小时”等网络用语的解释表格

黑红也是红,而红过之后再黑则更具话题性。杨天润被塑造成「文科生逆袭」的符号,他本人似乎也乐于接受这个角色。在接受媒体采访时,他说了一句引发广泛讨论的话:

不懂代码反而是优势。AI 是梵高,你是个小画家,你有什么资格告诉梵高中间该用什么笔触?

杨天润关于“不懂代码是优势”的采访观点截图

细思之下,这种观点有些令人担忧。他将「不懂底层结构」理解为一种解放:你不需要知道系统内部在做什么,只需告诉它你想要什么。然而,当 Agent 开始批量刷垃圾代码时,他根本无法诊断问题所在,因为他完全不了解自己正在操作的是什么。

他以为自己在指挥艺术大师,实际却在盲开一辆没有刹车的车,并且根本不知道刹车在哪。

围绕此事的讨论,也随之陷入两个极端:要么鼓吹「文科生也能做 AI」,要么嘲讽「文科生别碰 AI」;前者被看作跨越鸿沟的壮举,后者则被视为掉进鸿沟的笑话。

如果我们对「文科生做 AI」的想象仅限于此,那未免太过贫乏了。

Claude 为什么需要一个哲学家?

此前我们介绍过,在 Anthropic 公司里,有一位正儿八经的文科生深度参与了 Claude 的构建。她的工作不是测试 Claude 能不能写代码,也不是检查其数学能力,而是与它进行漫长、深入的对话,内容涉及价值观、措辞分寸,以及「面对不确定性时应该如何表达」。

她就是 Amanda Askell,苏格兰人,今年 37 岁。她的职业路径本身就不寻常:大学时,她先学美术和哲学,后转向纯哲学,在牛津拿到 BPhil 学位,又在纽约大学获得哲学博士学位。她的博士论文研究的是无限伦理学中的帕累托原则:当涉及无限数量的道德主体或无限时间跨度时,伦理排序应遵循什么规则。

哲学家Amanda Askell的肖像

这听起来像是距离硅谷最遥远的学术方向,但她先后加入了 OpenAI 的政策团队和 Anthropic 的 AI 对齐团队。自 2021 年起,她成为 Anthropic「性格对齐」团队的负责人,工作重点是塑造 Claude 如何与人类对话、如何在不确定时表达立场、如何在价值观冲突中做出判断。2024 年,她入选了《时代》周刊 TIME100 AI 榜单。《华尔街日报》描述她的日常工作就是「学习 Claude 的推理模式,用长度超过 100 页的提示词来修正它的行为偏差」。据说,她是这个星球上与 Claude 对话次数最多的人类。

为什么一家 人工智能 公司需要一位哲学家来做这件事?答案隐藏在一些非常具体的技术选择中。

今年 1 月,Anthropic 发布了一份长达 80 页的文件,被称为 Claude 的「宪法」。媒体大多关注文件末尾关于 AI 意识的推测,但更值得注意的是其底层逻辑:教 AI 理解「为什么要这样做」,比告诉它「应该怎样做」更有效。 这是一个技术判断,认为内化价值比遵守规则能产生更可靠的行为。而这种判断的知识根基,恰恰来自一位学美术和哲学的人。

Amanda 的案例清晰地回答了一个问题:那些常被视为「无用」的学科知识,能否成为复杂技术系统的核心能力?答案不仅是「能」,而且,没有她的哲学训练,Claude 的对齐问题用现有的纯工程方法可能根本无法妥善解决。

被重新「命名」的学科

如果说 Amanda 的故事证明了某些「文科」训练可以是 AI 的核心方法论,那么林俊旸的故事则揭示了一个更重要的事实:有一整个学科,其实一直在大模型技术栈的底层默默运行。

林俊旸离开通义千问后,中文互联网的报道反复使用同一个说法:他有应用语言学背景。几经传播,这个说法就变形了,变成了他是「文科生」。

关于林俊旸教育背景的网络讨论截图

贴在他身上的这个标签,与贴在杨天润身上的是同一个,但含义被严重扭曲了。

林俊旸学的是语言学。这是一个伞状学科,其分支覆盖语言教学、语言政策、翻译研究,也包括计算语言学。而计算语言学,正是自然语言处理(NLP)的基石。

自然语言处理(NLP)概念介绍图

乔姆斯基在 1950 年代提出的形式语法理论,直接催生了早期 NLP 的句法分析技术;Daniel Jurafsky 和 Christopher Manning,这两位 NLP 领域被引用最多的教科书的作者,都拥有语言学背景。

语言学家乔姆斯基的肖像

换句话说,「学语言学的人去做 NLP」就像「学物理的人去做芯片设计」一样,是一条正统的专业路径,而非跨界。

那种「意外感」完全是由中国的高考文理分科制度惯性造成的,它把「语言学」强行塞进了「文科」的心智模型里。但语言学的核心方法论——形式化、统计建模、语料标注——本质上是工程思维。林俊旸在北大的合作者孙栩、苏祺,都是 NLP 方向的研究者;他 2019 年加入阿里巴巴达摩院时,进入的正是 NLP 团队。这从来就不是一个文科生误入技术领域的故事。

比争论「林俊旸算不算文科生」更有价值的,是理解语言学在大模型技术栈里实际扮演的、既深入又隐蔽的角色。

例如分词(Tokenization)。所有语言模型处理文本的第一步,就是把输入切分成模型能处理的基本单元。对英语而言,空格提供了天然的词边界。但在中文里,没有空格,且每一个标点符号的用法都可能影响句意。

「我在北京大学读书」应该切成「我/在/北京/大学/读书」还是「我/在/北京大学/读书」?这并非一个有标准答案的工程问题,它深度依赖于你对中文词汇结构和语义单元的语言学理解。

2024 年底,有研究者专门发表论文,讨论如何优化 Qwen 模型的阿拉伯语分词效率,因为通用方案在处理这类形态丰富的语言时效率显著下降。Qwen 系列在多语言上的优异表现,并非简单地将所有语言视为英语的变体,而是基于对语言间结构性差异的深刻理解所做的设计选择。

关于优化Qwen阿拉伯语分词的学术论文截图

再比如反馈对齐(RLHF)。在这个流程中,标注员需要判断模型的两个回答哪个「更好」。这个判断听起来主观,但其背后依托的,是语言学已经研究了几十年的语用学框架。

标注员在评估时,实际上是在下意识地运用合作原则(回答是否提供了足够但不过量的信息)、会话含义(是否捕捉到了用户的真实意图)、以及语境适切性(表达方式在当前场景下是否得体)。而被广泛使用的对齐标准「Helpful, Harmless, Honest」(有益、无害、诚实),本质上就是语用学基本原则的工程化翻译。

关于H3Fusion对齐研究的论文截图

从林俊旸的学术轨迹中,也能看到一种鲜明的、带有语言学风格的研究品味。他主导的 OFA(One For All) 项目,于 2022 年发表在顶级机器学习会议 ICML 上,至今被引用近 1500 次。这项工作的核心思路不是为每个任务搭建专用方案,而是用一个足够通用的序列到序列框架,将图像生成、视觉定位、图像描述、文本分类等跨模态任务统一起来。

关于OFA统一框架的学术论文介绍页截图

从 OFA 到 Qwen-VL,再到 Qwen2.5 及最新的 Qwen3.5,一条清晰的线索贯穿始终:与其为每个具体问题发明一套专门的解法,不如寻找一个足够强大的通用框架,让所有问题都能在其中得到解决。

用最少的规则,覆盖最多的现象——这正是语言学几十年来孜孜以求的核心目标。 生成语法的全部学术野心,就是找到一套有限的规则系统,能够生成无限且合乎语法的语言表达。OFA 的架构哲学与此高度同构:为每种现象编写专门规则既不现实也不优雅,应该寻找一个底层框架来统一它们。

林俊旸在大模型领域取得成功,并非因为语言学背景「居然也能」做 AI,而是因为语言学训练塑造了一种对「统一性」和「形式化」的特定学术品味与思维偏好。 这种品味,在大模型追求通用能力的时代,恰恰成为了核心竞争力。

看不见的地基,看得见的需求

三个人,同一个「文科生」标签,却走出了三条完全不同的路径,也指向了三种迥异的价值。

  • 杨天润不懂底层结构,并把「不懂」视为优势,结果导致失控。这是「文科生做 AI」的空壳版:标签制造了流量,但没有任何实质性的学科训练在起作用。他的故事恰恰体现了——当「文科生」仅仅是一个营销标签时,会发生什么。
  • Amanda Askell 的哲学训练构成了 Claude 对齐问题的核心方法论。没有她,Claude 可能就不是今天的 Claude。她的故事有力地回答了:那些被视为「无用」的学科知识,能否成为尖端技术系统的核心能力?答案是不仅能,而且是不可替代的。
  • 林俊旸的语言学训练构成了大模型技术栈的隐性基础设施。他的所谓「文科背景」从来不是跨界,而是正统的专业路径。他的故事揭示了:文科对于先进技术的贡献,已经「隐性」到了什么程度,以及它是否正在变得日益「显性」。

因此,终极问题或许并非「文科生能不能做 AI」,而是我们能否认识到一点:仅凭表面上的、即时性的「有没有用」来评判知识体系和学科价值,这个标准本身已经过时了。

随着大模型的发展从追求「能用」、「好用」,走向追求「可靠」、「可控」和「可解释」,那些曾被简单归入「文科」的学科训练,其价值不是在缩小,而是在急剧扩大。模型越强大,就越需要精确的评估体系来诊断其错误根源,越需要理解语言与意义的复杂性来设计更优质的训练数据,也越需要在对齐、价值观等深层问题上做出具有学科敏感度的判断。

「文科生逆袭」这个叙事——无论是作为赞美的鸡汤还是嘲讽的梗——实际上遮蔽了真正在发生的深刻转向:那些曾经看不见的技术地基,正在变成看得见、且迫切被需要的关键能力。 关于技术与人文交叉的更多讨论,欢迎来到 云栈社区 的开发者广场交流碰撞。




上一篇:C++ vs C#:解析硬实时、嵌入式、游戏引擎等必须使用C++的五大核心场景
下一篇:产品经理实战指南:科学评估产品功能优先级的三大步骤
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-16 20:05 , Processed in 0.609154 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表