找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2965

积分

0

好友

413

主题
发表于 15 小时前 | 查看: 0| 回复: 0

本文记录了作者从2015年开启AI科研之路到2026年正式入职英伟达的完整历程。文章按时间线复盘了从本科、博士到进入工业界的各个阶段,包括其中的科研困惑、心态转变与职场抉择。

成为一名人工智能研究者意味着什么?倘若回到初涉这个领域时,有人问我这个问题,我大概会描述成这样:一份追逐最前沿技术、发明酷炫模型让世界自动化、拿着丰厚薪水并赢得广泛认可的职业。然而历经十一年后,我意识到那样的愿景远不足以概括这段旅程的复杂况味。

最近,许多师弟师妹跑来问我一些似曾相识的问题:“博士生涯到底是什么样的?”“怎么才能顺利发论文?”“我该去学术界还是工业界?”看着他们的眼睛,我仿佛看到了年轻时的自己——满怀雄心壮志,却对前方的重重迷雾和应对之道一无所知。

这篇博客并不是教你如何在顶刊发文或入职名企的“成功学指南”。相反,它是我在各个阶段痛苦挣扎后的经验碎片与反思合集。这里记录了那些从未发表的论文、那些陷入自我怀疑的深夜,以及那些必须在“随大流”和“随本心”之间做出的抉择。我写下这些,是想送给十一年前的自己,也希望这些感悟能帮你拨开一点眼前的迷雾。

这是一篇深度长文,大约需要19分钟。沿途我放了一些自己拍的照片,希望能让这段讲述更鲜活、更有温度。

2015-2017:你到底想做什么?

2015年我刚开始本科科研时,深度学习正以摧枯拉朽之势重塑这个领域。CNN和RNN让许多经典的AI基准测试成绩突飞猛进。那种“让机器从原始数据中自主学习决策”的震撼,远比课本上教的“手动编程控制机器”要迷人得多。很快,我就发现钻研这些技术比上课有意思多了。我花了好几个月去拆解 word2vec 的C/C++实现,试图搞清楚机器在那些神奇的表征中到底学到了什么。

我人生第一个“顿悟时刻”出现在一次RNN实验中:我发现用拼音作为中文输入的token,效果竟然比传统的分词还要好。这纯粹是好奇心驱动下的发现。然而,当时的我对所谓的“科研周期”毫无概念。结果,这个项目连同其他几个尝试都无疾而终,最后我的简历上只剩下几段项目描述和一篇没什么反响的arXiv预印本。

转机出现在日本三菱电机的暑期实习。那是我第一次走出课堂,进入真正的研究实验室。我观察到研究员有两种风格:一种擅长头脑风暴,能用绝佳的点子说服别人;另一种则在执行和实现上出类拔萃。我发现自己更倾向于前者,因为只有当我真正理解一个点子为什么有效时,我才有动力去把它做出来。这让我意识到,我可能需要一个博士学位。

但当我准备申请材料时,现实却给了我一记耳光:我的论文发表数是零。周围的同龄人大多已经有了二作甚至共同一作,而我手里只有一堆实验代码、满脑子无处安放的好奇心,以及尚未被证明的“品味”。那一刻,我觉得自己荒废了最关键的几年。

反思: 直到几年后我才领悟到,那些看似“低效”的年份真正的价值在于:确认了志向所在。科研是一场长达十几年的马拉松,起跑的几英里跑多快并不重要,重要的是你是否有动力跑完全程。但在接下来的章节你会看到,即便有最强的动力,也会被那些仿佛专门为了劝退你而设计的挑战所消磨。

本科时期是一个容错率极高、极其宝贵的探索窗口。一旦你进入博士项目或工业实验室,系统就会要求你产出而非洞察,要求你压榨式开发而非探索。你会面临一种持续的压力,迫使你变得“功利”——去追逐热点、发表平庸的论文。如果你在那之前还没找到自己的志心所在,你可能会陷入一种“无目的产出”的死循环,你会发现,当世界已经开始向你索要产出时,再想找回初心就难得多了。

一只在草坪上安睡的虎斑猫
“不去日本,你很难体会到那种日式美学。你必须亲眼去看看。”

2017-2019:发表一篇论文需要什么?

意识到论文产出的匮乏后,我在本科最后一年去了MSRA(微软亚洲研究院),想看看顶尖实验室是怎么发论文的,也想试试自己有没有机会。当时我被分配到目标检测组,那是当时最火的赛道,我第一次感受到了科研就像是一场竞技。我的队友们个个是顶级玩家,他们能每周追踪最新的arXiv动态,一眼识破数据中的猫腻,甚至能随口背出ResNet的特征图维度。

我的导师教了我至关重要的一课:工程能力是科研想法的基石。 只有当你掌控了底层实现,你才有余力去构思并实现更复杂的想法。由于Faster R-CNN的实现极其复杂,我被迫养成了极其严谨的工程习惯。为了在GPU上加速某些框架不支持的操作,我学会了手写CUDA kernel。虽然实习结束时还是没发论文,但我感觉自己已经攒够了发一篇顶刊所需的工程底气。

我带着这些技能开始了在加拿大的博士生涯。第一个大项目是开发一个用于大规模图节点嵌入训练的多GPU系统。在经历了三个月与编译器漏洞和CUDA错误的搏斗后,我终于找到了一种方法,能将十亿级参数分散在多个GPU上——这本质上是数据并行与模型并行的结合。

然而,让系统跑起来只是成功了一半。到了写论文阶段,我完全不知道如何写出一篇能发表的文章,也不知道如何协作。我的导师重写了整个Introduction,重新架构了我们的叙事。当他让我润色剩下的部分时,我误以为只是改改语法和错别字,而不是顺着新逻辑重写。在截止日期的混乱中,我甚至在没备份的情况下覆盖了他修改过的一些地方。最后我们熬了好几个通宵才把逻辑对齐,在最后一刻提交了申请。几个月后,这篇论文被WWW录用了。

反思: 回头看,高效的科研与其说靠过人的天赋,不如说靠专业性。把你的代码库想象成一个观测未知宇宙的天文台:为了获得最好的观测结果,它必须经过高精度的校准,并配备最新的技术。一旦你能确认1%的性能提升是真实信号而非噪音,科研就从“瞎猜”变成了“精测”。当你拥有坚实的基建和良好的实验记录时,达到SOTA(业内最优)往往是水到渠成的事。

新手研究员常把写论文当成“记流水账”,因为那是他们读论文时最关注的细节。但学术界残酷的真相是:大多数读者根本没时间。一篇优秀的论文要学会尊重读者——从“我做了什么”的编年史,转向“为什么这必须发生”的策略性论证。除非你能将工作与领域内共同面临的困境联系起来,否则再惊艳的结果也只是一个没人关心的答案。

雪地中独自前行的人影
“在蒙特利尔,路并不总是在那里的。有时你得自己踩出来。”

2019-2020:你如何在一个稀疏反馈的系统中生存?

“博士需要能够独立完成一个项目,这比你目前为止做到的都要难。”

导师在录用第一篇论文后对我说了这番话。当时我还没领会其中的分量。我以为自己已经掌握了发表论文的“公式”,独立不过是换个方式如法炮制。我错了。我即将进入一段“除非你证明自己能独自穿越迷雾,否则系统绝不给你任何反馈”的真空期。

我先是尝试从语言模型中提取知识图谱。我和合作者在春节期间手动标注评测数据。记得半夜离开实验室时,体感温度降到了零下20度。街上雪厚得认不出路,铲雪机推开的小径像战壕一样。虽然身体在风雪中战栗,但我的脑子里全是模型。

然而,学术系统的残酷程度不亚于气候。我们被拒了——不是因为模型有问题,而是因为我们不懂如何向社区“推销”一个新任务。随后疫情爆发,我转向药物联用研究,跑了上百个版本的生物图谱实验……结果,又是被拒。

那一刻我意识到,研究员不是机器人。即便再有天赋和动力,接二连三的拒信也会让你怀疑自己是否真的适合读博。随着世界因疫情停摆、室友搬走,我突然陷入了每天一个人工作、吃饭、生活的孤岛。我的英语开始退步,中文也是。我知道,在寂静击碎我之前,我必须做点什么。

为了生存,我开始建立自己的正向反馈循环。我花了好几个月写了一个一万多行代码的软件库。科研的奖励信号既稀疏又嘈杂,但工程开发能提供可预测的中间奖励:一个新的功能、一次更快的运行、一段优雅的重构。我还拿起了相机,开始漫无目的地走遍蒙特利尔的每个角落。在摄影中,没有“必须搞定”的压力——我只需要捕捉那些打动我的瞬间。

最意外的“自我救赎”来自我的新室友——一个乌克兰学生。对于一个只在同胞圈子里生活过的人来说,和完全不同文化背景的人同住就像是一次未知领域的探险。我们靠着破碎的英语和维基百科交流。每顿晚餐都是神秘时刻:猜他在煮什么比破译非洲餐厅的菜单还难。我在异国炖菜的味道、生活小技巧的习得,以及对一段陌生历史的了解中,找到了意想不到的快乐。这些琐碎而独特的日常互动,成了我的救命稻草。

反思: 学术界的奖励信号既稀疏又充满随机性,这对人类心理是种残酷的折磨。为了活下去,研究员必须建立一套不依赖论文录用通知的能量补给系统。它可以是终于读懂一篇硬核论文的成就感,可以是一个能看到进展的业余爱好,甚至是日常生活中的微小喜悦。无论是什么,你都需要它来维持长期的心理健康。这也是为什么我现在带学生的方式变了:我尽量提供频繁的中间反馈,因为在迷雾中,谁都容易丧失信心。

这一时期也让我真正理解了导师说的“独立”。我学会了身为独立研究员最核心的特质:战略决策。这个问题真的有影响力吗?有现成的数据集去实现想法吗?评测方式经得起挑剔的审稿人推敲吗?基础性的判断失误——比如向一个不需要的社区推销你的贡献——会让一整个学期的努力化为一纸拒信。你没法靠蛮力去校准一个坏掉的指南针。

坐在独木舟最前面拼命划水、让导师在后面掌舵,这永远是最省力的诱惑。但我后来才明白,练习掌舵的最佳时机,正是当你还有救生网、不至于撞死在礁石上的时候。我真希望自己能更早地开始思考“为什么要划向那里”。

夜晚隧道中骑行的模糊身影
“每张照片其实都是自画像。今天的我,再也拍不出当年的这种心境。”

2021-2023:如何找到自己的研究方向?

2021年元旦,我飞回中国,在阔别两年半后与家人团聚。这也让我和主要的合作者回到了同一个时区。我们决定从那个失败的药物研究项目中打捞出一个未经验证的想法,起名叫“单向传播”。我们直觉上觉得它行得通,但苦于找不到理论支撑。

当全世界都在追逐最新的arXiv预印本时,我做了一件在导师看来有点“疯”的事:我把自己埋在厚厚的数学教材里,试图为我的假设寻找底层依据。当我终于意识到我们的传播方法等价于一类路径问题的解时——而这正是图推理必备却又是现有GNN无法解决的——那种感觉就像醍醐灌顶,通透无比。这种强烈的成就感驱动着我们没日没夜地完善工程实现。最终,那个瞬间变成了我的第一篇NeurIPS论文。

这次成功教会我:最宝贵的见解往往不来自最新的爆款,而来自经受住时间考验的基本原理。 在准备博士开题报告时,我重读了《人工智能:现代方法》(AIMA,尽管书名有“现代”,但在当下已算老牌教材)和《几何深度学习》(GDL)。AIMA描绘了通过感知与推理实现的AI愿景,而GDL则将现代神经网络的成功归结为对称性与不变性的建模。将这些思想与我的工作并置时,一个事实清晰可见:当前的推理模型泛化能力极差。许多模型只是在背诵模式,完全不尊重逻辑的“对称性”,甚至不如几十年前AIMA里的经典算法。这让我觉得未来充满了无限可能。

这段时间我还遇到了博士期间最好的合作伙伴——一位博主,我最初关于图机器学习的知识就是从他的博客学的。我们问了一个简单的问题:既然经典的短路算法只要写一次就能跑在任何图上,为什么我们的神经模型每换个图就得重练一次?这种直觉促成了最早的“图基础模型”之一。那是读博期间最快乐的时光——我们不只是在刷榜,而是在尝试赋予神经网络像经典算法一样优雅的特质。

反思: 回头看,我的路并不是什么普适的成功模板,而是我终于找到了一套契合自己性格的工作方式。时间证明,追逐热点并不适合我,而深入思考别人习以为常的事物却让我乐在其中。每个人都有适合自己的研究方向,但这通常需要大量的试错才能发现。做一个“一流的自己”,远比做一个“二流的别人”要容易得多。

那些看起来惊人的高产期,背后其实并没有魔法。所谓的“超常发挥”通常只是稳固的代码库和高效率的复用。现代机器学习研究往往是70%的工程加30%的发明。当基础架构已经就绪,一个新点子的测试是从70分起步而不是从零开始。如果你把代码当成长期资产来经营,它就会变成通往高处的阶梯,带你看到那些从地平线起步的人永远无法企及的风景。

日照金山与云海
“最美的风景,总是留给那些熬过了风暴的人。”

2023-2024:现实世界中,哪里才是我的归宿?

在经历了三年投实习屡投屡拒的打击后,我在读博最后一年终于拿到了Google的offer。当我落地湾区,那种极度竞争的环境与加拿大宁静的学术生活形成了鲜明对比。我第一次看到工业界协作这把“双刃剑”:你可以通过杠杆化协作一夜之间扩大影响力,但如果你产出跟不上,没人会来捞你。我的导师教了我一项核心生存技能:永远带着具体的行动项离开会议。 在工业界,只有被执行的想法才有价值。

毕业临近,我站在了人生的十字路口。像大多数对科研还算满意的博士一样,我申请了教职。那段日子极其疲惫:为一百多所高校定制材料、求推荐信、反反复复打磨Research Statement,直到我做梦都能背出来。然而,在经历了一整天筋疲力尽的教职面试求职后,我的热情开始退却。前辈告诉我,年轻教授往往得极力推掉教学任务,把时间都花在写基金申请上。很多讨论无关愿景,只关乎能不能拉到经费、搞到GPU。我开始自问:这就是我梦寐以求的“自由”吗?

转战工业界的路同样坎坷。我推掉了好几个软件工程师的邀请,把筹码全部压在少数几个研究员岗位上。接着,黑暗期降临了。所有面试石沉大海,邮箱安静得可怕。我开始怀疑:只盯着研究岗位是不是错了?我听着那首《It’s Not Over Until I Win》给自己打气,但当播放器跳到《Ordinary》时,我还是没忍住情绪。那是2024年——裁员潮和招聘冻结的一年。当时我还没意识到,O1签证的担保需求成了许多公司不愿跨越的隐形门槛。

终于,我收到了NVIDIA的几次面试机会。我知道他们愿意担保签证,于是将其视作最后的救命稻草。不久,研究员的offer下来了——那天正好是我28岁生日。20岁时的梦想,终于照进了现实。

回望过去,这种“运气”更像是一种偶然中的必然——一段段看似零散的人生碎片,最终严丝合缝地拼在了一起。我写CUDA kernel是为了第一个项目的吞吐量;我开发那个软件库是为了在疫情中保持清醒,结果它竟然赢得了NVIDIA的奖金;我对推理的执着源于个人好奇,恰好撞上了行业对未来的迫切需求。在当时,没有一步棋是所谓的“战略布局”,但它们最终都成了通往今天的桥。

反思: 博士生常因为“幸存者偏差”而向往学术界——我们只看到了少数成功者的光环,却很少看到背后的琐碎磨损。现实中,“研究员”和“教授”是两种完全不同的职业:前者是解谜和追随好奇心;后者更像是运营一家名为“学术组”的初创公司,你的主业是筹款、管理和应对行政琐事。学术自由是真实的,但它往往是你在赢得筹款竞赛后的奖品。

找工作时的挫败感几乎无法避免,但理解市场逻辑能缓解这种痛苦。一个良性运作的市场本质上需要大量的“拒绝”来帮助双方收敛到最佳匹配。事实上,如果你没费吹灰之力就拿到了offer,可能说明你对于这个岗位已经“大材小用”了,那未必是你的局部最优解。在这种过程中,心态至关重要。保持积极不只是为了自我调节,它更是一种能力的信号,告诉招聘团队你已经准备好迎接挑战。

海岸线与鸟群
“我曾畏惧海浪,但海鸟并不。因为它们有翅膀。”

2025:在今天,做研究意味着什么?

经过漫长的签证办理,去年二月我回到湾区,开始了我作为一名LLM post-training领域“大厂螺丝钉”的生活。这次转变立刻揭示了学界和业界的根本不同:学术界靠影响力和筹款来探索未知,工业界则靠产品化和营收来放大已知。在这里,研究员和工程师的界限变得模糊。如果基础架构拖了研究的后腿,你就去修它;如果一个工程难题没有现成方案,它就成了研究课题。遗憾的是,我们的大学课程从未让我们为这种“全栈现实”做好准备。

AI公司的经济逻辑也发生了剧变。以前软件公司最大的资本支出是工程师,现在变成了GPU。当你计算顶级实验室人均每年的GPU成本时,往往高达数百万甚至上千万美元。这产生了一种残酷的运营逻辑:人可以睡觉,但GPU不能闲着。感觉我们不再仅仅是思考者,更像是在操作一台永不停歇的庞大机器。

更戏剧化的是,你为了入职而苦练的知识和技能,现在可能还抵不上20美元的订阅费。随着Cursor和Claude Code的普及,初级人才市场几乎一夜之间缩水。许多公司将门槛提高到了博士级别或同等经验。冷酷的现实是:有了AI Agent的辅助,一名资深工程师能比以前的一群初级工程师做得更快更好。我们正处在一场新的工业革命中,单纯的知识积累和技能产出正在贬值。

即便作为受过训练的研究员,我也必须面对自己专业知识的脆弱性。我曾用来证明LLM泛化能力薄弱的两个经典例子,不到一年就被新模型攻破了。我意识到,我所做的很多事情——头脑风暴、写代码、做分析——都是一种可验证的过程,AI终有一天会接手。这十一年的旅程把我带到了一个奇点:研究的“过程”正在被我们亲手构建的模型解决。那么,留给人类的还剩什么?也许是设定目标的品味、感受世界的本心,以及承担责任的肩膀

壮丽的秋日山景
“壮丽的冻土荒原。看到这些景象给了我一种力量,那是AI永远无法感知的。”

结语

在这个领域待了十一年,我明白了一件事:通往研究员之路从来不是一条直线。对于曾经的我,以及此时此刻站在起跑线上的你们:前方的雾是真实的,路标的变化也比以往任何时候都要快。

但我始终相信一个普适的真理:在一场真诚的旅途中,没有真正的冤枉路。 你所经历的每一次失败,你所追随的每一点好奇心,都在构筑你最终立足的土地。

请继续前行,保持好奇。请相信,那些散落的点滴,终会在你看不见的未来连成线。

原文地址: https://loud-phalange-7f5.notion.site/Eleven-years-in-AI-What-does-it-actually-mean-to-be-a-researcher-2d56d9bccef780038ae9c27ffab59404

技术成长的道路漫长且充满不确定性。在云栈社区,有更多开发者分享着他们在人工智能、开源项目及职场中的真实经历与思考,或许能为你的探索之旅提供一些参照与启发。




上一篇:Triton编译器核心:从高级方言到GPU代码生成的完整流程
下一篇:S-XIASQL V1.0 发布:Burp Suite专业插件,自动化SQL注入检测
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-4 21:40 , Processed in 0.367224 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表