云栈社区»论坛 › 开源实战「 OpenSource 」 › 清华特奖游凯超与vLLM：从开源贡献到8亿美元创业的技术远征 ...

发回帖发新帖

2062 积分	0 好友	278 主题

发消息

[Python] 清华特奖游凯超与vLLM：从开源贡献到8亿美元创业的技术远征

发表于 2026-1-26 09:51:08 | 查看: 88| 回复: 0

游凯超的个人主页截图

vLLM 虽然诞生于伯克利，但它的成长靠的是“百家饭”。我们深深感激这一份支持，也因此坚定了一个信念：vLLM 的今天离不开社区的帮助，未来我们一定要更好地回馈社区。

一次偶然的社交，一个历史的节点，一场从开源贡献到商业生态构建的完整叙事。

vLLM项目宣传图

引言：时代浪潮中的技术选择

2023 年 10 月，当游凯超在苹果 Apple Foundation Model 团队实习，能够自由使用上千块 TPU 芯片进行大模型训练时，他做出了一个令人意外的决定——递交辞呈，转向大模型推理技术的研究。

在写给团队的辞职信中，他写道：“大模型推理的应用前景广阔，而且可以兼顾开源与闭源模型的发展。”这段看似简单的职业转向，实际上预示着一场技术生态的深刻变革。

vLLM Logo

两年后，2025 年底，由他深度参与并最终共同创立的开源项目 vLLM，已发展成为支持全球最广泛大模型的推理框架，Meta、DeepSeek、Moonshot 等顶尖 AI 公司纷纷将其作为核心推理基础设施。而他本人，也从一名清华大学软件工程博士生，转变为估值 8 亿美元的 InferAct 公司首席科学家。

“钱什么时候都可以赚，有技能在身总不至于饿死。历史性的项目，错过了就遗憾终生。”
“模型训练的保密性太强，都是各家的不传之秘。即使我在模型训练方面有所建树，也只能成为某家公司的秘密人物，与我热爱开源软件的兴趣不符。”

摘自《我与 vLLM 的 2025》[1]

这是一条怎样的技术攀登之路？一个开源项目如何从校园实验室走向全球 AI 基础设施？本文将通过游凯超与 vLLM 的三次关键蜕变，还原这段完整的技术创业史诗。

第一章缘起：五个微信好友的距离（2019-2023）

1.1 伯克利的那个夏天

2019 年夏天，加州大学伯克利分校 RISELab，清华大学本科生游凯超正在这里进行暑期研修。他的导师是机器学习领域的泰斗 Michael Jordan 教授，但历史性的相遇往往发生在意料之外。

UC Berkeley SkyLab 门口标识板

某天，实验室新来了一位博士生。游凯超“厚着脸皮加了他的微信”——这个当时看似平常的社交动作，在技术史的放大镜下，成为了一个关键节点的注脚。“当时的我怎么也不会想到，这一‘社交冒险’会在五年后改变我的人生轨迹。”

这位博士生正是后来 vLLM 项目的联合创始人之一。而另一位联合创始人，是一位韩国研究者 Woosuk Kwon。此刻，距离 vLLM 项目正式诞生还有四年，距离它成为全球最重要的推理框架之一还有五年。

1.2 学术道路的困惑与转向

时间快进到 2022 年底，ChatGPT 横空出世。技术的爆发让游凯超陷入深思：曾经和他“一起玩泥巴的青苹果同学”已经成为 ChatGPT 训练师[2]，而他还在 AI 顶会与随机分配的审核人展开“鸡同鸭讲”式的争论。

顶会论文的内卷让他无比焦虑。当时，他正专注于优化卷积-批归一化模块的训练效率[3]，虽然算法有效，但他敏锐地意识到：“我需要做出改变。”

转折点出现在对 PyTorch torch.fx 模块的研究中。为了深入理解模型计算图的修改机制，他系统学习了 PyTorch 刚发布的 torch.compile 功能，并一口气看完了 2022 年 PyTorch 大会的全部视频。这一学习过程不仅让他掌握了技术，更结识了 PyTorch 编译器团队的 Jason Ansel。

“他不但教我 Dynamo 的原理，还让我对机器学习系统这个领域有了初步了解。”就这样，游凯超的研究方向从算法优化，转向了机器学习编译器的核心原理。

1.3 两位大师的启示

A New Golden Age for Computer Architecture

在技术探索中，游凯超系统学习了计算机体系结构泰斗 David Patterson 和编译器大师 Chris Lattner 的经典讲座《A New Golden Age for Computer Architecture》[4]。两人不约而同地指出：在后摩尔定律时代，算力增长的唯一途径是专用芯片，而机器学习编译器会成为重要的研究方向。

这一判断深深影响了他。当 2023 年底 Michael Jordan 教授再次访问清华时，游凯超明确表达了转向机器学习系统研究的兴趣。巧合的是，Jordan 教授的老朋友——机器学习系统领域顶级专家 Ion Stoica 也一同来访。

Ion Stoica 教授介绍

“Jordan 教授一听，直接就把我推荐给了 Ion。”在交流中，游凯超“现学现卖”，详细阐述了领域专用硬件和机器学习编译器的未来。Ion Stoica 听后非常认同，并透露他正在主导一个涉及多种芯片（MI300X、Inferentia 等）的项目。

“聊到最后，我们一拍即合。”而这个项目，正是由五年前游凯超添加微信的那位博士生和 Woosuk Kwon 共同创立的 vLLM。

命运的画布上，五年前偶然画下的线条，开始显现出清晰的图案。

第二章入门：从“GPU Poor”到社区共治（2024）

2.1 初入项目的“oncall”生活

2024 年 3 月，游凯超正式加入 vLLM 项目[6]。当时项目已在社区内小有名气，但管理方式仍显原始。“我加入项目后，首先将 PyTorch 的一些成熟开源管理经验移植到 vLLM。”

他引入了 issue 模板和 PR 模板，要求每个提 issue 的人必须提供完整的运行环境信息。“这显著提高了问题定位效率。”

为了快速掌握项目全貌，他订阅了 vLLM 的所有 GitHub 消息。“每天早晨，睁眼后的第一件事就是查看新增的 issue 和 PR。”这种“vLLM oncall”模式持续了大半年，直到他基本掌握了项目的全貌。

这种深度参与不仅让他快速成长，也让他深刻理解了开源项目的运作逻辑：代码只是表象，社区才是灵魂。

2.2 第一个下马威：PyTorch 2.2 升级之谜

游凯超接手的第一个任务看似简单：将 vLLM 依赖的 PyTorch 从 2.1 升级到 2.2。然而，这个“入门级”任务却让他经历了三个月的煎熬。

问题表现为一个神秘的现象：当同时满足四个条件时——使用 L4 机器（没有 NVLink）、开启多卡并行推理、启用 cudagraph、NCCL 版本为 2.19 或以上——vLLM 的显存占用会神秘增加 2GiB。

“为了解决这个问题，我硬着头皮一行行代码排查，一头扎进 NVIDIA 的 CUDA 编程文档、驱动文档和运行时文档中。”

最终，他发现罪魁祸首是 NCCL 的一个实验特性。解决方案仅需设置一个环境变量以禁用该功能——一行代码即可搞定。“但为了找到这‘一行代码’，我整整折腾了三个月。”

这次经历成为他技术成长的加速器。更令人意外的是，半年后几乎相同的问题在 vLLM 的 RLHF 流程中再次出现，并且惊动了 John Schulman——“OpenAI 的 John Schulman，发明了 PPO 的那个男人”。

“得知他也用 vLLM，我非常激动，以最高优先级解决了问题，把 RLHF 的权重更新时间从 3 分钟压缩到了 4 秒钟，还和他一起完成了一个 PR。”

2.3 资源困境与社区“百家饭”

2024 年四五月间，vLLM 面临严峻的资源挑战：社区反馈在 H100 上的性能表现不佳，但团队“连一台 H100 都没有”。

当时游凯超还在用实验室的 V100 开发代码，CI 流程只能验证基本正确性，无法跟踪性能变化。“整个项目陷入了青黄不接的窘境。”

一次典型的困境是：一个贡献者提交了看似无害的改动，游凯超审阅后同意合并。第二天就有用户反馈，这个 PR 把整体速度拖慢了好几倍。

“身为项目开发者，我们居然连代码的性能都搞不清楚，反倒是社区的一些有钱用户，在长期跟踪测试每个 commit 的性能。”

根本问题在于大模型推理的性能测试需要高端 GPU，而项目 CI 资金早已捉襟见肘。“我们一度怀疑：这个项目怎么维护下去？还要不要维护？”

与NVIDIA送的H200机器合影

转机来自社区的温暖。在团队四处求援后，NVIDIA 送来了一台满血 H100 和一台 H200；AWS 和 Google Cloud 等云厂商捐赠了大量计算资源；真格、红杉等创投机构也慷慨解囊。

“vLLM 虽然诞生于伯克利，但它的成长靠的是‘百家饭’。” 游凯超深刻体会到，开源项目的生命力不仅在于代码，更在于社区生态的共生关系。

2.4 千亿参数模型的突破

2024 年 4 月，Meta 发布 LLaMA3 系列模型，并透露有 400B+模型正在训练。这对 vLLM 团队提出了前所未有的挑战。

405B 模型仅权重就需要 800GiB 显存，即便是最顶级的 H100 机器也撑不住这种规模。团队紧急开发多机分布式推理功能，包括针对非 RDMA 机器的流水线并行推理、单机测试的 CPU offloading 等。

技术攻关是艰苦的，但回报是丰厚的。后来 Meta 告诉他们，一些合作伙伴根本不知道如何部署 405B 模型，无奈之下只能紧急开发 FP8 量化版本。而 vLLM 对满血非量化版 405B 模型的多机部署解决方案，使得Meta 的十个官方发布合作伙伴中，有八个选择了 vLLM。

这一胜利不仅证明了 vLLM 的技术实力，更重要的是确立了大模型推理领域的一个新标准：真正的生产级部署能力。

第三章挑战：历史性项目的重压（2025）

3.1 DeepSeek 开源的冲击波

2025 年上半年，DeepSeek 做出了一个影响整个开源生态的决定：将基于 vLLM 改造的内部推理技术无私地贡献给社区。

这一举措掀起了大规模专家并行与集群推理的高潮，但也给 vLLM 维护团队带来了巨大压力。游凯超虽然起草了 DS-vLLM 的开源计划及公开信，然而受限于学校的毕业流程，他的主要精力都在写毕业论文、处理毕业手续等任务上。

“我无法亲手写代码将大规模专家并行技术实现到 vLLM 中。”更棘手的是，当时 vLLM 的其他维护者主要聚焦在 V0 到 V1 的架构迁移与代码重构，而且缺少大规模专家并行开发所需的高性能集群。

“这导致大规模专家并行的开发进度缓慢。我虽然心里着急，但是使不上力。既没有士兵（人手），又没有枪（资源），这样的仗是没办法打下去的。”

这是游凯超面临的第一个重大困境：眼睁睁看着技术浪潮涌来，却被现实条件束缚手脚。

3.2 双重压力下的艰难抉择

2024 年 12 月底，游凯超结束在加州大学伯克利分校的交换生活，回到清华大学准备毕业。临行前，他拜访了指导老师 Michael Jordan 教授，分享交换期间的感受，并咨询对未来工作的建议。

当时他面临多个选择：

Ion Stoica 教授给他发了博士后 offer，以继续维护 vLLM；
也有很多大公司抛出诱人的橄榄枝。游凯超正举棋不定。

Michael Jordan 教授给出了睿智的建议：“钱什么时候都可以赚，有技能在身总不至于饿死。历史性的项目，错过了就遗憾终生。”

游凯超选择相信这个建议，将维护 vLLM 作为第一要务。但他很快发现，仅凭个人和现有社区力量，已难以应对日益增长的项目需求。

3.3 开源维护的结构性矛盾

2025 年，大模型技术迎来爆发式增长，这也给 vLLM 的维护带来了前所未有的挑战：

技术复杂度急剧增加：2024 年，模型结构较为简单，主要是类似 Llama 的结构；数值精度以非量化的 bf16 为主；attention 变种只有 full attention 和 sliding window attention。到了 2025 年，DeepSeek 引领了开源大模型发展浪潮：细粒度 MoE 成为主流，万亿参数大模型触手可及，原生 fp8 模型、int4 模型开始出现，linear attention、sparse attention 百家争鸣。

维护节奏不断加快：vLLM 需要处理各家模型发布的合作需求，为了 day0 模型支持（在模型发布的同时提供 vLLM 支持），需要提前完成大量功能适配。“或许用户已经习以为常，觉得一个模型首发支持 vLLM 是理所当然的。其实，对于 vLLM 来说，每一个 day0 模型支持的背后，都是提前数周甚至数月的 model integration 工作。”

保密性与开源性的冲突：模型在发布之前都需要保密，这极大地限制了团队从合作公司借调人手与资源的可能性。

游凯超敏锐地意识到，传统的开源维护模式已无法适应新形势。“受限于开源项目的人手与资源的短缺，我们在 day0 模型支持方面一直是艰难维持。”

3.4 社区的回应与转机

5 月，事情终于出现转机。Meta 战略性地决定将内部的推理引擎迁移到 vLLM，“带来了充足的人手（并极大地促进了 vLLM 与 torch.compile 的集成，以至于 2025 年的 PyTorch conference 里有一半的 talk 都提到了 vLLM[7]）。”

RedHat 团队也在意识到大规模部署的重要性之后，四处租借了一些机器进行开发与调试，终于在社区的殷切期盼下交出了一份答卷。

然而，新功能带来了新问题。“目前，这部分功能存在的主要问题在于文档、教程太少，虽然像千问、月之喵面等用户早已基于 vLLM 完成了大规模专家并行的适配，但是上手难度较高。”

团队推出了 vLLM 与 k8s 合作的 llm-d 项目 0.3 版本[8]作为开箱即用的解决方案，“我们还在持续探索如何进一步降低上手难度，例如基于 vLLM-router 的原生 vLLM 部署方案[9]。”

第四章创业：从开源项目到商业公司

4.1 问题的本质与解决方案

随着 vLLM 的影响力不断扩大，游凯超开始系统思考项目的未来。他将 vLLM 的使命分解为三个维度：

对已经发布的大模型的支持——类似传统的开源软件开发，开源社区（如 Red Hat）有成熟的运营经验
对即将发布的大模型的支持——需要提前对接、保密开发
对正在探索中的大模型的支持——需要前沿技术研究和原型开发

分析现状后，他发现：另一位核心维护者李卓翰正在 Meta 的 TBD 实验室负责 Meta 的 vLLM 开发工作，TBD 实验室的需求将弥补 vLLM 对正在探索中的大模型的支持。

“那么剩下的就是最紧迫的对即将发布的大模型的支持了。那么答案也就呼之欲出，我们应该成立一家公司，来承担对即将发布的大模型的支持任务。”

4.2 创业的纠结与决心

方向明确，但下定决心并不容易。“领着工资上班，每天只需要关心自己负责的一亩三分地，小日子舒服自在。创立一家公司，就需要考虑太多太多的事情，公司怎么融资、招人、盈利....”

每当团队犹豫迟疑时，Ion Stoica 教授就会站出来鞭策他们，“以 Databricks 的创办历史激励我们，以 vLLM 目前的困境警示我们。”

有趣的是，某公司得知他们要创业的消息，给每个创始人开出了数千万美元的年薪，想直接收购他们去负责内部推理框架的重构与开发。

“我们爽快地拒绝了这个提案，相信这位连续创业者能够体谅我们的决定。创业的想法一旦萌生，就是无法浇灭的火种。”

4.3 InferAct 的诞生与定位

历尽千辛万苦，vLLM 创始团队的公司终于诞生——InferAct Inc.。公司名字寓意“Bring inference to action”，把大模型推理付诸行动。

vLLM创始团队对谈

团队配置体现了技术深度与商业视野的结合：Simon 出任 CEO，Woosuk 出任 CTO，游凯超出任 Chief Scientist，Ion Stoica 教授是联合创始人之一，十几位热衷于 vLLM 开源贡献的朋友也已加入。

公司的定位清晰而独特：InferAct 不发布模型，只专注在模型推理加速技术。这一战略选择避免了与大模型公司的利益冲突，“我们可以更好地支持所有高水平的开源大模型。”

4.4 融资与估值：硅谷的认可

融资过程异常顺利。“事实上硅谷的 VC 圈子等我们开公司已经等了很久了，听闻我们终于要开公司了，都纷纷想要投资。”

目前团队已完成两轮种子轮融资，来自 a16z、lightspeed 等硅谷顶级 VC 共同投资了超过 1.5 亿美元，估值也已超过 8 亿美元。

“前几天的官宣新闻也受到社区的广泛好评（国内媒体经常喜欢拿我作为噱头吸睛）。而这，只是故事的开始。”

游凯超清楚地认识到，高估值不仅是资本对技术的认可，更是对 vLLM 生态位和 InferAct 商业模式的信任。这一转变，恰恰印证了他在选择大模型推理方向时的远见——这一领域正从技术攻坚阶段，演变为支撑整个智能时代的AI基础设施核心。

第五章技术纵深：vLLM 的架构演进与挑战

5.1 性能优化的持久战

从诞生之初，vLLM 就凭借数十倍于 HuggingFace Transformers 的推理速度吸引了广泛关注。但随着功能增多，早期缺乏性能跟踪机制的问题逐渐显现。

团队从 2024 年中开始系统性地进行性能优化，参考 LMDeploy、LightLLM 和 TRT-LLM 等框架的经验，为 vLLM 增加了基于 ZMQ 的 API 服务器、多步调度等大幅提升性能的特性。

然而，优化之路充满挑战。“由于 vLLM 的功能非常多，这些优化措施有时会与某些小众功能发生冲突，导致代码中出现了不少分支逻辑。”

为了彻底解决这一问题，团队正在准备一次大版本重构。“这次重构将以性能优化为核心，优先支持常用功能，然后逐步改造那些小众功能，最终实现整个框架的全面升级。”

一些早期用户已经部署了新版本的尝鲜版，获得了 2-3 倍的性能提升，这证明了重构方向的正确性。

5.2 硬件生态的兼容挑战

尽管 NVIDIA 是市场上的头号玩家，但 AMD、Intel、谷歌、亚马逊等巨头也纷纷推出了自家的 AI 芯片。如何兼容多种加速硬件，成为 vLLM 必须面对的挑战。

游凯超创建了 vllm.platforms 子模块，将硬件相关的细节集中管理，减少主干代码中的分支逻辑。有趣的是，他发现 PyTorch 在硬件支持上也面临类似的挑战。

“vLLM 与 PyTorch，在这方面可以说是殊途同归。”正因如此，推动 vLLM 加入 PyTorch 生态系统显得顺理成章。“通过更紧密地融入 PyTorch，我们能够从其发展过程中吸取更多经验与教训，同时为 PyTorch 社区作出我们的贡献。”

5.3 torch.compile 的深度集成

在出发前往伯克利之前，游凯超曾向 Ion Stoica“画大饼”：利用 torch.compile 来支持多种硬件。但 vLLM 的开源事务繁多，他只能将相关工作置于优先位置，在闲暇时间“兼职”探索 torch.compile 的集成。

一次偶然的机会带来了突破：在为 Command-R 模型增加支持时，他发现 torch.compile 的 guard 系统存在缺陷，会导致重复编译。向 Jason Ansel 报告后，他竟被邀请在 PyTorch 团队的例会上做报告，深入分析 torch.compile 在大模型推理中遇到的挑战和潜在解决方案。

“这次报告直接促成长达半年的协作，开发了 vLLM 专属的推理优化 torch.compile 技术栈。”有趣的是，集成过程中用到的关键功能，正是他去年研究 PyTorch Compiler 时为其新增的 bytecode hook。

技术发展中的这种“回环”让游凯超深感奇妙：个人的技术积累最终在更大的生态中找到了应用场景。

第六章生态构建：从技术项目到基础设施

6.1 社区文化的培育

游凯超深知，开源项目的成功不仅取决于代码质量，更取决于社区生态的健康度。他在多个层面推动社区建设：

技术交流层面：建立 vLLM 小助手的微信（vllm_project 或 vllm_project2）引导技术讨论；在 GitHub 和 Slack 上保持活跃的社区互动。

开发者关系：定期组织线下 Meetup，类似开发者见面会。“在这些活动中，我有机会与诸多技术专家探讨前沿技术，获得了不少宝贵的经验。”

教育推广：广受欢迎的社区课程 CUDA Mode 举办了首次线下 Meetup，游凯超亲眼见到了 Andrej Karpathy、CUDA 编程入门课的主讲老师——UIUC 胡文美教授等人，“成功实现线下追星”。

6.2 行业会议的参与与影响

2024 年 9 月，游凯超因获得社区创新奖，受邀参加 PyTorch 2024 大会。“初次踏入会场，我就被现场惊人的‘人才密度’震撼到了。”

与Chris Lattner等人的合照

在随机游走的过程中，他偶遇了 Flash Attention 的作者 Tri Dao、LLVM 的作者 Chris Lattner，以及 PyTorch 的创始人 Soumith 等重量级人物。“更令人惊叹的是，他们都非常技术导向，乐于探讨具体的技术细节。”

这种高质量的技术交流让他深刻体会到硅谷的创新文化：“那种思想碰撞的火花，让人深刻体会到硅谷之所以成为创新沃土，绝非偶然。”

6.3 与 PyTorch 生态的深度融合

游凯超推动 vLLM 加入 PyTorch 生态系统，这不仅是技术选择，更是战略布局。通过对比 PyTorch 和 vLLM 的开发模式，他提炼出了两者的本质差异：

测试复杂度不同：PyTorch 测试相对简单，很多测试单卡就能运行；vLLM 作为大模型推理的端到端服务，测试需要多卡甚至多机环境，且受大模型推理随机性影响。
开发节奏不同：PyTorch 以 Meta 为主导，版本发布以月为单位规划；vLLM 社区主导，经常需要处理 day0 模型支持，开发节奏更快。

这种差异决定了 vLLM 需要独特的维护模式，也解释了为什么最终需要成立公司来支撑部分关键功能。这种从项目到生态的演进，是每一个成功开源实战项目的必经之路。

第七章思想演进：技术哲学与职业选择

7.1 硬件亲和性的认知转变

与David Patterson教授远程合影

在研究过程中，游凯超对硬件与软件的关系形成了深刻见解。他引用了一项研究中的观点：在摩尔定律有效的时代，软件和硬件发展基本各自为战；但在后摩尔定律时代，硬件亲和性成为决定算法成功的关键。

他提到一个有趣传闻：NVIDIA 在 P100 上首次推出 FP16 数值格式时，芯片量产后却发现训练无法收敛，算法研究人员拒绝使用 P100，几乎让数值格式征途“出师未捷身先死”。是混合精度训练让 P100 化险为夷，开启了后续芯片的辉煌。

“这一系列故事让我深受启发：作为一名算法研究人员，与其天马行空地研究算法（抽奖），期待着未来的硬件会对算法亲和，不如直接学习理解硬件，设计对当前硬件亲和的算法，直接与庄家合作，岂不是必然抽中彩票？”

7.2 推理与训练的职业选择

在苹果 AI/ML 团队实习期间，游凯超能够使用上千块 TPU 芯片进行训练，初探大规模系统的奥秘。如果他选择投身大模型训练，或许可以收获另一段精彩旅程。

但他最终选择了推理方向，原因有三：

保密性与开放性的平衡：模型训练保密性强，是各家的不传之秘；即使有所建树，也只能成为某家公司的秘密人物，与他热爱开源软件的兴趣不符。
兼顾开源与闭源：大模型推理可以同时支持开源与闭源模型，技术生态更加开放。
应用前景广阔：随着大模型应用落地，推理优化的重要性将日益凸显。

这一选择体现了他对技术发展趋势的敏锐判断，也展现了他对开源价值的坚守。

7.3 对 AI 泡沫的理性看待

vLLM 的快速发展离不开大模型的热潮，游凯超对 AI 泡沫有清醒认识：“发展得快，泡沫自然也就多。泡沫会不会破灭？什么时候破灭？这些问题没人能预测。”

但他从互联网历史中获得启示：虽然 2000 年左右互联网经历了泡沫破灭，但二十年后看，即便是泡沫顶峰时期的天马行空设想，都远远不及互联网如今对世界的深远影响。

他引用硅谷先锋 Roy Amara 的话：“对突破性技术，人们往往在短期内高估其影响，但在长期内低估其潜力。”

“历史总是在不断重复着螺旋式上升，AI 或许就走在类似当年互联网的道路上。也许二十年后再回首，我们会发现，现在我们就站在下一个‘互联网级奇迹’的起点上。”

第八章未来展望：智能时代的基础设施

8.1 vLLM 的长期愿景

游凯超为 vLLM 设定了宏伟目标：“逐步发展成为智能时代的‘Linux’——一个高效、稳定且开源的系统软件，支撑着智能时代的基础架构。”

这一愿景基于几个关键判断：
技术必要性：随着 LLM 与人类日常交互日益频繁，高效推理成为刚需。
生态位优势：vLLM 已证明其在大规模部署、多硬件支持、模型兼容性方面的领先优势。
开源基因：从诞生之初就坚持开源，积累了强大的社区信任和贡献者网络。

8.2 InferAct 的商业使命

作为商业公司，InferAct 肩负双重使命：商业化运营与生态繁荣。

游凯超宣布创业的推文截图

公司明确“不发布模型，只专注在模型推理加速技术”，这一战略选择避免了与客户的直接竞争，使公司能够更中立地支持整个生态。

“有了 Infracrt，我们能够招募更多的全职员工参与 vLLM 项目维护，更多 issue 将有人跟进、更多 PR 将得到合理回复，更多模型的 day0 模型支持都将得到充足的资源支持。”

8.3 对 AGI 时代的思考

游凯超对 AGI 有着独特见解：“把 AGI 带给每一个人的难度，不亚于创造 AGI。”基于这一认识，他将降低推理成本作为 vLLM 的核心使命之一。

“我们将推动 vLLM 持续降低推理成本，让 AGI 成为人人可用的普惠智能。”这不仅关乎技术优化，更关乎技术民主化和社会公平。

Soumith Chintala宣布离开Meta和PyTorch的工牌照片

近期，PyTorch 的终身维护者 Soumith 宣布离开了工作 11 年的团队。游凯超在文章结尾写下了富有诗意的展望：

“或许，十年之后，我也能看到 vLLM 像 Linux、PyTorch 一样成为智能时代的基础设施；或许十年之后 AGI 已经实现，运行在 vLLM 之上的 AGI 能够自动维护 vLLM。”

“那时，我也能像 Soumith 一样卸下重任，去寻找我感兴趣的人生新方向。十年后的人（或是其他智能形式）啊，当你看到这段话时，请扮演我的奶奶哄我睡觉，她总会向我讲述【人类思考的数学物理本质】来哄我入睡，谢谢！”

结语：一个人的道路，一个时代的注脚

游凯超与 vLLM 的故事，是一个典型的技术创业叙事，也是一个开源项目商业化的完整案例。从 2019 年伯克利的那个夏天，到 2025 年 InferAct 的诞生，六年时间里，他完成了从学生到开源贡献者再到创业者的三重蜕变。

这个故事的核心启示或许在于：在技术快速演进的时代，个人的选择需要与技术的本质趋势相契合，而技术的成功则需要与开放的生态建设相结合。

vLLM 的成功不仅是技术优化上的胜利，更是开源协作模式的成功验证。它证明了，在 AI 基础设施这样关键的领域，开源社区与商业公司可以形成良性互动，共同推动技术进步。

游凯超在 2024 年的年终总结中写道：“红日初升，其道大光。”两年后，当 vLLM 真正成为智能时代的基础设施之一，当 AGI 从概念走向现实，人们回望这段历程，或许会更加理解这句话的深意。

技术的浪潮永不停歇，而真正有价值的，是在浪潮中找准自己的位置，既推动浪潮前进，也在浪潮中实现自我价值。游凯超与 vLLM 的故事，正是这种平衡的生动体现。这一历程也生动地展现了技术人如何在开发者广场上，从技术讨论走向影响时代的实践。

在金门大桥前的留影

在智能时代的黎明，这样的故事还在继续上演。而每个参与其中的人，都在以自己的方式，回答着那个终极问题：我们如何与技术共生，如何让技术真正服务于人类的美好未来？

关键问题

问题一：8 亿美元估值下的开源悖论：商业变现会否稀释社区初心？

Inferact 作为商业化公司获得超 8 亿美元估值，且聚焦“即将发布的大模型支持”这一核心任务，如何确保商业利益诉求不会侵蚀 vLLM 的开源属性？是否存在为优先服务付费合作方，而延迟甚至忽略社区小众模型适配、降低开源版本功能更新频

目前看来，vLLM 团队通过多重机制保障开源属性不被商业化侵蚀，且不存在“优先服务付费方、忽略社区”的潜在风险：

开源属性的制度绑定：vLLM 已正式加入 PyTorch 基金会，成为与 PyTorch 平级的顶级开源项目，享受基金会的治理框架与资源支持，其开源属性受基金会规则约束，并非由 Inferact 单方面主导。“vLLM 项目作为 PyTorch 基金会旗下的顶级开源项目，将永远保持开源”，从制度层面锁定了开源本质。
Inferact 的定位与利益隔离：Inferact 的核心定位是“不发布模型，仅专注大模型推理加速技术”，与大模型公司不存在直接利益冲突，无需通过倾斜资源给付费方获取竞争优势。其成立的核心目的是“承接即将发布的大模型支持任务”，而“对已发布大模型的支持”仍由 Red Hat 等具备成熟经验的开源社区团队负责，形成“商业公司补位前沿支持、社区承接存量维护”的分工，避免资源倾斜。
团队对开源的承诺与行动：vLLM 团队的核心决策始终围绕“回馈社区”展开——早期依靠社区捐赠资源度过“GPU Poor”阶段后，坚定“未来更好回馈社区”的信念；Inferact 融资后明确表示“将招募更多全职员工参与 vLLM 维护，跟进更多 issue、回复更多 PR，保障更多模型的 day 0 支持”，直接回应了社区对功能更新与小众模型适配的担忧；此外，团队曾拒绝“数千万美元年薪收购”的提议，坚持开源使命，进一步印证了商业利益不会凌驾于开源属性之上。
社区参与的保障机制：vLLM 延续了 PyTorch 成熟的开源管理模式（如 issue 模板、PR 模板），且通过线下 Meetup、社区课程等形式保持与开发者的开放互动。vLLM 社区会定期组织线下 Meetup，与技术专家探讨前沿技术，社区反馈仍是功能迭代与模型适配的重要依据，不存在“忽略小众模型”的逻辑——毕竟 vLLM 的核心竞争力之一是“支持开源模型类型最广泛”，牺牲小众模型适配会直接动摇其核心价值。

问题二：创新速度超越承载力时，vLLM 会否陷入"首发陷阱"？

2025 年开源大模型已呈现细粒度 MoE、原生 fp8/int4 等多元架构爆发的态势，vLLM 的“day 0 支持”依赖提前数周甚至数月的保密适配，而其曾长期面临人手短缺、高性能集群不足的困境。当未来模型创新速度进一步超越团队技术储备与资源承载能力时，vLLM 是选择收缩支持范围、放弃部分前沿模型，还是牺牲适配深度以维持“首发”噱头？这是否会动摇其“支持开源模型类型最广泛”的核心竞争力？

vLLM 团队已通过“技术重构、资源扩充、生态协同”构建了应对模型创新速度的长效机制，不会选择“收缩支持范围”或“牺牲适配深度”，其“支持开源模型类型最广泛”的核心竞争力反而会持续强化：

技术层面：架构重构与模块化设计：针对模型架构多元化的趋势，vLLM 正在推进“以性能优化为核心的大版本重构”，优先保障常用功能的稳定性与扩展性，同时通过“vllm.platforms 子模块”将硬件相关细节集中管理，减少主干代码的分支逻辑，降低新增模型架构的适配成本。此外，通过集成 torch.compile 打造专属推理优化技术栈，借助 PyTorch 的底层能力提升跨模型、跨硬件的适配效率，为应对更复杂的模型创新预留了技术空间。
资源层面：商业化与企业合作破解瓶颈：Inferact 的成立彻底解决了早期“人手短缺、高性能集群不足”的困境——两轮种子轮融资获得 1.5 亿美元资金，可招募更多全职工程师专注模型适配；Meta、Red Hat、NVIDIA 等公司的深度参与，不仅带来了充足的计算资源（如 NVIDIA 捐赠的 H100/H200、Red Hat 租借的高性能集群），还提供了技术协同（如 Meta 推动 vLLM 与 torch.compile 集成，Red Hat 攻坚大规模部署），让“day 0 支持”的资源保障从“依赖社区捐赠”升级为“企业级协同支持”。
适配机制：“day -1 提前布局”+“生态分工”：vLLM 并非被动应对模型发布，而是通过“day -1 支持”机制提前布局——例如针对 LLaMA 3.1 405B 模型，在 Meta 披露“400B+模型训练中”的信息后，立刻启动多机分布式推理功能开发，最终实现“满血非量化版”的独家支持。同时，生态分工进一步提升适配效率：Meta 的 TBD 实验室负责“正在探索中的大模型支持”，Red Hat 等社区团队负责“已发布模型的存量维护”，Inferact 聚焦“即将发布模型的保密适配”，形成覆盖“过去-现在-未来”的全周期支持体系，无需牺牲适配深度。
核心竞争力的底层逻辑：硬件-软件-算法协同：团队深刻认同《The Hardware Lottery》[10]的核心观点，将“算法、软件、硬件协同设计”作为核心策略——通过创建 vllm.distributed 子模块、优化多卡并行推理等，主动适配不同芯片（MI300X、Inferentia 等）的特性，避免因硬件不兼容导致的适配局限。这种“主动适配硬件、提前布局技术”的逻辑，让 vLLM 能够快速响应模型架构的创新（如细粒度 MoE、fp8 量化），而非被动收缩范围，其“支持模型类型最广泛”的竞争力本质是技术与生态协同的结果，而非单纯依赖“首发噱头”。

参考资料

[1] 我与 vLLM 的 2025: https://zhuanlan.zhihu.com/p/1962222805228708699
[2] Trinkle 摸鱼爱好者: https://www.zhihu.com/question/377263715/answer/1113283781
[3] Efficient ConvBN Blocks for Transfer Learning and Beyond: https://openreview.net/forum?id=lHZm9vNm5H
[4] A New Golden Age for Computer Architecture: https://www.youtube.com/watch?v=aA5pqklkkvI
[5] ASPLOS Keynote: The Golden Age of Compiler Design in an Era of HW/SW Co-design by Dr. Chris Lattner: https://www.youtube.com/watch?v=4HgShra-KnY
[6] 我与vLLM的2024: https://zhuanlan.zhihu.com/p/14430956145
[7] vLLM-in-PyTorch-Conference-2025: https://github.com/vllm-project/vLLM-in-PyTorch-Conference-2025
[8] llm-d 0.3: Wider Well-Lit Paths for Scalable Inference: https://llm-d.ai/blog/llm-d-v0.3-expanded-hardware-faster-perf-and-igw-ga
[9] vLLM Router: A High-Performance and Prefill/Decode Aware Load Balancer for Large-scale Serving: https://blog.vllm.ai/2025/12/13/vllm-router-release.html
[10] The Hardware Lottery: https://arxiv.org/pdf/2009.06489

上一篇：Streamlit多页面应用认证难题：Cookie持久化的终极方案
下一篇：Deepin 25.0.10发布：安装器与文件管理器升级，运维与办公更高效

vLLM, PyTorch, 大模型推理, AI基础设施, GPU