找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

737

积分

0

好友

101

主题
发表于 8 小时前 | 查看: 1| 回复: 0

游凯超的个人主页截图

vLLM 虽然诞生于伯克利,但它的成长靠的是“百家饭”。我们深深感激这一份支持,也因此坚定了一个信念:vLLM 的今天离不开社区的帮助,未来我们一定要更好地回馈社区。

一次偶然的社交,一个历史的节点,一场从开源贡献到商业生态构建的完整叙事。

vLLM项目宣传图

引言:时代浪潮中的技术选择

2023 年 10 月,当游凯超在苹果 Apple Foundation Model 团队实习,能够自由使用上千块 TPU 芯片进行大模型训练时,他做出了一个令人意外的决定——递交辞呈,转向大模型推理技术的研究。

在写给团队的辞职信中,他写道:“大模型推理的应用前景广阔,而且可以兼顾开源与闭源模型的发展。”这段看似简单的职业转向,实际上预示着一场技术生态的深刻变革。

vLLM Logo

两年后,2025 年底,由他深度参与并最终共同创立的开源项目 vLLM,已发展成为支持全球最广泛大模型的推理框架,Meta、DeepSeek、Moonshot 等顶尖 AI 公司纷纷将其作为核心推理基础设施。而他本人,也从一名清华大学软件工程博士生,转变为估值 8 亿美元的 InferAct 公司首席科学家。

  • “钱什么时候都可以赚,有技能在身总不至于饿死。历史性的项目,错过了就遗憾终生。”
  • “模型训练的保密性太强,都是各家的不传之秘。即使我在模型训练方面有所建树,也只能成为某家公司的秘密人物,与我热爱开源软件的兴趣不符。”

摘自《我与 vLLM 的 2025》[1]

这是一条怎样的技术攀登之路?一个开源项目如何从校园实验室走向全球 AI 基础设施?本文将通过游凯超与 vLLM 的三次关键蜕变,还原这段完整的技术创业史诗。

第一章 缘起:五个微信好友的距离(2019-2023)

1.1 伯克利的那个夏天

2019 年夏天,加州大学伯克利分校 RISELab,清华大学本科生游凯超正在这里进行暑期研修。他的导师是机器学习领域的泰斗 Michael Jordan 教授,但历史性的相遇往往发生在意料之外。

UC Berkeley SkyLab 门口标识板

某天,实验室新来了一位博士生。游凯超“厚着脸皮加了他的微信”——这个当时看似平常的社交动作,在技术史的放大镜下,成为了一个关键节点的注脚。“当时的我怎么也不会想到,这一‘社交冒险’会在五年后改变我的人生轨迹。”

这位博士生正是后来 vLLM 项目的联合创始人之一。而另一位联合创始人,是一位韩国研究者 Woosuk Kwon。此刻,距离 vLLM 项目正式诞生还有四年,距离它成为全球最重要的推理框架之一还有五年。

1.2 学术道路的困惑与转向

时间快进到 2022 年底,ChatGPT 横空出世。技术的爆发让游凯超陷入深思:曾经和他“一起玩泥巴的青苹果同学”已经成为 ChatGPT 训练师[2],而他还在 AI 顶会与随机分配的审核人展开“鸡同鸭讲”式的争论。

顶会论文的内卷让他无比焦虑。当时,他正专注于优化卷积-批归一化模块的训练效率[3],虽然算法有效,但他敏锐地意识到:“我需要做出改变。

转折点出现在对 PyTorch torch.fx 模块的研究中。为了深入理解模型计算图的修改机制,他系统学习了 PyTorch 刚发布的 torch.compile 功能,并一口气看完了 2022 年 PyTorch 大会的全部视频。这一学习过程不仅让他掌握了技术,更结识了 PyTorch 编译器团队的 Jason Ansel。

“他不但教我 Dynamo 的原理,还让我对机器学习系统这个领域有了初步了解。”就这样,游凯超的研究方向从算法优化,转向了机器学习编译器的核心原理。

1.3 两位大师的启示

A New Golden Age for Computer Architecture

在技术探索中,游凯超系统学习了计算机体系结构泰斗 David Patterson 和编译器大师 Chris Lattner 的经典讲座《A New Golden Age for Computer Architecture》[4]。两人不约而同地指出:在后摩尔定律时代,算力增长的唯一途径是专用芯片,而机器学习编译器会成为重要的研究方向。

这一判断深深影响了他。当 2023 年底 Michael Jordan 教授再次访问清华时,游凯超明确表达了转向机器学习系统研究的兴趣。巧合的是,Jordan 教授的老朋友——机器学习系统领域顶级专家 Ion Stoica 也一同来访。

Ion Stoica 教授介绍

“Jordan 教授一听,直接就把我推荐给了 Ion。”在交流中,游凯超“现学现卖”,详细阐述了领域专用硬件和机器学习编译器的未来。Ion Stoica 听后非常认同,并透露他正在主导一个涉及多种芯片(MI300X、Inferentia 等)的项目。

“聊到最后,我们一拍即合。”而这个项目,正是由五年前游凯超添加微信的那位博士生和 Woosuk Kwon 共同创立的 vLLM。

命运的画布上,五年前偶然画下的线条,开始显现出清晰的图案。

第二章 入门:从“GPU Poor”到社区共治(2024)

2.1 初入项目的“oncall”生活

2024 年 3 月,游凯超正式加入 vLLM 项目[6]。当时项目已在社区内小有名气,但管理方式仍显原始。“我加入项目后,首先将 PyTorch 的一些成熟开源管理经验移植到 vLLM。”

他引入了 issue 模板和 PR 模板,要求每个提 issue 的人必须提供完整的运行环境信息。“这显著提高了问题定位效率。”

为了快速掌握项目全貌,他订阅了 vLLM 的所有 GitHub 消息。“每天早晨,睁眼后的第一件事就是查看新增的 issue 和 PR。”这种“vLLM oncall”模式持续了大半年,直到他基本掌握了项目的全貌。

这种深度参与不仅让他快速成长,也让他深刻理解了开源项目的运作逻辑:代码只是表象,社区才是灵魂。

2.2 第一个下马威:PyTorch 2.2 升级之谜

游凯超接手的第一个任务看似简单:将 vLLM 依赖的 PyTorch 从 2.1 升级到 2.2。然而,这个“入门级”任务却让他经历了三个月的煎熬。

问题表现为一个神秘的现象:当同时满足四个条件时——使用 L4 机器(没有 NVLink)、开启多卡并行推理、启用 cudagraph、NCCL 版本为 2.19 或以上——vLLM 的显存占用会神秘增加 2GiB。

“为了解决这个问题,我硬着头皮一行行代码排查,一头扎进 NVIDIA 的 CUDA 编程文档、驱动文档和运行时文档中。”

最终,他发现罪魁祸首是 NCCL 的一个实验特性。解决方案仅需设置一个环境变量以禁用该功能——一行代码即可搞定。“但为了找到这‘一行代码’,我整整折腾了三个月。”

这次经历成为他技术成长的加速器。更令人意外的是,半年后几乎相同的问题在 vLLM 的 RLHF 流程中再次出现,并且惊动了 John Schulman——“OpenAI 的 John Schulman,发明了 PPO 的那个男人”。

“得知他也用 vLLM,我非常激动,以最高优先级解决了问题,把 RLHF 的权重更新时间从 3 分钟压缩到了 4 秒钟,还和他一起完成了一个 PR。”

2.3 资源困境与社区“百家饭”

2024 年四五月间,vLLM 面临严峻的资源挑战:社区反馈在 H100 上的性能表现不佳,但团队“连一台 H100 都没有”。

当时游凯超还在用实验室的 V100 开发代码,CI 流程只能验证基本正确性,无法跟踪性能变化。“整个项目陷入了青黄不接的窘境。”

一次典型的困境是:一个贡献者提交了看似无害的改动,游凯超审阅后同意合并。第二天就有用户反馈,这个 PR 把整体速度拖慢了好几倍。

“身为项目开发者,我们居然连代码的性能都搞不清楚,反倒是社区的一些有钱用户,在长期跟踪测试每个 commit 的性能。”

根本问题在于大模型推理的性能测试需要高端 GPU,而项目 CI 资金早已捉襟见肘。“我们一度怀疑:这个项目怎么维护下去?还要不要维护?”

与NVIDIA送的H200机器合影

转机来自社区的温暖。在团队四处求援后,NVIDIA 送来了一台满血 H100 和一台 H200;AWS 和 Google Cloud 等云厂商捐赠了大量计算资源;真格、红杉等创投机构也慷慨解囊。

“vLLM 虽然诞生于伯克利,但它的成长靠的是‘百家饭’。” 游凯超深刻体会到,开源项目的生命力不仅在于代码,更在于社区生态的共生关系。

2.4 千亿参数模型的突破

2024 年 4 月,Meta 发布 LLaMA3 系列模型,并透露有 400B+模型正在训练。这对 vLLM 团队提出了前所未有的挑战。

405B 模型仅权重就需要 800GiB 显存,即便是最顶级的 H100 机器也撑不住这种规模。团队紧急开发多机分布式推理功能,包括针对非 RDMA 机器的流水线并行推理、单机测试的 CPU offloading 等。

技术攻关是艰苦的,但回报是丰厚的。后来 Meta 告诉他们,一些合作伙伴根本不知道如何部署 405B 模型,无奈之下只能紧急开发 FP8 量化版本。而 vLLM 对满血非量化版 405B 模型的多机部署解决方案,使得Meta 的十个官方发布合作伙伴中,有八个选择了 vLLM

这一胜利不仅证明了 vLLM 的技术实力,更重要的是确立了大模型推理领域的一个新标准:真正的生产级部署能力

第三章 挑战:历史性项目的重压(2025)

3.1 DeepSeek 开源的冲击波

2025 年上半年,DeepSeek 做出了一个影响整个开源生态的决定:将基于 vLLM 改造的内部推理技术无私地贡献给社区。

这一举措掀起了大规模专家并行与集群推理的高潮,但也给 vLLM 维护团队带来了巨大压力。游凯超虽然起草了 DS-vLLM 的开源计划及公开信,然而受限于学校的毕业流程,他的主要精力都在写毕业论文、处理毕业手续等任务上。

“我无法亲手写代码将大规模专家并行技术实现到 vLLM 中。”更棘手的是,当时 vLLM 的其他维护者主要聚焦在 V0 到 V1 的架构迁移与代码重构,而且缺少大规模专家并行开发所需的高性能集群。

“这导致大规模专家并行的开发进度缓慢。我虽然心里着急,但是使不上力。既没有士兵(人手),又没有枪(资源),这样的仗是没办法打下去的。”

这是游凯超面临的第一个重大困境:眼睁睁看着技术浪潮涌来,却被现实条件束缚手脚。

3.2 双重压力下的艰难抉择

2024 年 12 月底,游凯超结束在加州大学伯克利分校的交换生活,回到清华大学准备毕业。临行前,他拜访了指导老师 Michael Jordan 教授,分享交换期间的感受,并咨询对未来工作的建议。

当时他面临多个选择:

  • Ion Stoica 教授给他发了博士后 offer,以继续维护 vLLM;
  • 也有很多大公司抛出诱人的橄榄枝。游凯超正举棋不定。

Michael Jordan 教授给出了睿智的建议:“钱什么时候都可以赚,有技能在身总不至于饿死。历史性的项目,错过了就遗憾终生。

游凯超选择相信这个建议,将维护 vLLM 作为第一要务。但他很快发现,仅凭个人和现有社区力量,已难以应对日益增长的项目需求。

3.3 开源维护的结构性矛盾

2025 年,大模型技术迎来爆发式增长,这也给 vLLM 的维护带来了前所未有的挑战:

技术复杂度急剧增加:2024 年,模型结构较为简单,主要是类似 Llama 的结构;数值精度以非量化的 bf16 为主;attention 变种只有 full attention 和 sliding window attention。到了 2025 年,DeepSeek 引领了开源大模型发展浪潮:细粒度 MoE 成为主流,万亿参数大模型触手可及,原生 fp8 模型、int4 模型开始出现,linear attention、sparse attention 百家争鸣。

维护节奏不断加快:vLLM 需要处理各家模型发布的合作需求,为了 day0 模型支持(在模型发布的同时提供 vLLM 支持),需要提前完成大量功能适配。“或许用户已经习以为常,觉得一个模型首发支持 vLLM 是理所当然的。其实,对于 vLLM 来说,每一个 day0 模型支持的背后,都是提前数周甚至数月的 model integration 工作。”

保密性与开源性的冲突:模型在发布之前都需要保密,这极大地限制了团队从合作公司借调人手与资源的可能性。

游凯超敏锐地意识到,传统的开源维护模式已无法适应新形势。“受限于开源项目的人手与资源的短缺,我们在 day0 模型支持方面一直是艰难维持。”

3.4 社区的回应与转机

5 月,事情终于出现转机。Meta 战略性地决定将内部的推理引擎迁移到 vLLM,“带来了充足的人手(并极大地促进了 vLLM 与 torch.compile 的集成,以至于 2025 年的 PyTorch conference 里有一半的 talk 都提到了 vLLM[7])。”

RedHat 团队也在意识到大规模部署的重要性之后,四处租借了一些机器进行开发与调试,终于在社区的殷切期盼下交出了一份答卷。

然而,新功能带来了新问题。“目前,这部分功能存在的主要问题在于文档、教程太少,虽然像千问、月之喵面等用户早已基于 vLLM 完成了大规模专家并行的适配,但是上手难度较高。”

团队推出了 vLLM 与 k8s 合作的 llm-d 项目 0.3 版本[8]作为开箱即用的解决方案,“我们还在持续探索如何进一步降低上手难度,例如基于 vLLM-router 的原生 vLLM 部署方案[9]。”

第四章 创业:从开源项目到商业公司

4.1 问题的本质与解决方案

随着 vLLM 的影响力不断扩大,游凯超开始系统思考项目的未来。他将 vLLM 的使命分解为三个维度:

  1. 已经发布的大模型的支持——类似传统的开源软件开发,开源社区(如 Red Hat)有成熟的运营经验
  2. 即将发布的大模型的支持——需要提前对接、保密开发
  3. 正在探索中的大模型的支持——需要前沿技术研究和原型开发

分析现状后,他发现:另一位核心维护者李卓翰正在 Meta 的 TBD 实验室负责 Meta 的 vLLM 开发工作,TBD 实验室的需求将弥补 vLLM 对正在探索中的大模型的支持。

“那么剩下的就是最紧迫的对即将发布的大模型的支持了。那么答案也就呼之欲出,我们应该成立一家公司,来承担对即将发布的大模型的支持任务。”

4.2 创业的纠结与决心

方向明确,但下定决心并不容易。“领着工资上班,每天只需要关心自己负责的一亩三分地,小日子舒服自在。创立一家公司,就需要考虑太多太多的事情,公司怎么融资、招人、盈利....”

每当团队犹豫迟疑时,Ion Stoica 教授就会站出来鞭策他们,“以 Databricks 的创办历史激励我们,以 vLLM 目前的困境警示我们。”

有趣的是,某公司得知他们要创业的消息,给每个创始人开出了数千万美元的年薪,想直接收购他们去负责内部推理框架的重构与开发。

“我们爽快地拒绝了这个提案,相信这位连续创业者能够体谅我们的决定。创业的想法一旦萌生,就是无法浇灭的火种。”

4.3 InferAct 的诞生与定位

历尽千辛万苦,vLLM 创始团队的公司终于诞生——InferAct Inc.。公司名字寓意“Bring inference to action”,把大模型推理付诸行动。

vLLM创始团队对谈

团队配置体现了技术深度与商业视野的结合:Simon 出任 CEO,Woosuk 出任 CTO,游凯超出任 Chief Scientist,Ion Stoica 教授是联合创始人之一,十几位热衷于 vLLM 开源贡献的朋友也已加入。

公司的定位清晰而独特:InferAct 不发布模型,只专注在模型推理加速技术。这一战略选择避免了与大模型公司的利益冲突,“我们可以更好地支持所有高水平的开源大模型。”

4.4 融资与估值:硅谷的认可

融资过程异常顺利。“事实上硅谷的 VC 圈子等我们开公司已经等了很久了,听闻我们终于要开公司了,都纷纷想要投资。”

目前团队已完成两轮种子轮融资,来自 a16z、lightspeed 等硅谷顶级 VC 共同投资了超过 1.5 亿美元,估值也已超过 8 亿美元。

“前几天的官宣新闻也受到社区的广泛好评(国内媒体经常喜欢拿我作为噱头吸睛)。而这,只是故事的开始。”

游凯超清楚地认识到,高估值不仅是资本对技术的认可,更是对 vLLM 生态位和 InferAct 商业模式的信任。这一转变,恰恰印证了他在选择大模型推理方向时的远见——这一领域正从技术攻坚阶段,演变为支撑整个智能时代的AI基础设施核心。

第五章 技术纵深:vLLM 的架构演进与挑战

5.1 性能优化的持久战

从诞生之初,vLLM 就凭借数十倍于 HuggingFace Transformers 的推理速度吸引了广泛关注。但随着功能增多,早期缺乏性能跟踪机制的问题逐渐显现。

团队从 2024 年中开始系统性地进行性能优化,参考 LMDeploy、LightLLM 和 TRT-LLM 等框架的经验,为 vLLM 增加了基于 ZMQ 的 API 服务器、多步调度等大幅提升性能的特性。

然而,优化之路充满挑战。“由于 vLLM 的功能非常多,这些优化措施有时会与某些小众功能发生冲突,导致代码中出现了不少分支逻辑。”

为了彻底解决这一问题,团队正在准备一次大版本重构。“这次重构将以性能优化为核心,优先支持常用功能,然后逐步改造那些小众功能,最终实现整个框架的全面升级。”

一些早期用户已经部署了新版本的尝鲜版,获得了 2-3 倍的性能提升,这证明了重构方向的正确性。

5.2 硬件生态的兼容挑战

尽管 NVIDIA 是市场上的头号玩家,但 AMD、Intel、谷歌、亚马逊等巨头也纷纷推出了自家的 AI 芯片。如何兼容多种加速硬件,成为 vLLM 必须面对的挑战。

游凯超创建了 vllm.platforms 子模块,将硬件相关的细节集中管理,减少主干代码中的分支逻辑。有趣的是,他发现 PyTorch 在硬件支持上也面临类似的挑战。

“vLLM 与 PyTorch,在这方面可以说是殊途同归。”正因如此,推动 vLLM 加入 PyTorch 生态系统显得顺理成章。“通过更紧密地融入 PyTorch,我们能够从其发展过程中吸取更多经验与教训,同时为 PyTorch 社区作出我们的贡献。”

5.3 torch.compile 的深度集成

在出发前往伯克利之前,游凯超曾向 Ion Stoica“画大饼”:利用 torch.compile 来支持多种硬件。但 vLLM 的开源事务繁多,他只能将相关工作置于优先位置,在闲暇时间“兼职”探索 torch.compile 的集成。

一次偶然的机会带来了突破:在为 Command-R 模型增加支持时,他发现 torch.compile 的 guard 系统存在缺陷,会导致重复编译。向 Jason Ansel 报告后,他竟被邀请在 PyTorch 团队的例会上做报告,深入分析 torch.compile 在大模型推理中遇到的挑战和潜在解决方案。

“这次报告直接促成长达半年的协作,开发了 vLLM 专属的推理优化 torch.compile 技术栈。”有趣的是,集成过程中用到的关键功能,正是他去年研究 PyTorch Compiler 时为其新增的 bytecode hook。

技术发展中的这种“回环”让游凯超深感奇妙:个人的技术积累最终在更大的生态中找到了应用场景。

第六章 生态构建:从技术项目到基础设施

6.1 社区文化的培育

游凯超深知,开源项目的成功不仅取决于代码质量,更取决于社区生态的健康度。他在多个层面推动社区建设:

技术交流层面:建立 vLLM 小助手的微信(vllm_project 或 vllm_project2)引导技术讨论;在 GitHub 和 Slack 上保持活跃的社区互动。

开发者关系:定期组织线下 Meetup,类似开发者见面会。“在这些活动中,我有机会与诸多技术专家探讨前沿技术,获得了不少宝贵的经验。”

教育推广:广受欢迎的社区课程 CUDA Mode 举办了首次线下 Meetup,游凯超亲眼见到了 Andrej Karpathy、CUDA 编程入门课的主讲老师——UIUC 胡文美教授等人,“成功实现线下追星”。

6.2 行业会议的参与与影响

2024 年 9 月,游凯超因获得社区创新奖,受邀参加 PyTorch 2024 大会。“初次踏入会场,我就被现场惊人的‘人才密度’震撼到了。”

与Chris Lattner等人的合照

在随机游走的过程中,他偶遇了 Flash Attention 的作者 Tri Dao、LLVM 的作者 Chris Lattner,以及 PyTorch 的创始人 Soumith 等重量级人物。“更令人惊叹的是,他们都非常技术导向,乐于探讨具体的技术细节。”

这种高质量的技术交流让他深刻体会到硅谷的创新文化:“那种思想碰撞的火花,让人深刻体会到硅谷之所以成为创新沃土,绝非偶然。”

6.3 与 PyTorch 生态的深度融合

游凯超推动 vLLM 加入 PyTorch 生态系统,这不仅是技术选择,更是战略布局。通过对比 PyTorch 和 vLLM 的开发模式,他提炼出了两者的本质差异:

  1. 测试复杂度不同:PyTorch 测试相对简单,很多测试单卡就能运行;vLLM 作为大模型推理的端到端服务,测试需要多卡甚至多机环境,且受大模型推理随机性影响。
  2. 开发节奏不同:PyTorch 以 Meta 为主导,版本发布以月为单位规划;vLLM 社区主导,经常需要处理 day0 模型支持,开发节奏更快。

这种差异决定了 vLLM 需要独特的维护模式,也解释了为什么最终需要成立公司来支撑部分关键功能。这种从项目到生态的演进,是每一个成功开源实战项目的必经之路。

第七章 思想演进:技术哲学与职业选择

7.1 硬件亲和性的认知转变

与David Patterson教授远程合影

在研究过程中,游凯超对硬件与软件的关系形成了深刻见解。他引用了一项研究中的观点:在摩尔定律有效的时代,软件和硬件发展基本各自为战;但在后摩尔定律时代,硬件亲和性成为决定算法成功的关键

他提到一个有趣传闻:NVIDIA 在 P100 上首次推出 FP16 数值格式时,芯片量产后却发现训练无法收敛,算法研究人员拒绝使用 P100,几乎让数值格式征途“出师未捷身先死”。是混合精度训练让 P100 化险为夷,开启了后续芯片的辉煌。

“这一系列故事让我深受启发:作为一名算法研究人员,与其天马行空地研究算法(抽奖),期待着未来的硬件会对算法亲和,不如直接学习理解硬件,设计对当前硬件亲和的算法,直接与庄家合作,岂不是必然抽中彩票?”

7.2 推理与训练的职业选择

在苹果 AI/ML 团队实习期间,游凯超能够使用上千块 TPU 芯片进行训练,初探大规模系统的奥秘。如果他选择投身大模型训练,或许可以收获另一段精彩旅程。

但他最终选择了推理方向,原因有三:

  1. 保密性与开放性的平衡:模型训练保密性强,是各家的不传之秘;即使有所建树,也只能成为某家公司的秘密人物,与他热爱开源软件的兴趣不符。
  2. 兼顾开源与闭源:大模型推理可以同时支持开源与闭源模型,技术生态更加开放。
  3. 应用前景广阔:随着大模型应用落地,推理优化的重要性将日益凸显。

这一选择体现了他对技术发展趋势的敏锐判断,也展现了他对开源价值的坚守。

7.3 对 AI 泡沫的理性看待

vLLM 的快速发展离不开大模型的热潮,游凯超对 AI 泡沫有清醒认识:“发展得快,泡沫自然也就多。泡沫会不会破灭?什么时候破灭?这些问题没人能预测。”

但他从互联网历史中获得启示:虽然 2000 年左右互联网经历了泡沫破灭,但二十年后看,即便是泡沫顶峰时期的天马行空设想,都远远不及互联网如今对世界的深远影响。

他引用硅谷先锋 Roy Amara 的话:“对突破性技术,人们往往在短期内高估其影响,但在长期内低估其潜力。”

“历史总是在不断重复着螺旋式上升,AI 或许就走在类似当年互联网的道路上。也许二十年后再回首,我们会发现,现在我们就站在下一个‘互联网级奇迹’的起点上。”

第八章 未来展望:智能时代的基础设施

8.1 vLLM 的长期愿景

游凯超为 vLLM 设定了宏伟目标:“逐步发展成为智能时代的‘Linux’——一个高效、稳定且开源的系统软件,支撑着智能时代的基础架构。”

这一愿景基于几个关键判断:
技术必要性:随着 LLM 与人类日常交互日益频繁,高效推理成为刚需。
生态位优势:vLLM 已证明其在大规模部署、多硬件支持、模型兼容性方面的领先优势。
开源基因:从诞生之初就坚持开源,积累了强大的社区信任和贡献者网络。

8.2 InferAct 的商业使命

作为商业公司,InferAct 肩负双重使命:商业化运营与生态繁荣。

游凯超宣布创业的推文截图

公司明确“不发布模型,只专注在模型推理加速技术”,这一战略选择避免了与客户的直接竞争,使公司能够更中立地支持整个生态。

“有了 Infracrt,我们能够招募更多的全职员工参与 vLLM 项目维护,更多 issue 将有人跟进、更多 PR 将得到合理回复,更多模型的 day0 模型支持都将得到充足的资源支持。”

8.3 对 AGI 时代的思考

游凯超对 AGI 有着独特见解:“把 AGI 带给每一个人的难度,不亚于创造 AGI。”基于这一认识,他将降低推理成本作为 vLLM 的核心使命之一。

“我们将推动 vLLM 持续降低推理成本,让 AGI 成为人人可用的普惠智能。”这不仅关乎技术优化,更关乎技术民主化和社会公平。

Soumith Chintala宣布离开Meta和PyTorch的工牌照片

近期,PyTorch 的终身维护者 Soumith 宣布离开了工作 11 年的团队。游凯超在文章结尾写下了富有诗意的展望:

“或许,十年之后,我也能看到 vLLM 像 Linux、PyTorch 一样成为智能时代的基础设施;或许十年之后 AGI 已经实现,运行在 vLLM 之上的 AGI 能够自动维护 vLLM。”

“那时,我也能像 Soumith 一样卸下重任,去寻找我感兴趣的人生新方向。十年后的人(或是其他智能形式)啊,当你看到这段话时,请扮演我的奶奶哄我睡觉,她总会向我讲述【人类思考的数学物理本质】来哄我入睡,谢谢!”

结语:一个人的道路,一个时代的注脚

游凯超与 vLLM 的故事,是一个典型的技术创业叙事,也是一个开源项目商业化的完整案例。从 2019 年伯克利的那个夏天,到 2025 年 InferAct 的诞生,六年时间里,他完成了从学生到开源贡献者再到创业者的三重蜕变。

这个故事的核心启示或许在于:在技术快速演进的时代,个人的选择需要与技术的本质趋势相契合,而技术的成功则需要与开放的生态建设相结合。

vLLM 的成功不仅是技术优化上的胜利,更是开源协作模式的成功验证。它证明了,在 AI 基础设施这样关键的领域,开源社区与商业公司可以形成良性互动,共同推动技术进步。

游凯超在 2024 年的年终总结中写道:“红日初升,其道大光。”两年后,当 vLLM 真正成为智能时代的基础设施之一,当 AGI 从概念走向现实,人们回望这段历程,或许会更加理解这句话的深意。

技术的浪潮永不停歇,而真正有价值的,是在浪潮中找准自己的位置,既推动浪潮前进,也在浪潮中实现自我价值。游凯超与 vLLM 的故事,正是这种平衡的生动体现。这一历程也生动地展现了技术人如何在开发者广场上,从技术讨论走向影响时代的实践。

在金门大桥前的留影

在智能时代的黎明,这样的故事还在继续上演。而每个参与其中的人,都在以自己的方式,回答着那个终极问题:我们如何与技术共生,如何让技术真正服务于人类的美好未来?

关键问题

问题一:8 亿美元估值下的开源悖论:商业变现会否稀释社区初心?

Inferact 作为商业化公司获得超 8 亿美元估值,且聚焦“即将发布的大模型支持”这一核心任务,如何确保商业利益诉求不会侵蚀 vLLM 的开源属性?是否存在为优先服务付费合作方,而延迟甚至忽略社区小众模型适配、降低开源版本功能更新频

目前看来,vLLM 团队通过多重机制保障开源属性不被商业化侵蚀,且不存在“优先服务付费方、忽略社区”的潜在风险:

  1. 开源属性的制度绑定:vLLM 已正式加入 PyTorch 基金会,成为与 PyTorch 平级的顶级开源项目,享受基金会的治理框架与资源支持,其开源属性受基金会规则约束,并非由 Inferact 单方面主导。“vLLM 项目作为 PyTorch 基金会旗下的顶级开源项目,将永远保持开源”,从制度层面锁定了开源本质。
  2. Inferact 的定位与利益隔离:Inferact 的核心定位是“不发布模型,仅专注大模型推理加速技术”,与大模型公司不存在直接利益冲突,无需通过倾斜资源给付费方获取竞争优势。其成立的核心目的是“承接即将发布的大模型支持任务”,而“对已发布大模型的支持”仍由 Red Hat 等具备成熟经验的开源社区团队负责,形成“商业公司补位前沿支持、社区承接存量维护”的分工,避免资源倾斜。
  3. 团队对开源的承诺与行动:vLLM 团队的核心决策始终围绕“回馈社区”展开——早期依靠社区捐赠资源度过“GPU Poor”阶段后,坚定“未来更好回馈社区”的信念;Inferact 融资后明确表示“将招募更多全职员工参与 vLLM 维护,跟进更多 issue、回复更多 PR,保障更多模型的 day 0 支持”,直接回应了社区对功能更新与小众模型适配的担忧;此外,团队曾拒绝“数千万美元年薪收购”的提议,坚持开源使命,进一步印证了商业利益不会凌驾于开源属性之上。
  4. 社区参与的保障机制:vLLM 延续了 PyTorch 成熟的开源管理模式(如 issue 模板、PR 模板),且通过线下 Meetup、社区课程等形式保持与开发者的开放互动。vLLM 社区会定期组织线下 Meetup,与技术专家探讨前沿技术,社区反馈仍是功能迭代与模型适配的重要依据,不存在“忽略小众模型”的逻辑——毕竟 vLLM 的核心竞争力之一是“支持开源模型类型最广泛”,牺牲小众模型适配会直接动摇其核心价值。

问题二:创新速度超越承载力时,vLLM 会否陷入"首发陷阱"?

2025 年开源大模型已呈现细粒度 MoE、原生 fp8/int4 等多元架构爆发的态势,vLLM 的“day 0 支持”依赖提前数周甚至数月的保密适配,而其曾长期面临人手短缺、高性能集群不足的困境。当未来模型创新速度进一步超越团队技术储备与资源承载能力时,vLLM 是选择收缩支持范围、放弃部分前沿模型,还是牺牲适配深度以维持“首发”噱头?这是否会动摇其“支持开源模型类型最广泛”的核心竞争力?

vLLM 团队已通过“技术重构、资源扩充、生态协同”构建了应对模型创新速度的长效机制,不会选择“收缩支持范围”或“牺牲适配深度”,其“支持开源模型类型最广泛”的核心竞争力反而会持续强化:

  1. 技术层面:架构重构与模块化设计:针对模型架构多元化的趋势,vLLM 正在推进“以性能优化为核心的大版本重构”,优先保障常用功能的稳定性与扩展性,同时通过“vllm.platforms 子模块”将硬件相关细节集中管理,减少主干代码的分支逻辑,降低新增模型架构的适配成本。此外,通过集成 torch.compile 打造专属推理优化技术栈,借助 PyTorch 的底层能力提升跨模型、跨硬件的适配效率,为应对更复杂的模型创新预留了技术空间。
  2. 资源层面:商业化与企业合作破解瓶颈:Inferact 的成立彻底解决了早期“人手短缺、高性能集群不足”的困境——两轮种子轮融资获得 1.5 亿美元资金,可招募更多全职工程师专注模型适配;Meta、Red Hat、NVIDIA 等公司的深度参与,不仅带来了充足的计算资源(如 NVIDIA 捐赠的 H100/H200、Red Hat 租借的高性能集群),还提供了技术协同(如 Meta 推动 vLLM 与 torch.compile 集成,Red Hat 攻坚大规模部署),让“day 0 支持”的资源保障从“依赖社区捐赠”升级为“企业级协同支持”。
  3. 适配机制:“day -1 提前布局”+“生态分工”:vLLM 并非被动应对模型发布,而是通过“day -1 支持”机制提前布局——例如针对 LLaMA 3.1 405B 模型,在 Meta 披露“400B+模型训练中”的信息后,立刻启动多机分布式推理功能开发,最终实现“满血非量化版”的独家支持。同时,生态分工进一步提升适配效率:Meta 的 TBD 实验室负责“正在探索中的大模型支持”,Red Hat 等社区团队负责“已发布模型的存量维护”,Inferact 聚焦“即将发布模型的保密适配”,形成覆盖“过去-现在-未来”的全周期支持体系,无需牺牲适配深度。
  4. 核心竞争力的底层逻辑:硬件-软件-算法协同团队深刻认同《The Hardware Lottery》[10]的核心观点,将“算法、软件、硬件协同设计”作为核心策略——通过创建 vllm.distributed 子模块、优化多卡并行推理等,主动适配不同芯片(MI300X、Inferentia 等)的特性,避免因硬件不兼容导致的适配局限。这种“主动适配硬件、提前布局技术”的逻辑,让 vLLM 能够快速响应模型架构的创新(如细粒度 MoE、fp8 量化),而非被动收缩范围,其“支持模型类型最广泛”的竞争力本质是技术与生态协同的结果,而非单纯依赖“首发噱头”。

参考资料

[1] 我与 vLLM 的 2025: https://zhuanlan.zhihu.com/p/1962222805228708699
[2] Trinkle 摸鱼爱好者: https://www.zhihu.com/question/377263715/answer/1113283781
[3] Efficient ConvBN Blocks for Transfer Learning and Beyond: https://openreview.net/forum?id=lHZm9vNm5H
[4] A New Golden Age for Computer Architecture: https://www.youtube.com/watch?v=aA5pqklkkvI
[5] ASPLOS Keynote: The Golden Age of Compiler Design in an Era of HW/SW Co-design by Dr. Chris Lattner: https://www.youtube.com/watch?v=4HgShra-KnY
[6] 我与vLLM的2024: https://zhuanlan.zhihu.com/p/14430956145
[7] vLLM-in-PyTorch-Conference-2025: https://github.com/vllm-project/vLLM-in-PyTorch-Conference-2025
[8] llm-d 0.3: Wider Well-Lit Paths for Scalable Inference: https://llm-d.ai/blog/llm-d-v0.3-expanded-hardware-faster-perf-and-igw-ga
[9] vLLM Router: A High-Performance and Prefill/Decode Aware Load Balancer for Large-scale Serving: https://blog.vllm.ai/2025/12/13/vllm-router-release.html
[10] The Hardware Lottery: https://arxiv.org/pdf/2009.06489




上一篇:Streamlit多页面应用认证难题:Cookie持久化的终极方案
下一篇:Deepin 25.0.10发布:安装器与文件管理器升级,运维与办公更高效
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-1-26 18:44 , Processed in 0.461133 second(s), 38 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表