DeepSeek-V4 正式上线,没有发布会也没有预热,但这次更新背后有不少值得深挖的细节。先说说为何迟到 15 个月?很多人以为是研发卡住了,其实 DeepSeek 做了一个极其大胆的决定:把整个底层架构从英伟达的 CUDA 生态迁移到华为昇腾芯片上。CUDA 是英伟达的护城河,全球 人工智能 行业十几年的代码、工具、生态全在上面,几乎没人敢绕开。DeepSeek 硬是啃下来了,迁移过程中遇到训练崩溃、稳定性不足等一堆问题,最终在昇腾 950PR 上把推理速度提升了 35 倍。黄仁勋在播客里说,如果 DeepSeek 在华为芯片上首发,对美国来说是「a horrible outcome」。能让老黄说出这种话,就知道这件事的分量。
然后是百万上下文。以前百万 token 的上下文窗口基本是 Google Gemini 的独家能力,其他主流模型大多只支持十几万。DeepSeek 这次直接宣布百万上下文是所有版本的标配,包括免费版,而且 开源。一百万 token 什么概念?《三体》三部曲加起来差不多就这个量,你可以把整套书丢进去问任何问题。
代码能力方面,V4 已经进入世界第一梯队。官方说内部员工已经在用它做编程智能体了,体验优于 Claude Sonnet 4.5,接近 Opus 4.6 的非思考模式。在 Codeforces 竞技编程测评上超过了 GPT-5.4,在 SWE-Verified 软件工程测试上和 Opus 4.6 几乎打平。要知道 Claude 在代码领域一直是断崖式领先的,连谷歌和 OpenAI 内部都有人偷偷用它写代码,所以「接近」这个词含金量很高。
关于免费的商业逻辑,背后金主幻方量化提供资金和算力支持,普通用户免费用,靠企业端 API 收费赚钱。V4-Pro 的 API 调用成本大约是 Claude Opus 4.6 的七分之一、GPT-5.4 的四分之一。
还有一个有意思的细节:DeepSeek 开始去北大中文系招人做数据标注了。以前它是出了名的「理科做题机器」,数学代码逻辑样样在线,但写有温度的文字总差一口气。现在开始补这块短板,说明 AI 竞争正在从「谁更聪明」转向「谁更像人」。
DeepSeek 面前还有不少问题:世界知识储备仍然逊于 Gemini,核心人才被字节、腾讯、小米高薪挖走,能不能守住那种不急不躁的研发文化也是个未知数。但至少到今天,他们用行动注解了那句荀子的话:「不诱于誉,不恐于诽,率道而行,端然正己。」
默默上线,没有发布会,没有直播,没有预热,就是把东西做出来,开源,上线,完了。
|