时隔一年,备受期待的DeepSeek V4终于在毫无预告的情况下悄然上线,发布时间恰好撞上GPT-5.5同日,勇气可嘉。
先看结论:这次国产开源在Agentic Coding能力上,第一次真正压过了Claude Sonnet 4.5。
官方描述非常克制:DeepSeek-V4已经是深度求索内部员工日常使用的Agentic Coding模型,实测反馈是使用体验优于Sonnet 4.5,交付质量接近Opus 4.6非思考模式,距离Opus 4.6思考模式还有一段差距。
听上去像是平铺直叙的内部结论,但含金量极高。Sonnet 4.5在过去很长时间里,是Claude Code和Cursor等主流编程Agent的核心模型。如今在Agent端实际交付上打赢Sonnet 4.5,意味着开源模型第一次有了可以充当Claude Code国内替代的真实选项。
DeepSeek V4这次分为两个型号:Pro版是1.6T总参数量、49B激活的MoE;Flash版是284B总参、13B激活。两者均支持1M上下文。推理效率是这次的关键亮点——在百万上下文下,V4单token推理FLOPs仅占传统方法的27%,KV Cache只占10%。这得益于新的CSA压缩加DSA稀疏注意力,直接打破了“长上下文=天价”的固有认知。
此外,1M上下文从今天起成为DeepSeek所有官方服务的标配。以往主流模型的长上下文普遍是高价位套餐,DeepSeek直接将其改为默认配置。
Flash走的是性价比路线:简单任务上与Pro旗鼓相当,复杂任务则存在差距。但按DeepSeek一贯的定价风格,Flash的API价格大概率依然是同类中最便宜的档位。Pro定价为每百万输入输出1/24元,Flash价格为0.2/1元,仍然是超级低价。
至于V4在真实Vibe Coding场景中表现如何,还有待接下来几天社区的大规模实测反馈。但官方放出的benchmark数据已经相当亮眼:LiveCodeBench 93.5、Codeforces 3206,是目前公开榜单中的第一或并列第一。
我这两天会把V4-Pro接进自己的Agent工作流跑几个真实项目,过两天再写一篇实测。
DeepSeek官方微信推文结尾引用了荀子的「不诱于誉,不恐于诽,率道而行,端然正己」,让人深受触动。如果你也对Agentic Coding感兴趣,欢迎来云栈社区发帖,聊聊你的实测心得。
|