4月24日,两件事挤在了同一天:OpenAI发布GPT-5.5,DeepSeek发布V4,前后脚就差几个小时。起初我没觉得有什么大不了——大模型更新早就成了日常,参数涨一点、benchmark刷一刷,大家该干嘛干嘛。
直到我细看了DeepSeek V4-Pro的指标:1.6万亿参数,100万Token上下文。
100万Token是什么概念?相当于把整本《百年孤独》一口气喂进去,它还能记住前面的情节,跟你讨论人物关系。以前这是Claude 3 Opus这个级别才能玩的东西,现在DeepSeek直接开源,API价格还只有竞品的1/40。
我不是说国产模型就一定盖过了OpenAI,但事情的性质确实变了。过去我们聊国产模型,总用一个词——“追赶”。现在呢?DeepSeek V4在HumanEval编程测试上突破90%,MATH数学推理75%+,MMLU综合84%+。这些数字摆在这里,意味着它在专业场景下的表现已经和GPT-5.5、Claude 4.5站到了同一排。
当然,OpenAI也没闲着。GPT-5.5这次主打的是“智能体能力”,说白了就是让它自己能上网查资料、操作电脑、完成多步骤任务。OpenAI内部85%的员工已经开始用Codex工具,说明这东西确实能干活。
但这里藏着一个微妙的区别。
GPT-5.5是闭源的,你得用ChatGPT,走OpenAI的API,遵守它的规则。DeepSeek V4是开源的,你可以直接下载到自己服务器上跑,适配昇腾、海光这些国产芯片,完全脱离开美国公司的生态。
这才是真正的分水岭。
开源与闭源的战争,进入了第二阶段。第一阶段比的是“谁更聪明”——GPT-4一出来,开源模型连尾灯都看不见。第二阶段比的是“谁更好用、谁更便宜、谁能被更多人和组织掌控”。
DeepSeek V4的Flash版本,284B参数,13B激活,推理成本只有V3.2的10%。这意味着什么?中小企业、个人开发者、甚至学校实验室,都能用得起以前只有大厂才玩得起的模型。
这让我想起一个历史类比。
2000年代初,Linux跟Windows的竞争。Windows更成熟、更好用,但Linux开源、免费、可控。最后谁赢了?没有完全的输赢,但Linux在服务器市场占了绝对主导,Android以Linux为基础,整个互联网基础设施都跑在Linux上。大模型很可能在走同样的路。
同一天发布,不是巧合,是两条路线的正面碰撞:一条走高端闭源,一条走普惠开源。OpenAI想证明“我才是最聪明的”,DeepSeek想证明“聪明不再是奢侈品”。
我判断,这场竞争的真正战场不在跑分榜上,而在谁能渗透进更多人的工作流程里。就像当年智能手机的竞争,最后不是iPhone打败了Android,也不是反过来,而是两家一起把诺基亚送进了历史。
现在的问题是:谁会成为大模型时代的诺基亚?
可能是那些还在卖高价API,却没提供真正差异化价值的公司;可能是模型能力一般、却靠营销炒作的创业公司;也可能是那些还抱着“开源就是落后”传统思维不放的人。
经过验证的观点才靠谱。我亲测了DeepSeek V4的API,也看过GPT-5.5的演示。说实话,日常对话上已经很难分出高下了。真正的区别就三点:长文本处理能力、代码生成质量、以及你能不能把它部署在自己的环境里。
如果你只是写个邮件、改个简历,用哪个都差不多。但如果你要处理100页的财报、开发一个需要严格数据隐私的AI应用、或者在无外网环境里跑模型,DeepSeek V4的优势立刻就显出来了。
这不是什么情怀,这是算账。同样的效果,一个成本是另一个的1/40,还能自己掌控,怎么选?
当然,OpenAI还有牌。GPT-5据传已在路上,据说会有真正的推理能力突破。但DeepSeek也没停下,V4还只是预览版,正式版还在迭代。
这场竞赛,才刚刚开始。
对普通人来说,这简直是利好。竞争越激烈,我们能用上的工具就越好、越便宜。对从业者来说,这是一个清晰的信号:大模型的门槛正在快速降低,真正的价值不再是“谁能训练出最大的模型”,而是“谁能把模型用得最好”。
最后说个细节。DeepSeek V4发布时,官方文档里有一句话:“让百万上下文能力从奢侈品变为普惠品。”听着像口号,可一看价格表:输入0.25元/百万Token,输出1元/百万Token。
真的就只能叹一口气。一年前,这种能力还是天价;现在,白菜价。技术民主化,有时候就是这么简单粗暴。