找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3432

积分

0

好友

455

主题
发表于 4 小时前 | 查看: 7| 回复: 0

DeepSeek 近日正式推出了 V4 系列大模型,包含 V4-Pro 和 V4-Flash 两个版本。前者拥有 1.6T 参数(激活 49B),后者为 284B 参数(激活 13B),两者均支持 100 万 token 的超长上下文。

此次升级主要集中在三大核心点:

  1. 混合注意力机制:结合压缩稀疏注意力与重度压缩注意力。相比 V3.2,推理效率提升 73%,且显存占用仅为原来的 10%。
  2. 新优化器 + 训练方案:采用 Muon 优化器,在 32T 高质量数据上进行预训练,并经过两阶段后训练以强化推理能力。
  3. 三档推理模式:提供非思考、高思考、最大思考三种模式,灵活适配不同场景需求。

性能方面,V4-Pro-Max 在代码、数学及长文本理解上,直接对标 GPT-5.4、Gemini-3.1 等闭源模型,成为当前最强开源模型。特别是在 LiveCodeBench 上取得了 93.5 分,Codeforces 评分达到 3206,长文本任务表现尤为突出。而 V4-Flash 虽然参数规模较小,但给予足够的思考时间后,推理能力也能媲美 Pro 版本。

值得一提的是,该模型采用 MIT 协议,支持本地部署,代码和权重已在 HuggingFace 发布,开源友好度极高。




上一篇:6个GitHub开源神器:Claude Code实战、语音克隆、浏览器API一网打尽
下一篇:Claude Opus 4.7霸榜背后:AI编程的“技术总监”与商业现实
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-4-24 22:03 , Processed in 0.846616 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表