云栈社区»论坛 › 开发者广场「Dev Plaza」 › DeepSeek视觉模式灰度上线研究员确认支持真实图像理解 ...

发回帖发新帖

5271 积分	0 好友	731 主题

发消息

DeepSeek视觉模式灰度上线研究员确认支持真实图像理解

发表于昨天 21:01 | 查看: 7| 回复: 0

闻乐发自凹非寺

DeepSeek 的视觉功能真的来了！

使用识图模式开始对话：界面左侧有蓝色鲸鱼图标，右侧显示三个模式按钮，其中识图模式高亮选中，下方提示“图片理解功能内测中”

DeepSeek 研究员陈小康率先发帖，用一条简短的消息点爆了开发者社区—— “Now, we see you. 👀 现在，我们看到你了。”

社交媒体截图显示Xiaokang Chen发文：“Now, we see you. 👀 现在，我们看到你了。 👀” 并附有两个蓝色鲸鱼图标

这条动态在云栈社区的技术圈子里也立刻炸开了锅，大家纷纷猜测：多模态这最后一张拼图是不是终于要拼上了？没过多久，另一位核心研究员陈德里也确认：V4 视觉模式已正式进入灰度测试阶段。

Deli Chen发文确认：小鲸鱼现在可以看见了（在灰度测试中），附带眼睛发光的蓝色鲸鱼剪影

小鲸鱼能“看见”了，这事儿本身就像个信号：通用大模型的感知能力，正以肉眼可见的速度从实验室往外涌。

网友推文表达激动心情：“什么时候！！！”，下方是带红色发光双眼的鲸鱼LOGO

已经具备真实图像理解能力

你要知道，在此前版本中上传图片时，模型只能走 OCR 路线，也就是单纯把图片里的文字扒出来。下图就是旧版界面的典型状态，底部还写着“仅识别图片中的文字”。

旧版DeepSeek输入框界面，底部提示“仅识别图片中的文字”，功能按钮包括深度思考和智能搜索

但今天的灰度更新算是跨了一大步。被灰度选中的“幸运鹅”发现，首页已经冒出了醒目的“识图模式”入口，下面紧跟着一行“图片理解功能内测中”的小字提示。

先来看看效果怎么样。一位获测用户分享的截图显示，他上传了一张无明显文字的星巴克饮品照片，DeepSeek 的测试版不仅正确识别出了抹茶星冰乐、透明杯型与奶油覆盖等细节，还经过 4 秒思考输出了完整且通顺的英文描述。这说明模型确实在“理解”画面内容，而不是只做字符扫描。

测试用户上传星巴克饮品照片，AI输出英文描述，成功识别抹茶星冰乐和杯型

V4，满血归来

放出这两条爆炸性消息的研究员，可个个都不是“路人甲”。

陈小康，北京大学博士、DeepSeek 多模态研究组负责人。他主导的两项多模态工作，随便拎一个出来都是顶会常客：一个是 Janus 系列，专门搞统一的多模态理解与生成；另一个是 DeepSeek-VL2，基于 MoE 架构的视觉语言模型。

学术论文标题JanusFlow及作者列表，其中Xiaokang Chen用红框标出，涉及统一多模态理解与生成研究

换句话说，DeepSeek 现在能“睁眼看世界”，就是他带团队硬刚出来的。

而另一位陈德里则长期扎根语言模型、对齐策略、训练策略以及模型泛化能力等核心方向。过去两年，从 V2、V3 到 R1，几乎所有重要发布里都能找到他的名字，这一次 V4 也绝不例外。他最近还专门发帖回顾了长期路线：DeepSeek-V3 发布于 2024 年 12 月 26 日，V4 发布于 2026 年 4 月 24 日，相隔 484 天。

Deli Chen发布DeepSeek版本演进公告：V3到V4间隔484天，强调长期主义和开源理念

API 价格已经“打骨折”之后，现在视觉能力又火速补上——还有多少惊喜是我们没猜到的？

不得不说，在多模态这条拼图上，DeepSeek V4 这一轮是真真切切地满血归来了。

参考链接：
[1] https://x.com/victor207755822
[2] https://x.com/PKUCXK/status/2049381471669080209

上一篇：DeepSeek V4技术解析：1/4算力实现长上下文推理，车端AI成本拐点将至
下一篇：普林斯顿陈丹琦团队新研究：SD-ZERO与AggAgent，从训练到推理深度回收模型内部轨迹重塑复杂推理

DeepSeek, 多模态AI, 视觉语言模型, 灰度测试, Janus

DeepSeek视觉模式灰度上线 研究员确认支持真实图像理解

已经具备真实图像理解能力

V4，满血归来

相关帖子

DeepSeek视觉模式灰度上线研究员确认支持真实图像理解