找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

5271

积分

0

好友

731

主题
发表于 昨天 21:01 | 查看: 7| 回复: 0

闻乐 发自 凹非寺

DeepSeek 的视觉功能真的来了!

使用识图模式开始对话:界面左侧有蓝色鲸鱼图标,右侧显示三个模式按钮,其中识图模式高亮选中,下方提示“图片理解功能内测中”

DeepSeek 研究员陈小康率先发帖,用一条简短的消息点爆了开发者社区—— “Now, we see you. 👀 现在,我们看到你了。”

社交媒体截图显示Xiaokang Chen发文:“Now, we see you. 👀 现在,我们看到你了。 👀” 并附有两个蓝色鲸鱼图标

这条动态在云栈社区的技术圈子里也立刻炸开了锅,大家纷纷猜测:多模态这最后一张拼图是不是终于要拼上了?没过多久,另一位核心研究员陈德里也确认:V4 视觉模式已正式进入灰度测试阶段

Deli Chen发文确认:小鲸鱼现在可以看见了(在灰度测试中),附带眼睛发光的蓝色鲸鱼剪影

小鲸鱼能“看见”了,这事儿本身就像个信号:通用大模型的感知能力,正以肉眼可见的速度从实验室往外涌。

网友推文表达激动心情:“什么时候!!!”,下方是带红色发光双眼的鲸鱼LOGO

已经具备真实图像理解能力

你要知道,在此前版本中上传图片时,模型只能走 OCR 路线,也就是单纯把图片里的文字扒出来。下图就是旧版界面的典型状态,底部还写着“仅识别图片中的文字”。

旧版DeepSeek输入框界面,底部提示“仅识别图片中的文字”,功能按钮包括深度思考和智能搜索

但今天的灰度更新算是跨了一大步。被灰度选中的“幸运鹅”发现,首页已经冒出了醒目的“识图模式”入口,下面紧跟着一行“图片理解功能内测中”的小字提示。

先来看看效果怎么样。一位获测用户分享的截图显示,他上传了一张无明显文字的星巴克饮品照片,DeepSeek 的测试版不仅正确识别出了抹茶星冰乐、透明杯型与奶油覆盖等细节,还经过 4 秒思考输出了完整且通顺的英文描述。这说明模型确实在“理解”画面内容,而不是只做字符扫描。

测试用户上传星巴克饮品照片,AI输出英文描述,成功识别抹茶星冰乐和杯型

V4,满血归来

放出这两条爆炸性消息的研究员,可个个都不是“路人甲”。

陈小康,北京大学博士、DeepSeek 多模态研究组负责人。他主导的两项多模态工作,随便拎一个出来都是顶会常客:一个是 Janus 系列,专门搞统一的多模态理解与生成;另一个是 DeepSeek-VL2,基于 MoE 架构的视觉语言模型。

学术论文标题JanusFlow及作者列表,其中Xiaokang Chen用红框标出,涉及统一多模态理解与生成研究

换句话说,DeepSeek 现在能“睁眼看世界”,就是他带团队硬刚出来的。

而另一位陈德里则长期扎根语言模型、对齐策略、训练策略以及模型泛化能力等核心方向。过去两年,从 V2、V3 到 R1,几乎所有重要发布里都能找到他的名字,这一次 V4 也绝不例外。他最近还专门发帖回顾了长期路线:DeepSeek-V3 发布于 2024 年 12 月 26 日,V4 发布于 2026 年 4 月 24 日,相隔 484 天。

Deli Chen发布DeepSeek版本演进公告:V3到V4间隔484天,强调长期主义和开源理念

API 价格已经“打骨折”之后,现在视觉能力又火速补上——还有多少惊喜是我们没猜到的?

不得不说,在多模态这条拼图上,DeepSeek V4 这一轮是真真切切地满血归来了。


参考链接:
[1] https://x.com/victor207755822
[2] https://x.com/PKUCXK/status/2049381471669080209




上一篇:DeepSeek V4技术解析:1/4算力实现长上下文推理,车端AI成本拐点将至
下一篇:普林斯顿陈丹琦团队新研究:SD-ZERO与AggAgent,从训练到推理深度回收模型内部轨迹重塑复杂推理
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-5-1 04:35 , Processed in 0.834347 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表