云栈社区»论坛 › 站务中心「 Forum Service 」 › DeepSeek多模态识图全面开放：主打看图推理而非OCR，实测效果如 ...

发回帖发新帖

4167 积分	0 好友	549 主题

发消息

DeepSeek多模态识图全面开放：主打看图推理而非OCR，实测效果如何？

发表于 3 天前 | 查看: 49| 回复: 0

今天看到消息说 DeepSeek 出了识图模式，我的第一反应是：识图？这不是早就有了吗？我之前经常拿着照片让它提取文字啊。

DeepSeek识图模式界面

幸亏这话没说出口，不然该闹笑话了。

随后在 X 上看到了陈小康发的推文。陈小康是 DeepSeek 多模态团队的负责人，本硕博均就读于北大。

陈小康推文截图

老实说，DeepSeek 的识图模式在 V4 发布几天后就上线了，但当时是灰度测试，并未大范围开放。如今，识图模式终于迎来全面开放，Web 端和 App 端均可使用。

DeepSeek 的识图模式并不是从 OCR 中提取文字，而是真正理解图片内容。 换句话说，这玩意儿终于“开天眼”了。

我赶紧让它分析了一张图片，整个识图过程速度飞快。

AI生成图片实测

它先判断这是夜间足球比赛现场，位置像 VIP/包厢区域；接着分析人物，描述出一位穿米色套装、拿墨镜、倚靠护栏的女士；再往后，它甚至注意到了右下角护栏上的葡萄牙队徽。这个细节挺关键——如果只是泛泛而看，谁都能说一句“一位女士在球场”，但能注意到队徽并推断“很可能是里斯本的光明球场或巨龙球场”，说明它的确在做深度学习层面的语义理解。

有意思的是，它并没有武断下结论“这就是某某球场”，而是用了“可能”这种留有余地的推断。现在不怕 AI 犯错，就怕它犯错了还一本正经地胡说八道——那种纠错成本太高了。

更让我意外的是后续那一段。

AI生成图像判断

它直接指出这张图很可能是 AI 生成图像，理由也很具体：画面太干净、光影透着电影感、皮肤和人物边缘融合得过于平滑。眼下网上到处都是 AI 图，很多图乍一看确实不差，让人肉眼去甄别，多数时候也只能说“感觉有点怪”，却说不出清晰的依据。

此前 ChatGPT 鉴定 AI 生成图像，主要依赖两个技术指标：一个是检测到 SynthID 水印，另一个是检测到内容凭证。

OpenAI图像验证界面

这更像从图片源头出发做判断。而 DeepSeek 则是从图像本身的视觉特征出发来鉴别，计算机视觉推理能力明显更胜一筹。

我又用一张充满戏谑感的图来考考它的解读能力。

讽刺漫画解读

它的推理过程相当精彩，但也犯了两个错：一是错误地把 Claude 3.5 认成了 Fable 5；二是说被禁的原因是“无法向中国大陆用户提供服务”。不过这两个错误问题不大，无非是知识库训练时间到了截止期。

知识库时间说明

我需要开启联网搜索才能让它获取最新消息。但识图功能目前不支持联网搜索，这就死锁了。也就是说，现阶段识图功能只能大概率判断一张图是不是 AI 图，而无法实时分析并解释图片背后的最新事件。

但这个限制反而让我更清晰它的定位——它并不是一个“看图搜索引擎”，更像一个“看图推理器”。你给它一张图，它能拆解图中元素，把人物、文字、动作、空间关系和画面质感都讲清楚。可如果这张图隐喻的是昨天刚发生的新闻、或者今天才火起来的梗，它就难以捕捉到上下文，从而产生前面那种疏漏。

不过，这次更新至少说明了一件事：DeepSeek 补上了多模态入口。从今往后要拼的，是看见之后，能不能继续把事想明白、做下去。

对这类前沿人工智能应用的实测与分析感兴趣的话，欢迎常来社区转转，这里的讨论氛围还是很真实的。

上一篇：VLA预训练突破：ACE-Ego-0如何用人类第一视角视频训练机器人
下一篇：macOS 快捷键冲突不再抓瞎：用 HotkeyClash 扫描系统、应用与 Karabiner 的按键争端

多模态AI, DeepSeek, 计算机视觉, 人工智能, 深度学习

DeepSeek多模态识图全面开放：主打看图推理而非OCR，实测效果如何？

相关帖子