找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

4167

积分

0

好友

549

主题
发表于 3 天前 | 查看: 49| 回复: 0

今天看到消息说 DeepSeek 出了识图模式,我的第一反应是:识图?这不是早就有了吗?我之前经常拿着照片让它提取文字啊。

DeepSeek识图模式界面

幸亏这话没说出口,不然该闹笑话了。

随后在 X 上看到了陈小康发的推文。陈小康是 DeepSeek 多模态团队的负责人,本硕博均就读于北大。

陈小康推文截图

老实说,DeepSeek 的识图模式在 V4 发布几天后就上线了,但当时是灰度测试,并未大范围开放。如今,识图模式终于迎来全面开放,Web 端和 App 端均可使用。

DeepSeek 的识图模式并不是从 OCR 中提取文字,而是真正理解图片内容。 换句话说,这玩意儿终于“开天眼”了。

我赶紧让它分析了一张图片,整个识图过程速度飞快。

AI生成图片实测

它先判断这是夜间足球比赛现场,位置像 VIP/包厢区域;接着分析人物,描述出一位穿米色套装、拿墨镜、倚靠护栏的女士;再往后,它甚至注意到了右下角护栏上的葡萄牙队徽。这个细节挺关键——如果只是泛泛而看,谁都能说一句“一位女士在球场”,但能注意到队徽并推断“很可能是里斯本的光明球场或巨龙球场”,说明它的确在做 深度学习 层面的语义理解。

有意思的是,它并没有武断下结论“这就是某某球场”,而是用了“可能”这种留有余地的推断。现在不怕 AI 犯错,就怕它犯错了还一本正经地胡说八道——那种纠错成本太高了。

更让我意外的是后续那一段。

AI生成图像判断

它直接指出这张图很可能是 AI 生成图像,理由也很具体:画面太干净、光影透着电影感、皮肤和人物边缘融合得过于平滑。眼下网上到处都是 AI 图,很多图乍一看确实不差,让人肉眼去甄别,多数时候也只能说“感觉有点怪”,却说不出清晰的依据。

此前 ChatGPT 鉴定 AI 生成图像,主要依赖两个技术指标:一个是检测到 SynthID 水印,另一个是检测到内容凭证。

OpenAI图像验证界面

这更像从图片源头出发做判断。而 DeepSeek 则是从图像本身的视觉特征出发来鉴别,计算机视觉 推理能力明显更胜一筹。

我又用一张充满戏谑感的图来考考它的解读能力。

讽刺漫画解读

它的推理过程相当精彩,但也犯了两个错:一是错误地把 Claude 3.5 认成了 Fable 5;二是说被禁的原因是“无法向中国大陆用户提供服务”。不过这两个错误问题不大,无非是知识库训练时间到了截止期。

知识库时间说明

我需要开启联网搜索才能让它获取最新消息。但识图功能目前不支持联网搜索,这就死锁了。也就是说,现阶段识图功能只能大概率判断一张图是不是 AI 图,而无法实时分析并解释图片背后的最新事件。

但这个限制反而让我更清晰它的定位——它并不是一个“看图搜索引擎”,更像一个“看图推理器”。你给它一张图,它能拆解图中元素,把人物、文字、动作、空间关系和画面质感都讲清楚。可如果这张图隐喻的是昨天刚发生的新闻、或者今天才火起来的梗,它就难以捕捉到上下文,从而产生前面那种疏漏。

不过,这次更新至少说明了一件事:DeepSeek 补上了多模态入口。从今往后要拼的,是看见之后,能不能继续把事想明白、做下去。

对这类前沿 人工智能 应用的实测与分析感兴趣的话,欢迎常来社区转转,这里的讨论氛围还是很真实的。




上一篇:VLA预训练突破:ACE-Ego-0如何用人类第一视角视频训练机器人
下一篇:macOS 快捷键冲突不再抓瞎:用 HotkeyClash 扫描系统、应用与 Karabiner 的按键争端
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-6-22 16:54 , Processed in 0.596191 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表