讲真,昨天我试用过 GPT-image-2 之后,被它强大的文生图的能力所震撼,真的是那种深深的震撼。不仅有震撼,还有上瘾,输入 prompt,直接输出极致接近真实的影像,谁玩谁上瘾。
但是,就像技术没有过错,错的是使用的人一样,很多人不满足于做创作,而是玩起了花活,什么特朗普马斯克直播带货、A 社发声明说中国用户能用 Claude Code 了,随之道歉说是假的(这条也是假的)。等等。



这类图产出的数量太庞大了,以至于社交媒体上出现了一个词:黑暗森林。
这个词不是第一次出现。在 AI 绘画刚出来的时候也有人提过。但这一次,GPT-image-2 的能力让这个词重新火了起来,而且说得比以往都认真。
原因是:这次的照片,真的分不出真假了。
它到底能做什么
先说能力,再说为什么这次不一样。
GPT-image-2 是 OpenAI 最新的图像生成模型,接入 ChatGPT 和 API。它有几个关键升级:
4K 分辨率。 之前所有 AI 图像工具,生成的图像放大就看不得了。GPT-image-2 支持 4K 输出,可以用在印刷品、广告、PPT 里。以前 AI 生成图像的使用场景被分辨率卡住了,现在这个限制不存在了。
文字渲染。 这是 AI 图像工具一直解决不好的问题。在图像里准确地渲染一段文字——特别是中文——之前是重灾区。GPT-image-2 过了这关。你可以在图像里加一行准确的中文标语,字体、位置、遮挡关系都是对的。
多语言支持。 不是只有英文,是中文、日文、韩文都可以。OpenAI 的模型训练数据覆盖了多语言文字渲染,这个能力是第一次完整地出现在图像生成领域。
照片级真实感。 这一点是最重要的,也是引发最多讨论的。它生成的人脸、皮肤纹理、光影关系,已经到了和相机拍出来的高度接近的程度。不是「看起来像照片」,是「实际上和照片无法区分」。
为什么这次的反应比以往都强烈
AI 绘图不是新东西。Midjourney、Stable Diffusion、DALL-E 3,每一代都有人说要完。但这一次不同。
之前每一代工具,都有明显的破绽:手画崩了、文字乱码、光影不自然、皮肤过度光滑像塑料。熟悉 AI 图像的人,看到这些细节基本能判断出是 AI 生成的。
GPT-image-2 不一样。
它生成的图像,这些破绽都不存在了。皮肤有真实的纹理和毛孔,光影关系在复杂场景下也是对的,手指数量大部分时候也是正确的。
更关键的是:它可以生成真实场景下的真实人物。
不是戴着夸张面具的虚构角色,不是在不存在的建筑前的摆拍,是一张看起来像新闻摄影的照片,有现场感、有情绪、有可信的物理细节。
这意味着什么?意味着任何人都可以被放到任何场景里,说任何话,做任何事。
而这件事在技术层面,已经没有任何门槛了。
黑暗森林是什么
「黑暗森林」这个概念,来自刘慈欣的科幻小说《三体》。宇宙是一片黑暗森林,每个文明都是带枪的猎人,看到别的文明第一反应是消灭它——因为你无法确认对方是敌是友。
AI 图像生成领域的黑暗森林,意思是:当所有图像都可能是 AI 生成的,信任就消失了。
你看到一张照片,照片里一个公众人物在做一件丑闻的事。以前你的第一反应是:这是真的吗?现在你的第一反应变成了:有没有可能是 AI 生成的?
以前这个问题的答案是「大概率不是,造假的成本很高」。现在这个问题的答案是「几乎肯定是网图」。
这会导致的一个直接原因是,大家发真实的图片,已经没人信了,因为信任的成本极高,与其费半天劲鉴别真伪,不如直接不信。
劣币驱逐良币。
检测跟不上的问题
有人说:生成能力变强了,检测能力也会跟上。这是一个动态博弈,但目前生成能力领先太多。
技术上的检测有几个思路:查看元数据、分析像素级统计特征、溯源模型指纹。但每一种都有局限。元数据可以被删除或伪造,像素级特征在生成质量提高后越来越不明显,溯源指纹在模型不断迭代后难以维持。
更麻烦的是,实际使用中,图像会经过截图、压缩、转发、二次编辑。每经过一步,残留的 AI 特征就更少一点,等到图像传到你眼前的时候,可能早就无法检测了。
所以现在的实际情况是:生成端在跑,检测端在追,追得很吃力。
创作者的真实处境
说完宏观说微观。
对于真正在用 AI 图像工具的创作者来说,GPT-image-2 的出现让整个生态变了。
插画师、设计师、摄影师,这些职业的边界已经被大幅压缩。以前花三天画的图,现在用 GPT-image-2 五分钟生成。虽然质量不一定完全达到专业水准,但足够好这个门槛已经过了。
够好意味着:很多不需要顶级的商业场景,已经可以被 AI 满足了。
广告公司、媒体、内容平台——这些地方对图像质量的要求是「准确、好看、能用」,而不是「艺术水准」。GPT-image-2 到达这个标准之后,大量中间段的需求不再需要真人来满足了。
就在昨天,还有人跟我说他看了我的文章发现 GPT-image-2 的强大能力,以后不再需要花钱找设计了。。。

这不是说顶尖的创作者会被取代,而是说就业结构的中间层被快速抽走了。
技术本身没有立场。GPT-image-2 可以用来做海报、做教育内容、做产品原型,也可以用来伪造证据、冒充身份、制造虚假信息。
这不是技术能决定的事,是社会需要面对的问题。
但有一个 trade-off 躲不开:限制能力等于限制可能性。
GPT-image-2 的能力是双刃剑。给创作者用,是解放生产力;给恶意行为者用,是放大破坏力。试图只保留好的那一半,几乎是不可能的。
水已经泼出去了。能做的是:搞清楚这盆水会怎么流,然后在能影响的地方想办法。
GPT-image-2 是 AI 图像生成领域的一个节点。
之前的问题是「AI 能不能生成看起来像真的图像」。现在这个问题基本解决了。
接下来要面对的问题是:当所有图像都可能是 AI 生成的,信任要怎么建立?
这不是技术问题,这是社会问题。需要新的验证机制、新的信任基础设施、新的自媒体素养。
黑暗森林不是一个可以被消除的状态。它是 AI 图像技术发展到这个阶段之后,必须面对的现实。
能做的,不是让森林重新亮起来,而是在黑暗里找到新的走路方式。在 云栈社区 这类技术探讨平台上,已经有不少人开始讨论如何建立可信的图像溯源体系,或许我们能从技术社群中找到一些线索。
另外,再给大家几个 Prompt 和文生图。
摄影风格
拍摄一张极致的微距摄影照片,一只蜜蜂停在一朵紫色薰衣草花蕊上,复眼和翅膀上的绒毛清晰可见,背景虚化成梦幻的绿色光斑,2:1放大倍率

创作一幅深空天文摄影图像,猎户座大星云M42,由电离氢气发出的红色与蓝色星云交织,中心是明亮的四合星,背景布满繁星,哈勃太空望远镜风格调色板

拍摄一张长曝光风光照片,夜晚的海岸边,海浪拍打岩石被雾化成丝绸般的白色柔雾,天空中的云彩呈现动态拖尾效果,ND1000滤镜质感。

艺术派
创作一幅立体主义风格的静物画,一把小提琴、一只玻璃杯和一份乐谱被解构成几何切面,多视角同时呈现,赭石色、灰色和橄榄绿色系,巴勃罗·毕加索与乔治·布拉克风格

创作一幅超现实主义数字艺术作品,空旷的沙漠中漂浮着一扇打开的木门,门内是一片深邃的星空和一只巨大的眼睛,地面有融化的时钟,萨尔瓦多·达利与雷内·马格利特风格结合

创作一幅极简主义风景画,一条水平线将画面分为灰蓝色的天空和深灰色的海面,左下角只有一只孤舟剪影,大量的留白,唐纳德·贾德与艾格尼丝·马丁风格

创作一幅故障艺术风格的数字肖像,人物的半边脸出现RGB通道分离和像素撕裂效果,背景有横向的扫描线雪花,赛博格式的数据损坏美学

创作一幅低多边形风格的岛屿场景,日落时分,几何化的山脉、松树和水面反射,色彩渐变柔和,多边形网格清晰可见,类似纪念碑谷游戏画面

设计一张极简音乐节海报。活动名为「听风·山谷音乐节」。主视觉只有一颗黑色的鹅卵石沉入水面激起涟漪,上方大量留白,排版文字只有瘦长的宋体字和英文,整体意境极度安静

赛博朋克
创作一幅蒸汽朋克风格的飞艇设计图,维多利亚时代复杂的黄铜齿轮、铆钉钢板、皮革气囊和木质螺旋桨组合在一起,漂浮在工业革命时期的雾都伦敦上空

制作一张90年代港产VCD出租店的录像带封面,片名《夺命代码》,主演周润发、林青霞。封面构图要拥挤,充满动作片爆炸元素,底部有「美亚镭射」字样,画质有轻微扫描线磨损感

创作一幅16位像素艺术风格的游戏横版场景,主角是一名持剑的勇者站在悬崖边,远处有像素城堡和飘动的云朵,色彩鲜明,充满复古游戏感
