4月21日,OpenAI发布了新一代图像生成模型GPT-Image-2(官方称为ChatGPT Images 2.0)。发布仅12小时后,它便迅速登顶全球最大图像生成竞技场Arena.ai的榜首,Elo评分高达1512,比第二名谷歌的Nano Banana 2高出整整241分——创下了该榜单有史以来最大的领先差距。
本文综合了国内外大量评测,试图为你讲清楚这个模型到底强在哪里,以及那些容易被忽略的关键细节。
一个很能说明问题的细节
两年前,如果你让AI生成一张中餐馆的菜单,结果大概率是“红烧肉”变成“红烧囟”,“夫妻肺片”变成“夫妻吠片”。中文字形相近、笔画复杂,AI基本是在“猜字画字”,十个字里能错三四个。
但在GPT-Image-2中,你完全可以拿着它生成的菜单直接交给印刷厂,师傅挑不出一个错别字——尽管画面上“清蒸鲈鱼 ¥168”的定价,可能会让食客怀疑这条鱼凭什么这么贵。
这个变化听起来是个细节,但如果你真的用过AI画图,就能明白“文字生成准确”意味着什么。过去三年,几乎所有主流图像模型——Midjourney、Stable Diffusion、DALL-E——在文字渲染上都像个有读写障碍的天才:能画出惊艳的构图,但一到写字就“鬼画符”。GPT-Image-2把文字准确率从此前的90-95%拉到了99%以上,并且覆盖了中文、日文、韩文、印地语、孟加拉语等非拉丁字母体系。对国内用户来说,这一点至关重要。
哪些事情让人眼前一亮
一、文字终于不再是装饰
之前的模型处理文字,本质上是“画出来的字”,而不是“真正的字”。GPT-Image-2的改变,是把文字当成内容的一部分来理解和渲染,而不只是一堆像素。
这意味着你现在可以直接生成:带正确文案的海报、中文标签清晰的信息图、排版合理的杂志封面、菜单、操作手册配图。那种每次生成后还要回Photoshop手动改文字的繁琐工作流,可以大幅简化。
提示词参考:
生成一张双语科普海报(中英双语),主题是"为什么睡眠不足会变胖",
配有3个核心机制的简明图解,分别说明皮质醇、瘦素、食欲素的关系。
白色背景,字体清晰,适合社交媒体转发,尺寸3:4竖版。
二、会“想”再画,而不是直接开画
这是GPT-Image-2区别于一切前代产品最本质的地方。
OpenAI在这个模型里集成了O系列推理架构。也就是说,模型在生成图像之前,会先进行规划:理解提示词的语义,推断构图逻辑,在需要时甚至会联网搜索最新信息(比如查一个品牌的最新Logo样式)。这被称为“思考模式”(Thinking Mode)。
这和过去“模型接收prompt → 直接输出图像”的流程有本质区别。以前你是在给一个执行者下命令,现在则是在和一个理解者合作。
在实际测试中,这个能力体现在两个地方:
- 复杂指令的还原度更高。涉及多个元素、空间关系、细节约束的场景,模型能更准确地理解你的意图,不容易“发挥过度”或“遗漏细节”。
- 思考模式支持一次生成8张连贯图像。角色、物体、风格在8张图里能保持一致,这是此前从未有过的能力。
提示词参考(连贯分镜场景):
生成一个4格漫画分镜,讲述一个学生在黑板上推导公式,
越写越兴奋,最终发现自己推出了一个显然错误的结论,
表情从专注到崩溃。黑白日式漫画风格,人物造型统一。
三、和之前的模型架构彻底切割
GPT-Image-1.5是建立在GPT-4o之上的,图像生成只是语言模型顺带做的事情。而GPT-Image-2是一个完全独立的图像生成模型,与GPT-4o的管线彻底分离,采用单步推理而非两阶段推理。
生成的PNG文件元数据与上一代完全不同,说明底层系统做了全面重构。代价是速度变慢了——它用质量换速度。这个取舍值不值,完全取决于你的使用场景:如果需要快速批量出图,可能会感受到等待;但如果需要精细质量,这个等待通常是值得的。
四、风格理解更像个“多面手”
Midjourney在绘画风格上有极强的辨识度,擅长宏大叙事的史诗感。而GPT-Image-2更像一个可以适应不同工作场景的全才:像素风、日漫、电影感摄影、水彩插画、UI截图、建筑图纸、科学示意图——它对每种风格的还原都很忠实,不会把每种都画得“有点像GPT做的”。
这对需要风格统一的内容创作者是个好消息:你可以指定风格,模型会认真执行,而不是默认往某个固定美学靠。
提示词参考(风格测试):
一张电影感横幅图片,场景是深夜的上海浦东,一位穿风衣的女性
站在黄浦江边,背对镜头望向灯火通明的陆家嘴。
胶片颗粒感,蓝绿色调,35mm镜头视角,1:2.35宽幅比例。
五、分辨率和比例的限制大幅放开
此前的版本只支持三种固定分辨率(1024×1024、1024×1536、1536×1024)。GPT-Image-2现在支持最宽3:1到最高1:3的任意比例,官方最高支持2K,实验性支持4K。
这意味着它可以直接生成:横幅Banner、手机壁纸、海报、书签、演示文稿配图,不用再生成后裁剪或拉伸。
还做不好的事情
空间操作仍然不可靠。涉及精确的物体位置调整——比如“把左手往上移一点”或“把这个箭头对准那个点”——仍然容易出错。折纸教程、魔方示意图这类需要精确空间理解的内容,它依然力不从心。
幻觉没有消失。它会自信地生成错误的信息图,比如中医经络图里穴位数量和位置对不上,发票格式看起来对但税号不对,细节经不起专业审查。用于专业领域时,需要领域内行来验收。
密集文字仍然会翻车。文字量超过一定密度,尤其是复杂排版的长文档,AI的幻觉问题就会重新浮现。国内网友测试发现,当海报文字多到一定程度,AI会开始生成不知所云的语句。
架构是个黑盒。OpenAI没有公开它是扩散模型还是自回归模型,只说是“通用模型”或“图像版GPT”。这对开发者来说是个麻烦:没有办法估算GPU需求、评估微调路径,或者优化推理参数。
思考模式有付费门槛。Thinking Mode只对Plus(月付20美元)及以上用户开放,免费用户只能用Instant Mode。最好的功能被锁在了付费订阅后面,这是商业决策,并非技术限制。
一些有意思的用法组合
国内外用户发现了一个效果不错的工作流:用GPT-Image-2生成素材图,再用Seedance等视频生成工具转成动态视频。
这个组合的逻辑在于:GPT-Image-2在构图和细节上的精细度,给视频模型提供了更好的“锚点”,运动帧之间的一致性更高,画面更稳。已经有人用这个流程生成了游戏风格的动态场景和动画分镜效果,在X上引发了不少关注。
对于数学科普创作者来说,还有一个值得尝试的用法:
提示词参考(数学科普场景):
生成一张4K机制示意图,主题是傅里叶变换的直觉理解。
左侧是时域波形,包含三种不同频率的叠加;
右侧是频域分解后的三个独立波峰。
用颜色区分三种频率成分(红蓝绿),中间用箭头表示"分解"过程,
配有清晰的中文标签和数学公式标注。
背景白色,学术插图风格,适合课程讲义使用。
从排行榜数字看懂竞争格局
Arena.ai是图像生成模型的盲测排行榜,参与者针对同一提示词的两张匿名图片进行投票,身份全程隐藏。
GPT-Image-2的Elo得分1512,第二名Nano Banana 2(谷歌)是1271。换算成胜率,GPT-Image-2是93%,Nano Banana 2是67%。这不是“略强”,而是规则公平下的碾压式领先。
更有意思的数字是:GPT-Image-1.5的最高质量档(High)得分1241,排第四。新模型的中等质量档(Medium)比旧模型的最高质量还高271分。这说明这次不只是参数调整,而是架构层面的重建。
当然,排行榜反映的是普通用户的整体偏好,不代表所有场景的最优解。Midjourney V8在艺术风格控制上仍有优势;Flux 2在开源、透明背景、低成本大批量生成上具有竞争力;Google的Imagen 4在演示文稿级别的文字排版上被部分评测者认为更稳定。
当伪造变得更容易
这部分不是技术分析,但值得提一下。
GPT-Image-2的多语言文字渲染能力,加上对各类UI界面格式的理解,让“伪造截图”的门槛从“需要会PS”变成了“说一句话”。聊天记录、支付截图、各类证明文件……这些东西的视觉可信度正在下降。
这不是说GPT-Image-2是坏的。但任何提高生产力的工具,都会同时提高造假的生产力。C2PA这类内容来源认证标准(索尼、尼康、Adobe、OpenAI都在推进)正在尝试为每张图片提供“出生证明”——嵌入可验证的元数据,记录拍摄设备、时间、坐标,任何后续编辑都留有痕迹。但要真正普及,还有一段距离。
未来的信任机制,可能不依赖“图看起来像不像真的”,而是依赖“这张图从哪里来、经过谁的手”。这件事,普通用户现在就可以开始留意。
怎么用,用在哪
目前对普通用户: 直接在ChatGPT网页或App里使用。免费用户有基础功能,Plus用户可以开启思考模式和一次生成8张。
目前对开发者: API已开放,模型名称为 gpt-image-2。生成一张中等质量1024×1024约0.053美元,高质量约0.211美元。如果你还在用DALL-E 3,注意它将于5月12日正式退役,需要尽快迁移。
几个最值得尝试的场景,附提示词:
【场景1:科研配图】
生成一张BioRender风格的机制图,主题是mRNA疫苗的工作原理:
脂质纳米颗粒进入细胞→mRNA被核糖体翻译→产生刺突蛋白→免疫系统识别并产生抗体。
四个步骤用箭头连接,配有中英双语标注,白色背景,适合期刊插图风格。
【场景2:数据可视化草图】
生成一张信息图,展示2020-2025年全球AI大模型参数量的增长趋势。
横轴为年份,纵轴为参数量(对数刻度),
标注5个里程碑模型(GPT-3、GPT-4、Gemini Ultra、Claude 3、GPT-5)。
简洁商务风格,蓝色系配色,中文标签。
【场景3:公众号封面图】
生成一张公众号首图,主题是"复利的力量",
画面是一粒种子逐渐长成参天大树的四阶段演变,
从左到右时间流逝,树下有时间轴标注(第1年、第5年、第20年、第50年)。
暖色调,手绘水彩风格,横版16:9比例。
本文综合参考了TechCrunch、VentureBeat、The Next Web、Segmind、PixVerse、Arena.ai等多个独立评测,以及网友的实测反馈。以上内容整理自云栈社区的技术专题讨论。