OpenAI近日正式推出了全新的图像生成模型GPT Image 1.5,并将其集成到所有ChatGPT用户(包括免费与付费版)的界面中,同时开放了API。这标志着OpenAI在人工智能驱动的视觉创作领域又向前迈出了重要一步。
与先前版本相比,GPT Image 1.5主要在以下五个方面实现了显著升级:
- 生成速度大幅提升:处理图像生成请求的速度比前代快约4倍,用户无需长时间等待即可获得结果。
- 指令遵循更精准:在根据指令修改图像时,能够更准确地只改动指定部分,并保持人物、光影和构图的一致性。
- 编辑能力增强:支持对图像进行精细化的添加、删除物体,更换风格、服装及表情等操作,实用性堪比简易的图片编辑工具。
- 文字渲染能力改善:生成的图像中若包含文字,其清晰度与准确性均有明显提升,尤其在处理中文内容时表现更佳。
- 专用界面优化:ChatGPT侧边栏新增了独立的“Images”入口,界面设计更贴近创意工作室,提供预设滤镜和热门提示词建议。
实战体验:多轮精准编辑测试
为了验证其编辑能力,可以进行一个包含多步骤的复杂修改测试。首先生成一张基础图像,提示词可描述为:“一张写实风格的照片:一位30岁左右的亚洲女性,短发,穿着白色T恤和牛仔裤,站在现代简约风格的客厅里……”。

随后,基于此图发出复杂编辑指令,要求模型仅对指定部分进行修改,例如:“1. 换上红色圣诞毛衣;2. 在右手边添加圣诞树;3. 在茶几上添加点燃的蜡烛;4. 将表情改为开心笑容;5. 将整体风格转换为吉卜力动画风格但保留写实光影。”

从结果看,模型能够较好地遵循指令,在变换服装、添加物品、更改风格的同时,保持了人物姿态、背景等未指定部分的高度一致性。
技术架构与模型选择
从官方披露的信息推测,GPT Image 1.5可能采用了混合架构,结合了自回归先验与强大的扩散解码器。对于开发者而言,新的模型已集成至OpenAI API,支持generate和edit端点,其云原生/IaaS架构设计便于集成与扩展。
OpenAI提供了不同层级的GPT图像模型以供选择:
gpt-image-1.5:整体质量最佳,推荐用于大多数场景。
gpt-image-1 和 gpt-image-1-mini:更为经济的选择,适合对图像质量要求不极致或需要控制成本的应用。
值得注意的是,DALL·E 2和DALL·E 3模型已标记为弃用,并将于2026年5月12日停止支持。
性能基准与用户反馈
在LMArena(一个基于真人盲测的排行榜)的文本转图像类别中,GPT Image 1.5以1277分位列第一,超过了竞争对手的同类模型。不过,也有社区用户在Reddit等平台反馈,在某些场景的细节处理或风格化表现上,其实测体验可能与其他前沿模型各有千秋。
应用场景与玩法建议
目前,所有ChatGPT用户均可直接使用该功能。无论是通过侧边栏的“Images”入口,还是在聊天窗口直接输入指令,都能快速开始创作。以下是一些实用的提示词示例:
- “生成一张90年代家庭聚会风格的老照片,包含两个大人和一条狗。”
- “将这张人物照片的背景替换为太空场景,但保持人物主体不变。”
- “为我生成一张专业求职用的证件照。”
- “修复这张老照片,提升其清晰度并保持原有人物神韵。”
对于希望将此项功能集成到自有应用中的开发者,可以参考OpenAI官方提供的Prompting Guide和Cookbook,获取关于摄影风格、Logo设计、信息图表等场景的最佳实践指南,利用其开放的API进行开发。
总的来说,GPT Image 1.5的发布不仅显著提升了图像生成的速度与质量,其强大的精准编辑功能也大大降低了专业级图像处理的门槛。尽管模型在极其复杂的场景下可能仍存在一致性或内容过滤方面的局限,但它无疑已推动AI图像生成技术向“生产级视觉创作工具”的目标迈进了一大步。
|