5547 积分	0 好友	756 主题

OpenAI GPT Image 1.5图像生成模型评测：速度提升4倍与精准编辑功能详解

发表于 2025-12-18 01:13:17 | 查看: 188| 回复: 0

OpenAI近日正式推出了全新的图像生成模型GPT Image 1.5，并将其集成到所有ChatGPT用户（包括免费与付费版）的界面中，同时开放了API。这标志着OpenAI在人工智能驱动的视觉创作领域又向前迈出了重要一步。

与先前版本相比，GPT Image 1.5主要在以下五个方面实现了显著升级：

实战体验：多轮精准编辑测试

为了验证其编辑能力，可以进行一个包含多步骤的复杂修改测试。首先生成一张基础图像，提示词可描述为：“一张写实风格的照片：一位30岁左右的亚洲女性，短发，穿着白色T恤和牛仔裤，站在现代简约风格的客厅里……”。

随后，基于此图发出复杂编辑指令，要求模型仅对指定部分进行修改，例如：“1. 换上红色圣诞毛衣；2. 在右手边添加圣诞树；3. 在茶几上添加点燃的蜡烛；4. 将表情改为开心笑容；5. 将整体风格转换为吉卜力动画风格但保留写实光影。”

从结果看，模型能够较好地遵循指令，在变换服装、添加物品、更改风格的同时，保持了人物姿态、背景等未指定部分的高度一致性。

技术架构与模型选择

从官方披露的信息推测，GPT Image 1.5可能采用了混合架构，结合了自回归先验与强大的扩散解码器。对于开发者而言，新的模型已集成至OpenAI API，支持generate和edit端点，其云原生/IaaS架构设计便于集成与扩展。

OpenAI提供了不同层级的GPT图像模型以供选择：

值得注意的是，DALL·E 2和DALL·E 3模型已标记为弃用，并将于2026年5月12日停止支持。

性能基准与用户反馈

在LMArena（一个基于真人盲测的排行榜）的文本转图像类别中，GPT Image 1.5以1277分位列第一，超过了竞争对手的同类模型。不过，也有社区用户在Reddit等平台反馈，在某些场景的细节处理或风格化表现上，其实测体验可能与其他前沿模型各有千秋。

应用场景与玩法建议

目前，所有ChatGPT用户均可直接使用该功能。无论是通过侧边栏的“Images”入口，还是在聊天窗口直接输入指令，都能快速开始创作。以下是一些实用的提示词示例：

对于希望将此项功能集成到自有应用中的开发者，可以参考OpenAI官方提供的Prompting Guide和Cookbook，获取关于摄影风格、Logo设计、信息图表等场景的最佳实践指南，利用其开放的API进行开发。

总的来说，GPT Image 1.5的发布不仅显著提升了图像生成的速度与质量，其强大的精准编辑功能也大大降低了专业级图像处理的门槛。尽管模型在极其复杂的场景下可能仍存在一致性或内容过滤方面的局限，但它无疑已推动AI图像生成技术向“生产级视觉创作工具”的目标迈进了一大步。