最近,不少开发者开始在社交平台上分享他们协同使用 GPT Image 2 与 Codex 的实战经验。
GPT Image 2 是 OpenAI 今年推出的图像生成模型,在复杂构图与非拉丁文字渲染上表现突出;而 Codex 作为同生态下的开发环境,不仅能对话式生成代码、调度工具,如今还内置了 Image 2 的生图接口,无需额外配置 API Key 即可直接调用。
除了我们此前收集的一些游戏开发案例,设计师 Viktor Oddy 也发布了一段完整的建站实操视频,向大家展示了如何利用这套工具链从零搭建一个品牌网站。

把这几类案例放在一起看,这套工具链的能力边界与使用方法就已经很清晰了。
游戏美术:一天换掉整套视觉
独立开发者 VibeCreAI 提到,在一次 Game Jam 中,他把整个游戏的场景、道具和天空背景全部更新了一遍,总共 106 个素材,耗时仅仅一天。此前,他很排斥手动处理美术资产,一直用代码生成的占位符来凑合。这一次,他让 Codex 调用 Image 2 批量生成资产,随后直接在游戏内加载——省去了导出文件、拖拽素材和手动资产管理这一整套繁琐流程。他把这种体验叫做 “vibe art”,概念类似于大家常说的 “vibe coding”,只不过应用场景换到了美术环节。
另一位开发者 givros 的流程同样引人注目:先用 Image 2 生成画面,再让 Codex 将其切割为精灵图并驱动动画,最后由 GPT-5.5 搭建出一个可直接在浏览器中运行的游戏原型。整个过程,从一张静态图到真正可玩的产品,始终没有跳出这一条工具链。
如果你也想用这套工具涉足像素风格的游戏创作,chongdashu 的测试分享了一个有趣的细节。他让 Codex 调用 Image 1.5 来处理像素画的精准编辑,模型却坦诚反馈自己不擅长此类操作。结果,它并未硬着头皮出图,而是转而自行编写代码来逐像素调色。这揭示了一点:当遇到自身功能的局限时,模型会尝试用另一种方式完成任务。

规模更庞大的尝试来自 Peter Gostev。他让 GPT-5.5 在 Codex 里一气呵成地规划并生成了 1500 张 2:1 比例的图像,拼合成一个可以环顾各方向的“巴比伦空中花园”。这种体验类似街景地图的沉浸式漫游,不过他在复盘时也指出,移动时的画面衔接仍存在跳跃感。如果能更精密地规划好图像序列,最终效果应该会有质的飞跃。

UI 与网页:用参考图弥补审美短板
当你让 Codex 凭空设计网页界面时,结果往往是功能上没毛病,视觉上却很平庸。针对这个痛点,Peter Gostev 分享了一个三步策略:第一步,在对话中用 Image 2 反复调整,打磨出一张让你满意的 UI 参考图;第二步,把这张图丢给 Codex 去实现前端代码;第三步,让 Codex 对照参考图持续修改,直到最终界面尽可能贴近原图。这样一来,审美决策的主动权依旧在人手里,而 Codex 只负责繁重的落地工作。
Viktor Oddy 录制的完整建站过程,则把这套思路从头到尾演示了一遍。他搭建的是一个游戏风格的品牌展示页,全程没有手动写过一行代码。具体步骤如下:
第一步,先去 Pinterest 寻找视觉灵感,明确网站的整体风格。他挑选了一张合适的场景图作为起点。

第二步,利用 AI 生图工具把这张图拆分成前景和背景两个图层。前景保留角色与场景元素,背景处理成纯黑——这么做是为了后面实现视差滚动效果。如果你不想用付费工具,直接搜一下“在线免费去背景”也能顺利完成这一步。

第三步,把做好的前景图导入视频生成工具(他用的是 Kling),让画面生成一段循环动画,镜头保持固定不动,仅画面内存在细微动态。这个动画视频后续将用作网站 hero 区域的背景。

第四步,打开 Google AI Studio,通过对话描述页面结构。他给出的指令大致是:“创建一个 hero 区域,拿这个视频做背景,写上行标题”。AI 很快生成了一个带有导航栏与按钮的初始页面。不过,他对自动生成的按钮样式并不满意,于是去 Pinterest 截了一张游戏风格按钮的参考图,发给 AI 让它参照这个风格重新生成。这一步的本质,就是用参考图来纠偏。

第五步,下载代码并导入 Antigravity。在 Antigravity 环境里,他先把提前备好的字体文件直接拖进素材库,用对话指令让 AI 将页面字体替换成他选中的那款,同时调整字号与标题文案。接着,他上传第二步拆出来的前景图,用自然语言描述视差滚动效果:初始尺寸放大到 300%,视点对齐顶部,用户滚动时尺寸恢复正常,并明确指定了各元素的层级顺序,确保前景能盖住文字却又不会干扰按钮的点击。

第六步,扩展页面其余区域。他参考了 Landbook 上游戏行业网站的布局,用一段较长的指令一次性让 AI 生成了“关于我们”板块、数据统计板块、视频背景板块以及页脚。对应位置先放好占位图,后续再做替换。
第七步,他把剩下的视觉素材上传,再次通过对话让 AI 将占位图替换为实景图片。至此,一个完整的页面就搭建好了。
他的操作过程验证了一个关键点:在这个流程中,AI 不擅长做出精准的审美决策,比如颜色搭配与字体挑选。反观人去 Pinterest 或字体库找参考,然后把参考图丢给 AI 去复现,才是目前最高效的分工方式。
此外,CAD 工具领域也有类似的人工智能探索。Ruben Kostandyan 让 Codex 参照 Image 2 生成的建筑造型图,在 ForgeCAD 里复现了模型的结构参数。这进一步说明,用图像来驱动工程参数生成的模式,绝不局限于游戏与网页。

一些实测限制
在 Codex 中直接使用 Image 2 时,有个容易被忽视的限制被开发者们挖了出来。
开发者 Tz_2022 测试了不同宽高比的生图指令,结果发现,无论你选择 1:1、16:9、3:1 还是 1:3,最终输出的总像素量都被精准地卡在约 157 万。

对于屏幕显示来说,这个像素量确实足够了。但如果你对印刷级别的更高分辨率有硬性需求,目前这个限制恐怕还绕不过去。
另外值得一提的是,OpenAI 眼下正在用 DevDay 门票奖励社区中基于 GPT-5.5 与 Image Gen 的优质作品,这也释放出一个信号:这条工具链已成了他们现阶段着重发力的方向之一。

总结
综合以上案例,一个显而易见的变化是:美术资产制作与 UI 实现的门槛正在被大幅拉低。这让个人开发者可以把更多精力投入到构思方向与打磨创意上,而非被琐碎的实现细节拖住脚步。工具负责把东西做出来,人负责判断好不好看——就目前来看,这就是这套工具链最能释放效率的协作模式。
如果你有类似的实践经验,或者在使用中发现了其他限制,欢迎去 云栈社区 和大家一起聊聊,分享你的探索与发现。