找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

5574

积分

0

好友

731

主题
发表于 2026-5-17 04:37:53 | 查看: 67| 回复: 0

我说怎么今天用 GPT-5.5 感觉有点弱智。

原因竟然在这里。

今天,ChatGPT 的开发者 Tibo 发了一条 X 说:“我们发现了并修复了两个问题,这些问题可以解释 GPT-5.5 在 Codex 中过去约 48 小时内能力退化的原因。”

!!!!!!

我为什么会觉得 GPT-5.5 能力有些退化?

起因是我这两天一直在用 goal 模式做一些东西。

但是我发现 goal 这玩意,它是 token 黑洞,不管你有多少 token,在 goal 模式下都显得微不足道。

而且 goal 模式下做出来的东西很难把控。

前两天还好,尤其是昨天和今天,我在 goal 模式下做出来的东西一言难尽。

原来是 Tibo 说了 GPT-5.5 有两个 Bug,希望这两个 Bug 修复完成后,GPT-5.5 会恢复智力水平。

这就相当于你跟 Codex 说:“你给我做一个 xxx 东西出来,我只看最后的结果。”

这个最后的结果,往往并不尽如人意。

让模型自己闷头做到最后再给你看,这个操作基本上等于开盲盒了。在开发者广场上,大家也经常吐槽这种“Token 烧了,代码废了”的窘境。

我觉得应该这样做:

分步骤验收。

第一阶段:先强制 AI 出“最小可行计划”,不准写代码。

在这个步骤下,你尽可能输出:

  • 你对需求的理解
  • 技术方案选型及理由
  • 项目模块拆解(树状结构,每个模块一句话说明职责)
  • 核心数据流/接口设计(文字描述即可)
  • 预计生成的文件清单

确认计划后,不要让 AI 全量开工,开始进入第二阶段,规则如下:

  • 每完成一个模块,立刻停下来展示代码和简要说明
  • 必须等待我确认之后,才能进入下一个模块
  • 如果我说“有问题”,你必须先修复当前模块再继续

遇到“一言难尽”的输出,用固化提问让 AI 自我诊断。

比如:

请检查你刚刚的输出,并回答:

  • 需求符合度:你实际满足了原始需求的哪几点?遗漏了哪几点?
  • 技术合理性:当前实现有没有过度设计、安全隐患或性能隐患?
  • 可维护性:如果其他开发者接手,3 分钟内能看懂的部分占比多少?
  • 改进方案:用 3 条以内的修改建议,让它达到生产可用标准。

人工智能领域,尤其是大语言模型的应用中,这种精细化的 Prompt 设计至关重要。也就是说,你给越清晰的分步验收标准,它产出越惊艳。

你让它自己全权负责到底,它就会在某些节点开始自由发挥。这样不仅 token 账单疯狂燃烧,而且做出来的东西也一言难尽。如果想深入了解,可以参考相关的技术文档优化你的指令。




上一篇:OpenCyvis开源方案:Android后台虚拟显示器运行AI Agent,实现不锁屏自动化
下一篇:Anthropic千亿美金抢芯片救算力,Claude涨价惹怒开发者
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-6-11 01:38 , Processed in 0.636530 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表