近日,GPT-5.2正式发布,其在SWE-bench Pro基准测试中取得了55.6%的优异成绩,引发了广泛关注。为了更直观地评估其在真实编程场景下的能力,我们使用Cursor编辑器,在相同条件下对比测试了GPT-5.2 High(272k上下文,高推理模式)与Gemini 3 Pro的表现。测试覆盖了前端效果实现、数据分析与报告生成以及复杂代码重构三个典型场景。
1. 前端效果实现:烟花动画
我们首先测试了两款模型实现复杂前端视觉效果的能力。给出的指令是创建一个包含多种烟花类型(如圆形爆发、柳树状、闪烁效果)和单个仙女棒尾迹的动画页面。
- GPT-5.2 生成的页面视觉效果较为酷炫,控制台日志也清晰可读。但仔细观察最终效果,其实现的“单个仙女棒”部分与指令要求存在偏差,并未完美呈现预期的拖尾粒子效果。
- Gemini 3 Pro 则准确地理解了需求,生成的烟花动画包含了所有指定的类型,且最后一个“仙女棒”效果符合描述,实现了连贯的粒子拖尾。
2. 数据分析:NeurIPS 2025论文趋势分析
第二个场景是处理和分析近期AI顶会NeurIPS 2025的近5000篇论文数据,旨在自动生成一份技术趋势分析报告。这是一个对人工智能模型理解、规划和代码执行能力要求较高的综合任务。
- Gemini 3 Pro 在“思考”后,编写了一个超过100行的
analyze_neurips.pyPython脚本。该脚本成功读取数据、进行统计(如论文类型分布、关键词频率),并最终生成了一份名为《NeurIPS 2025 技术分析报告:从生成到推理,智能体的全面崛起》的简要报告,其中包含了可视化的关键词分布图。
- GPT-5.2 在处理相同任务时,策略有所不同。它没有生成独立的脚本文件,而是尝试通过一系列
python -c内联命令直接执行分析。然而,首个复杂命令执行失败。随后模型改用PowerShell分段执行短命令,但因分析逻辑复杂、命令过长,过程陷入反复拆分与尝试中,未能像前者一样流畅地完成完整的分析流程。
3. 代码重构:RAPTOR项目核心逻辑抽取
第三个测试聚焦于复杂的代码重构能力。我们选取了开源的RAPTOR(递归抽象处理树状检索)项目,其核心包含层次树构建与检索两大模块。任务指令非常明确:将树构建的逻辑完全抽离出来,形成一个独立的、不依赖原项目其他文件的新模块。
- Gemini 3 Pro 准确地理解了“独立”的含义。它将分散在多个文件中的树构建相关类(如
Node, Tree)和函数逻辑,重新组织、合并到一个全新的raptor_tree_builder.py文件中,实现了真正的逻辑剥离。
- GPT-5.2 似乎错误地理解了意图。它没有进行实质性的代码抽取与合并,而是将原有的
tree_builder.py等文件改造成了“适配层” —— 即文件内容几乎全部变为import语句,再从原位置导入相关类。这导致核心模型类仍散落在原始文件中,并未创建出独立的功能模块,与任务目标不符。
总结
通过以上三个场景的对比测试可以看出,在当前的Cursor集成环境下:
- Gemini 3 Pro 在理解复杂指令、生成可执行脚本以及完成针对性代码重构任务上表现出了更强的可靠性和准确性。
- GPT-5.2 虽然在某些场景下能开启复杂“思考”流程,但在实际执行层面,特别是在需要精准遵循指令细节(如代码独立性要求)和稳定运行多步后端分析任务时,表现出了更多的不稳定性和偏差。
对于开发者而言,在涉及关键业务逻辑的代码生成与重构任务中,模型的精确性和对指令的忠实度至关重要。本次实测结果表明,在不同场景下选择合适的AI编程助手,是提升开发效率与代码质量的重要一环。
|