云栈社区»论坛 › 开发者广场「Dev Plaza」 › SWE-Bench Mobile首批数据：LLM智能体处理iOS任务成功率仅12% ...

发回帖发新帖

5698 积分	0 好友	744 主题

发消息

SWE-Bench Mobile首批数据：LLM智能体处理iOS任务成功率仅12%

发表于 2026-5-2 21:42:49 | 查看: 199| 回复: 0

近期，小红书联合多伦多大学等高校的研究人员发布了《SWE-Bench Mobile》论文，首次提出了一个专门用于评估大语言模型智能体处理真实生产级移动端应用开发任务能力的基准——SWE-Bench Mobile。

相比之前那些过于简化的需求场景，这篇论文的结论显然更具说服力。最关键的是，它用真实数据给当前狂热的 AI 叙事泼了一盆冷水。

论文明确指出，现有的编程基准测试大多聚焦于孤立的算法题，或是像 SWE-Bench 那样关注 GitHub 上的 Bug 修复。但真实工业级的移动端开发远比这复杂：开发者必须同时处理产品需求文档和 Figma 设计稿，在庞大的代码库中精准定位修改点，并确保代码能通过严苛的编译与兼容性考验。为此，研究团队从小红书自身的生产流水线中提取了 50 个代表性任务，构建了这个极具挑战性的测试集。

数据集到底有多“真实”？

整个基准测试围绕一个约 5GB 大小的 iOS 生产代码库展开，采用 Swift 与 Objective-C 混编。数据集的构成充分模拟了日常开发场景：

50 个真实任务：直接源自实际产品需求。
449 个人工验证的测试用例：平均每个任务 9.1 个测试点，用于严格评估功能正确性。
多模态支持：70% 的任务附带 Figma 设计链接，92% 附带参考图片，平均需求文档长度达到 450 字。

SWE-Bench Mobile基准测试系统架构流程图

下图揭示了数据集的更多细节。每个任务的平均修改文件数高达 4.2 个，远超以往的基准测试。任务类型也被清晰地划分为 UI 组件、数据管理、手势交互等不同类别，难度则从简单跨越到复杂。

SWE-Bench Mobile数据集统计概览表

具体到执行层面，这个基准的规则很直接：智能体接收包含需求文档、设计稿和参考图的输入，然后需要输出一个统一的 diff 补丁。评估将围绕两个核心指标展开：任务成功率（所有测试通过才算成功）和测试通过率。

SWE-Bench Mobile任务类别与难度分布饼状图

论文评估了 22 种不同的“智能体-模型”配置，覆盖了四个主流框架：商业智能体 Cursor、Codex、Claude Code, 以及开源智能体 OpenCode。

核心发现：12% 的成功率意味着什么？

结论或许会让不少技术乐观主义者感到意外——当前 AI 在生产级软件工程中的表现存在巨大局限性。

成功率极低：即便是表现最好的配置，任务成功率也仅为 12% 。大多数任务以“实现不完整”收场，虽然 28% 的最高测试通过率说明部分代码能局部正确生成，但远不足以交付完整功能。

不同模型配置的任务成功率横向条形图

“智能体架构”的重要性不亚于模型本身：同样的底层模型，在 Cursor 框架下的成功率可达 12%，但在 OpenCode 下却骤降至 2%。如下图所示，差距可达 6 倍之多。这说明智能体的工具调用、上下文管理等设计，与模型能力同等重要。

同一模型在不同Agent下任务成功率差异对比图

复杂度陷阱：当任务仅涉及 1-2 个文件时，成功率为 18%；一旦涉及 7 个以上文件，成功率便断崖式下跌至 2%。这暴露了模型在跨文件长程推理方面的显著短板。
“防御性编程”提示词更奏效：研究发现，融入“防御性编程”原则的简洁提示词，反而能比那些复杂的提示词方案带来 7.4% 的成功率提升。

论文进一步剖析了失败案例，主要归因于三个方面：缺失关键功能标志位、数据模型缺失，以及补丁覆盖不足。这些问题本质上都属于“工程级问题”，而非单纯的代码生成缺陷。这也意味着，即便将场景切换到 Android 或 Flutter，类似跨文件工程理解的挑战依然存在。