云栈社区»论坛 › 技术文档「 Note & Doc 」 › 微软技术评测：解析GPT-4早期版本的多模态代码数学能力与AGI潜力 ...

发回帖发新帖

4188 积分	0 好友	552 主题

发消息

微软技术评测：解析GPT-4早期版本的多模态代码数学能力与AGI潜力

发表于 2026-3-6 04:08:13 | 查看: 185| 回复: 0

微软研究院对 GPT-4 早期非多模态版本 展开了一场跨领域的深度技术评测。这项研究没有采用传统的机器学习基准测试套路，而是借鉴了心理学的方法，通过设计新颖且困难的任务，来探查模型的理解、推理与创造能力边界。核心发现是，这个仅靠文本训练的模型，却在多个维度展现出了达到甚至超越人类水平的通用智能，被视为迈向通用人工智能（AGI）的重要一步。当然，研究也清晰地指出了其因自回归架构带来的核心局限性。

GPT-4早期版本能力与AGI潜力研究思维导图

一、研究基础信息

测试对象：GPT-4 早期非多模态版本，未接入视觉、音频等直接输入，但可通过文本处理多模态相关任务。
研究方法：区别于传统机器学习，偏向传统心理学，通过设计新颖、困难的任务，验证模型超越记忆的深度理解能力，同时探究其反应的一致性、正确性，揭示局限性与偏见；该方法虽主观非正式，但为后续正式测试奠定基础。
核心基本结论
- GPT-4 作为纯语言模型，在抽象、理解、编码、数学、医学、法律等跨领域任务中表现达到或超越人类水平；
- 能力具备普遍性，是迈向AGI 的重要一步，但其智能模式与人类存在明显差异；
- 展现出涌现行为和能力，但背后的来源与机制尚未明确；
- GPT-4 的智能标志着计算机科学及其他领域的真正范式转变。

二、GPT-4 核心能力跨维度测试

本次测试覆盖多模态、代码、数学、世界交互、人类交互五大核心维度，GPT-4 均展现出远超前代模型的能力，部分维度达到或超越人类水平。

多模态测试
GPT-4 虽为纯文本训练的非多模态版本，但具备跨模态理解与处理能力：可通过 SVG/TikZ 代码生成 2D 图像并根据指令修正，用 Javascript 生成 3D 模型并调整；其生成的草图能大幅优化 Stable Diffusion 的图像生成效果，解决了传统图像生成模型空间理解不足的问题；还可通过 ABC 记谱法生成旋律，但无法创作罕见和声、识别经典旋律谱子。
代码测试
分 LeetCode 考题和真实世界编码任务两类测试，核心结果如下表：

测试类型	关键结果	对比模型表现
LeetCode 考题（100 道新题，分易 / 中 / 难）	GPT-4 k=1 得 38 分（达人类水平 38.2 分），k=5 得 53 分（超人类）；中 / 困难难度 k=1 即超人类	GPT-3.5 k=1 得 19 分、k=5 得 36 分；Codex 表现更弱
真实编码任务（LaTeX / 前端 / 深度学习等）	可一次性生成可编译的 LaTeX 代码，精准完成数据可视化、前端开发等端到端任务，支持指令更新代码	GPT-3.5 生成的 LaTeX 代码存在语法错误，无法编译
此外，GPT-4 能用自然语言模拟代码执行，展现出极强的代码理解与推理能力，显著优于 GPT-3.5。

数学测试
在 GSM8K（小学数学）、MATH（高中数学）、MMMLU-STEM（初高中 + 大学 STEM） 三大数据集测试中，GPT-4 准确率均超当前最优数学大模型 Minerva，且整体准确率超 80%，核心数据及错误分析如下表：

数据集	GPT-4 准确率	Minerva 准确率	GPT-3.5 准确率	GPT-4 错误类型占比
GSM8K	87.1%	58.8%	61.3%	计算错误 68%、理解问题 10%、解法错误 22%
MATH	42.5%	33.6%	23.5%	-
MMLU-STEM	82.7%	63.9%	54.2%	-
关键特点：GPT-4 的数学错误68% 为计算错误，而非解法错误，与 GPT-3.5 易犯解法错误形成明显区别。

与世界交互
分为网络交互和实体交互，均展现出工具使用与环境理解能力：
- 网络交互：可组合 API 工具完成日历管理、电子邮件协调、餐厅预订等复杂任务，能通过搜索引擎 + 总结函数浏览网页，准确回答含错误前提的问题，能力远超 GPT-3.5；
- 实体交互：虽无实体，但可通过文本接口参与解密游戏、地图探索等任务，能精准跟踪环境位置、可视化地图，证明语言可作为其与实体环境交互的有效接口。
与人类交互
核心测试心智理论能力，通过现实对话场景推理人物意图、情绪及沟通问题，GPT-4 表现出高级心智理论水平：能精准推断他人心理状态，分析沟通无进展的原因，并提出具体、可落地的合作解决策略；而 GPT-3.5 仅能做出基础判断，无法提供细节化、针对性的解决方案。

三、GPT-4 的核心局限性

GPT-4 的局限性主要源于自回归架构，即下一个单词的输出仅基于前文预测，无内部对话、草稿存储能力，核心短板如下：

算术 / 推理缺乏计划性，工作记忆短：直接回答算术题易出错（如 7*4+8*8 算成 88，正确答案 92），但要求分步计算时，1-40 区间准确率 100%，1-200 区间达 90%；
文本生成缺乏全局规划：无法完成需提前布局的创作任务（如要求诗歌首尾句单词颠倒且语法通顺，GPT-4 仅做词序颠倒，出现语法错误）；
任务处理能力分化：擅长增量任务（可逐步完成，如摘要、事实问答、标准数学题），但在不连续任务（需创造性、概念性跳跃，如新颖数学题、创作谜语）中表现薄弱。

四、通用人工智能（AGI）发展相关探讨

研究指出 GPT-4 展现了AGI 的火花，但距离完整的 AGI 仍有巨大差距，核心围绕 AGI 定义、GPT-4 改进方向、模型精准度扩展手段展开。

AGI 定义的争议
：目前无统一、无争议的 AGI 定义，现有主流定义均存在问题，如 Legg 和 Hutter 的 “目标导向型定义” 排除了被动反应系统，Chollet 的定义侧重技能获取效率，而 “能做人类所有事” 的定义存在人类中心主义偏见且忽视人类能力的多样性；本次研究以 1994 年心理学家的智能定义为框架，仅作为探索起点。
GPT-4 向 AGI 发展的 8 大核心改进方向
- 信心校准：解决幻觉问题（开放域 / 封闭域），让模型在不确定时放弃回答；
- 长期记忆：突破当前 8000token（最新 32k） 的限制，解决无状态运行问题；
- 持续性学习：让模型具备自我更新能力，避免训练后知识过时；
- 个性化：适配不同用户的需求与风格，提升交互的针对性；
- 提前规划和概念性跳跃：解决非连续任务处理能力薄弱的问题；
- 透明度、可解释性和一致性：验证生成内容的真实性与自洽性；
- 认知谬误和非理性：消除训练数据带来的认知偏差、偏见；
- 对输入的敏感性：提升模型对提示词框架、措辞的稳健性。
提升模型精准度的 4 种扩展手段
- 外部调用工具（计算器、数据库、代码执行器等）；
- 构建慢思考机制，监督自回归的 “快思考” 机制，实现长期规划与验证；
- 将长期记忆纳入架构，增加上下文向量作为输入 / 输出；
- 超越单单词预测，采用分层结构，自上而下生成文本。

五、研究的结论与未解问题

核心研究结论
- GPT-4 达到了通用智能的形式，展现出 AGI 的火花，其能力的深度与通用性证明，单靠结构化数据集和任务无法有效基准测试大模型能力，需采用更接近人类智能评估的方式；
- GPT-4 的表现与 OpenAI 的发现一致，在诸多任务中与人类水平相当，是迈向 AGI 的重要一步。
关键未解问题
- GPT-4 的涌现能力（跨领域通用能力）的来源与机制尚未明确；
- 仅由梯度下降、大规模变换器、海量数据结合，为何能产生具备推理、规划、创造的通用智能，尚无答案。
研究挑战
阐明 GPT-4 等大语言模型的智能本质与运行机制，成为当前人工智能领域重要且紧迫的研究挑战，目前仅在玩具模型中验证了少量涌现现象，大规模模型的相关研究进展有限。

关键问题

问题 1（能力维度）：GPT-4 早期非多模态版本在代码和数学测试中展现出哪些核心优势，与前代模型（GPT-3.5/Minerva）的核心差异是什么？

答案：代码测试中，GPT-4 在 LeetCode 新题测试中 k=1 达到人类水平、k=5 超越人类，中 / 困难难度 k=1 即超人类，还能一次性生成可编译的 LaTeX 代码完成端到端真实编码任务；与 GPT-3.5 相比，其代码生成的正确性、场景适配性显著更优。数学测试中，GPT-4 在 GSM8K/MATH/MMMLU-STEM 三大数据集的准确率均超越 Minerva，整体超 80%，核心优势是 68% 的错误为计算错误而非解法错误；与 Minerva/GPT-3.5 相比，其掌握了更正确的解题方法，只是缺乏计算准确性，而后两者更易出现解法层面的错误。

问题 2（局限维度）：GPT-4 的核心局限性是什么，其根源是什么，该局限性导致其在任务处理上呈现出怎样的特点？

答案：GPT-4 的核心局限性是缺乏规划能力、工作记忆短、无回溯与深度推理能力，部分任务直接回答易出错；其根源是自回归架构，即模型仅能基于前文预测下一个单词，无内部对话、草稿存储能力，无法进行多步骤计算和全局规划。该局限性导致 GPT-4 在任务处理上呈现明显分化：擅长增量任务（可逐步完成，如文本摘要、事实问答、遵循标准程序的数学题），能生成流畅连贯的结果；薄弱于不连续任务（需创造性、概念性跳跃，如新颖数学题、创作谜语、需全局规划的文本创作），无法完成需要提前布局或突发灵感的任务。

问题 3（发展维度）：GPT-4 被认为展现了 “通用人工智能的火花”，但距离完整 AGI 仍有较大差距，研究中指出其向 AGI 发展需突破的核心方向有哪些，同时可通过哪些手段提升模型精准度？

答案：GPT-4 向 AGI 发展需突破的 8 大核心方向为：信心校准（解决幻觉问题）、长期记忆（突破 token 限制）、持续性学习（实现自我更新）、个性化（适配用户需求）、提前规划和概念性跳跃（提升非连续任务能力）、透明度与可解释性、消除认知谬误和非理性、降低对输入的敏感性。提升模型精准度的核心手段有 4 种：外部调用计算器、数据库等工具；构建 “慢思考” 机制监督自回归的 “快思考” 机制；将长期记忆作为架构固有部分，增加上下文向量；超越单单词预测，采用分层结构自上而下生成文本。

这项由微软主导的深度评测，为我们理解当时最前沿大模型的能力与局限提供了极为宝贵的官方文档级洞察。对这类前沿技术的系统化梳理与探讨，正是 云栈社区 这类技术论坛所关注的核心议题。

上一篇：航顺HK32MCU宣布二季度不涨价，稳定MCU市场供应链
下一篇：Notion接入国产开源模型MiniMax M2.5：成本优势显著，获OpenClaw创始人推荐

GPT-4, 通用人工智能, 大语言模型, Transformer, 技术评测