
这个春节假期,我花了将近六天时间,在老家以一种非常放松的状态进行了一次深度“编码之旅”。
我做了一个自己觉得挺有意思的东西:一个原创的大模型评测集。这个评测集涵盖了18个大维度,细分下来有将近100个小维度,总共包含了970道题目。
最初的想法其实很简单。我希望任何一个新模型发布后,我都能用这套评测集让它全自动地跑一遍。再结合我自己的实际测试,大概在三个小时内,就能对新模型的能力有一个比较清晰的了解。这样既能让我更快、更好地评测模型,也能避开一些可能专为刷分而设计的“特化模型”。
不过,人总是“不知者无畏”,想的时候很简单,做起来才发现麻烦重重。这四天几乎用光了我手头几个主流大模型最高档编程计划的额度,也踩了无数的坑。
比如说“Skill迭代”。一开始,我设计了出题和审查的流程后,发现模型生成的内容质量还是不理想,因为缺乏足够的经验和约束条件。没办法,只能让不同的顶级模型互相出题,再互相审查,然后把得到的经验反馈回Skills中进行迭代。就这么反复折腾了两天,Skills才算基本稳定可用。
再比如上下文管理。这一千道题包含的信息量非常庞大,没有哪个Agent能一次性全部生成出来。更何况其中还有很多原创素材,我甚至写了三本总计15万字的小说,作为评测集的素材之一。像Claude Code这样的模型,一次性生成一个小类别下的10道题,就已经接近其最佳上下文长度的极限了。
虽然过程坑不少,但这次经历也意外地帮我找到了在各个维度上,目前我个人体验最强的模型。毕竟,出题模型本身的能力上限,几乎决定了出题的质量,进而影响未来评测的准确性。如果出题环节就拉垮,那未来的评测结果必然不可靠。
所以,我把自己的感受分享给大家。这纯属个人体感,不一定完全准确,但希望能提供一个参考:
- 软件工程与代码生成:GPT-5.3 Codex
- 代码理解、推理与质量:GPT-5.3 Codex
- 调试、测试与维护:GPT-5.3 Codex
- 数据工程与后端服务:Claude Opus 4.6
- 前端与产品工程:Claude Opus 4.6
- Agent工具调用:Claude Opus 4.6
- Web与桌面自动化(静态):Claude Opus 4.6
- 研究与知识工作Agent(静态):GPT-5.2 Pro
- 数学与形式推理:Gemini 3.1 Pro
- 逻辑与规划:Gemini 3.1 Pro
- 知识广度与事实核验:Gemini DeepThink
- 阅读理解与信息抽取:GPT-5.2 Thinking
- 长上下文记忆与多轮一致性:GPT-5.2 Thinking
- 指令遵循与对齐:Claude Opus 4.6
- 多模态理解与视觉推理:GPT-5.2 Thinking
- 情商与协作沟通:GPT-4.5
- 创作表达与审美:Claude Opus 4.6
以上就是我的发现,希望能帮你节省一些摸索的时间。
哦,对了,额外提一句。如果你想搜索关于AI的最新信息,比如某种最新玩法之类的,相信我,试试用 Grok 4.2,可能会有意想不到的效果。

构建这个大模型评测集的过程,让我对当前主流模型的能力边界有了更具体的认识。如果你也对AI模型评测或相关技术实践感兴趣,欢迎到云栈社区交流讨论。
|