3595 积分	0 好友	479 主题

春节假期，我用千道题大模型评测集找出了各领域的最强者

发表于 2026-2-23 00:31:04 | 查看: 146| 回复: 0

赛博朋克风格机器人头像

这个春节假期，我花了将近六天时间，在老家以一种非常放松的状态进行了一次深度“编码之旅”。

我做了一个自己觉得挺有意思的东西：一个原创的大模型评测集。这个评测集涵盖了18个大维度，细分下来有将近100个小维度，总共包含了970道题目。

最初的想法其实很简单。我希望任何一个新模型发布后，我都能用这套评测集让它全自动地跑一遍。再结合我自己的实际测试，大概在三个小时内，就能对新模型的能力有一个比较清晰的了解。这样既能让我更快、更好地评测模型，也能避开一些可能专为刷分而设计的“特化模型”。

不过，人总是“不知者无畏”，想的时候很简单，做起来才发现麻烦重重。这四天几乎用光了我手头几个主流大模型最高档编程计划的额度，也踩了无数的坑。

比如说“Skill迭代”。一开始，我设计了出题和审查的流程后，发现模型生成的内容质量还是不理想，因为缺乏足够的经验和约束条件。没办法，只能让不同的顶级模型互相出题，再互相审查，然后把得到的经验反馈回Skills中进行迭代。就这么反复折腾了两天，Skills才算基本稳定可用。

再比如上下文管理。这一千道题包含的信息量非常庞大，没有哪个Agent能一次性全部生成出来。更何况其中还有很多原创素材，我甚至写了三本总计15万字的小说，作为评测集的素材之一。像Claude Code这样的模型，一次性生成一个小类别下的10道题，就已经接近其最佳上下文长度的极限了。

虽然过程坑不少，但这次经历也意外地帮我找到了在各个维度上，目前我个人体验最强的模型。毕竟，出题模型本身的能力上限，几乎决定了出题的质量，进而影响未来评测的准确性。如果出题环节就拉垮，那未来的评测结果必然不可靠。

所以，我把自己的感受分享给大家。这纯属个人体感，不一定完全准确，但希望能提供一个参考：

以上就是我的发现，希望能帮你节省一些摸索的时间。

哦，对了，额外提一句。如果你想搜索关于AI的最新信息，比如某种最新玩法之类的，相信我，试试用 Grok 4.2，可能会有意想不到的效果。

电子元件拼接艺术形象

构建这个大模型评测集的过程，让我对当前主流模型的能力边界有了更具体的认识。如果你也对AI模型评测或相关技术实践感兴趣，欢迎到云栈社区交流讨论。