找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

1507

积分

0

好友

199

主题
发表于 21 小时前 | 查看: 2| 回复: 0

赛博朋克风格机器人头像

这个春节假期,我花了将近六天时间,在老家以一种非常放松的状态进行了一次深度“编码之旅”。

我做了一个自己觉得挺有意思的东西:一个原创的大模型评测集。这个评测集涵盖了18个大维度,细分下来有将近100个小维度,总共包含了970道题目。

最初的想法其实很简单。我希望任何一个新模型发布后,我都能用这套评测集让它全自动地跑一遍。再结合我自己的实际测试,大概在三个小时内,就能对新模型的能力有一个比较清晰的了解。这样既能让我更快、更好地评测模型,也能避开一些可能专为刷分而设计的“特化模型”。

不过,人总是“不知者无畏”,想的时候很简单,做起来才发现麻烦重重。这四天几乎用光了我手头几个主流大模型最高档编程计划的额度,也踩了无数的坑。

比如说“Skill迭代”。一开始,我设计了出题和审查的流程后,发现模型生成的内容质量还是不理想,因为缺乏足够的经验和约束条件。没办法,只能让不同的顶级模型互相出题,再互相审查,然后把得到的经验反馈回Skills中进行迭代。就这么反复折腾了两天,Skills才算基本稳定可用。

再比如上下文管理。这一千道题包含的信息量非常庞大,没有哪个Agent能一次性全部生成出来。更何况其中还有很多原创素材,我甚至写了三本总计15万字的小说,作为评测集的素材之一。像Claude Code这样的模型,一次性生成一个小类别下的10道题,就已经接近其最佳上下文长度的极限了。

虽然过程坑不少,但这次经历也意外地帮我找到了在各个维度上,目前我个人体验最强的模型。毕竟,出题模型本身的能力上限,几乎决定了出题的质量,进而影响未来评测的准确性。如果出题环节就拉垮,那未来的评测结果必然不可靠。

所以,我把自己的感受分享给大家。这纯属个人体感,不一定完全准确,但希望能提供一个参考:

  1. 软件工程与代码生成:GPT-5.3 Codex
  2. 代码理解、推理与质量:GPT-5.3 Codex
  3. 调试、测试与维护:GPT-5.3 Codex
  4. 数据工程与后端服务:Claude Opus 4.6
  5. 前端与产品工程:Claude Opus 4.6
  6. Agent工具调用:Claude Opus 4.6
  7. Web与桌面自动化(静态):Claude Opus 4.6
  8. 研究与知识工作Agent(静态):GPT-5.2 Pro
  9. 数学与形式推理:Gemini 3.1 Pro
  10. 逻辑与规划:Gemini 3.1 Pro
  11. 知识广度与事实核验:Gemini DeepThink
  12. 阅读理解与信息抽取:GPT-5.2 Thinking
  13. 长上下文记忆与多轮一致性:GPT-5.2 Thinking
  14. 指令遵循与对齐:Claude Opus 4.6
  15. 多模态理解与视觉推理:GPT-5.2 Thinking
  16. 情商与协作沟通:GPT-4.5
  17. 创作表达与审美:Claude Opus 4.6

以上就是我的发现,希望能帮你节省一些摸索的时间。

哦,对了,额外提一句。如果你想搜索关于AI的最新信息,比如某种最新玩法之类的,相信我,试试用 Grok 4.2,可能会有意想不到的效果。

电子元件拼接艺术形象

构建这个大模型评测集的过程,让我对当前主流模型的能力边界有了更具体的认识。如果你也对AI模型评测或相关技术实践感兴趣,欢迎到云栈社区交流讨论。




上一篇:Python数据分析实战:用pandas与matplotlib探索二手车市场
下一篇:Cesium贴图开发实战:集成MzCesiumImageOverlayTool工具详解
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-23 22:09 , Processed in 0.439472 second(s), 38 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表