1月15日,美团开源了其最新一代大型语言模型——LongCat-Flash-Thinking-2601。这款模型总参数规模高达560B,并采用了MoE(混合专家)架构,旨在实现大参数规模下推理能力与推理效率的平衡。

官方评测数据显示,LongCat-Flash-Thinking-2601在工具调用、代码生成、数学解题及搜索推理等场景下表现优异,达到了开源模型的SOTA水平,其部分评分甚至超越了Claude的闭源模型。

官方体验地址:
https://longcat.chat/
魔搭社区:
https://www.modelscope.cn/models/meituan-longcat/LongCat-Flash-Thinking-2601
这款模型最引人注目的特性之一是“并行思考”(ReThinking Mode)。为了直观展示其运作方式,我们可以通过一道经典的逻辑推理题进行测试(读者也可先自行思考):

将问题提交至官方体验界面后,模型激活了其并行思考能力。从反馈界面可以清晰看到,系统同时调用了8个独立的“思考者”(Thinker)对同一问题进行异步分析与推理。

随后,模型会综合所有Thinker的分析过程与结论,通过一个摘要模型进行合成,最终给出一个经过“深思熟虑”的答复。在这一过程中,模型展现出强大的多角度、多路径推理能力。

值得注意的是,部分Thinker在推理过程中,会主动选择执行Python代码来验证逻辑可能性,这体现了模型在复杂Agent任务中卓越的工具使用与编程能力。

最终,LongCat-Flash-Thinking-2601成功推导出该逻辑题的唯一正确解。

接下来,我们尝试测试其在数学解题方面的表现。目前深度思考模式暂不支持图片上传,因此我们将题目以文本形式输入。模型同样启动了8个Thinker进行并行分析,并最终整合输出了正确的解答步骤。

最后,我们进行一项编程任务测试:要求模型生成一个经典的前端游戏《飞机大战》。提交需求后,模型再次展现出并行思考能力,多个Thinker同步生成了HTML、CSS和JavaScript代码片段。

在实测中,深度思考模式下的最终输出整合有时会遇到中断提示。此时,我们可以从Thinker们正在“思考”生成的多个代码版本中,手动选取一个较为完整的版本进行整合与运行。

游戏基本功能完整,但在美术细节(如战机配色)上仍有优化空间。
总体而言,美团LongCat-Flash-Thinking-2601模型所展示的这种“可感知”的并行思考机制,为开源实战与模型能力评估提供了新的视角。它不仅在多项基准测试中表现强劲,其独特的推理架构也让开发者对大模型未来的应用形态与潜力有了更多想象空间。对于关注前沿AI技术的开发者而言,这无疑是一个值得深入探索的开源项目。更多关于AI模型与开源技术的深度讨论,欢迎访问云栈社区进行交流。
|