找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

1683

积分

0

好友

216

主题
发表于 2026-2-14 07:42:08 | 查看: 33| 回复: 0

今天我们正式发布并开源了首个采用混合线性注意力架构的万亿参数思考模型 Ring-2.5-1T

作为迈向通用智能体时代的关键一步,我们在模型架构上进行了大规模扩展,使其更适合深度思考与长程执行。一方面,我们采用了高效的 1:7 MLA + Lightning Linear Attention 架构来大幅提升模型的思考效率和探索空间;另一方面,通过 扩展强化学习和智能体环境的训练规模,有效增强了模型的思考深度与复杂任务的长期执行能力。

与之前发布的 Ring-1T 相比,Ring-2.5-1T 在 生成效率、思考深度、长程执行 这三个关键维度上均实现了显著提升:

  • 高效生成:得益于高比例的线性注意力机制,在生成长度超过 32K 时,访存规模降低了 10 倍以上,生成吞吐量提升了 3 倍以上,这使其特别适合需要深度思考和长程执行的任务。
  • 深度思考:在 RLVR 训练范式的基础上引入了 dense reward 来反馈思考过程的严谨性,使 Ring-2.5-1T 在 IMO 2025CMO 2025 的自测中均达到了金牌水平。
  • 长程执行:通过大规模的 fully-async agentic RL 训练,显著提升了模型处理复杂任务的长程自主执行能力,让 Ring-2.5-1T 可以轻松适配 Claude Code 等智能体编程框架和 OpenClaw 个人 AI 助理。

深度思考与长程执行性能对比图

深度思考与长程执行

为了全面评估 Ring-2.5-1T 的深度思考与长程执行能力,我们选取了具有代表性的开源思考模型(DeepSeek-v3.2-Thinking、Kimi-K2.5-Thinking)和闭源 API 模型(GPT-5.2-thinking-high、Gemini-3.0-Pro-preview-thinking-high、Claude-Opus-4.5-Extended-Thinking)作为参考基准。结果显示,Ring-2.5-1T 在 数学、代码、逻辑等高难度推理任务(IMOAnswerBench、AIME 26、HMMT 25、LiveCodeBench、ARC-AGI-V2)和 智能体搜索、软件工程、工具调用等长程任务执行(Gaia2-search、Tau2-bench、SWE-Bench Verified)上均达到了 开源领先水平

我们还额外测试了深度思考模式(heavy thinking mode),该模式通过在推理过程中扩展并行思考与总结步骤,实现测试时扩展,从而有效提升了推理的深度与广度。

在 IMO 2025(满分 42 分)中,Ring-2.5-1T 获得 35 分,达到金牌水平;在 CMO 2025(满分 126 分)中取得 105 分,显著高于金牌线(78 分)及国家集训队入选线(87 分)。对比 Ring-2.5-1T 与 Ring-1T 的答题结果可以发现,前者在推理逻辑严谨性、高阶数学证明技巧使用以及答案表述完整性方面均有明显提升。我们现已公开 Ring-2.5-1T 在 IMO 2025 与 CMO 2025 中的详细解答,完整内容可通过以下链接查看:
https://github.com/inclusionAI/Ring-V2.5/tree/main/examples

此外,在挑战性的智能体搜索任务 GAIA2-search 中,Ring-2.5-1T 也达到了开源 SOTA 水平。GAIA2 环境强调跨应用工具协作与复杂任务执行能力,Ring-2.5-1T 在规划生成与多步工具调用上的效率与准确性均表现突出。

万亿规模的混合线性注意力架构

在迈向通用智能体时代的过程中,深度思考(deep thinking)长程执行(long-horizon agent) 正逐渐成为语言基座模型的基本工作范式。这一转变对基座模型在长序列推理解码效率上的架构能力提出了极高要求。作为迈向智能体模型(agentic model)架构的关键一步,Ling 2.5 架构在 Ling 2.0 的基础上引入了 混合线性注意力架构

我们通过增量训练的方式,将 Ling 2.0 架构 的 GQA 注意力层升级为 1:7 的 MLA + Lightning Linear 混合结构。具体而言,基于此前发布的 Ring-flash-linear-2.0 技术路线,我们将部分 GQA 层改造为 Lightning Linear Attention,以显著提升长程推理场景下的吞吐能力。为了进一步压缩 KV Cache,我们将其余 GQA 层近似转换为 MLA,并对其中的 QK Norm、Partial RoPE 等特性进行了针对性适配,以增强 Ling 2.5 架构 在混合注意力架构下的表达能力。

1T规模下的Ling 2.5架构示意图

完成架构改造后,Ring-2.5-1T 的激活参数量从 51B 提升至 63B。但在混合线性注意力架构的支持下,其 推理效率相比 Ling 2.0 仍实现了大幅提升。即便与激活参数仅为 32B 的 KIMI K2 架构相比,1T 规模下的 Ling 2.5 架构在长程推理场景下的吞吐依然具有显著优势;且 生成长度越长,吞吐优势越明显

不同生成长度下的解码吞吐对比图1

单机 8 卡 H20-3e ,batch size = 64 ,不同生成长度下的解码吞吐(decode throughput)对比

不同生成长度下的解码吞吐对比图2

单机 8 卡 H200 ,batch size = 64 ,不同生成长度下的解码吞吐(decode throughput)对比

手搓案例

我们将 Ring-2.5-1T 接入到 Claude Code 中,为了测试其长程软件开发能力,我们通过如下 prompt 要求其自动开发一个微型版操作系统(TinyOS)。

  1. 系统启动流程:

    • 使用 GRUB 作为引导加载程序,遵循 Multiboot 标准
    • 编写 boot.asm 汇编文件设置基本的 CPU 模式(32 位保护模式)
    • 从汇编跳转到 main.c 的 kernel_main 函数
  2. 核心功能实现:

    • 屏幕输出:实现简单的字符显示功能(如清屏、打印字符串)
    • 中断处理:设置基本的 GDT 和 IDT,处理键盘输入中断
    • 内存管理:实现最基本的内存分页初始化
    • 键盘支持:能够接收键盘输入并回显到屏幕
  3. 代码结构:

    • 提供完整的 linker.ld 链接脚本
    • 提供 Makefile 用于编译和生成 ISO 镜像
    • 每个关键函数都要有清晰的注释说明
  4. 代码要求:

    • 确保代码简洁、模块化,避免不必要的复杂性
    • 优先实现可工作的最小功能集
    • 为后续扩展预留接口

请先输出完整的代码文件列表和简要说明,然后提供每个文件的完整代码。
生成的所有代码必须能直接编译运行,并给出具体的编译和测试方法。
你需要保证可以使用 qemu 来实际运行这个操作系统。

Ring-2.5-1T 在 Claude Code 中运行了 2 小时 8 分钟,最终成功完成了上述任务(详细过程记录于演示视频中)。

我们尝试继续让 Ring-2.5-1T 丰富 TinyOS 的功能,输入如下 prompt:

好的,现在你继续开发,实现好 bash 的功能,使得使用 qemu 可以登录到一个 bash 命令界面,以执行一些简单的命令,比如 ls、pwd、cat 等。

最终,模型成功为 TinyOS 开发了基础的 bash 命令界面(演示视频展示了运行效果)。

我们也将 Ring-2.5-1T 接入到个人 AI 助理 OpenClaw,测试其帮助阅读 AI 基础设施文献,并用 JAVA 代码展示技术逻辑的能力(演示视频记录了该过程)。

局限性与未来计划

当前版本的模型在 token 效率和指令遵循方面仍存在提升空间。在面向更真实、更复杂任务的长程执行与实际交付能力上,也仍有较大的优化潜力。我们将在后续版本中持续改进上述能力,并非常期待来自社区的使用反馈与建议。目前,Ring-2.5-1T 的训练仍在持续推进中,完整的技术报告将在下一版本发布后正式公开。

此外,需要说明的是,上述 GAIA2 榜单评测采用的是社区广泛使用的 OpenAI function call 格式,而非原始的 ReAct 格式。相关评测配置与方案将提交至 GAIA2 的 GitHub 仓库,供社区进行更广泛、可复现的对比与评测。

模型获取与体验

欢迎大家访问我们的开源仓库和体验页面进行下载与试用。

🤗 Hugging Face:
https://huggingface.co/inclusionAI/Ring-2.5-1T

🤖 ModelScope:
https://modelscope.cn/models/inclusionAI/Ring-2.5-1T

Ling Studiohttps://ling.tbox.cn/chat) 与 ZenMuxhttps://zenmux.ai/) 平台的 Ring-2.5-1T Chat 体验页和 API 服务也将在近期上线。

对于希望深入探讨大模型架构和 开源实战 的开发者,欢迎在 云栈社区 的技术板块交流心得,共同推动技术进步。




上一篇:优刻得正式上线基于PostgreSQL的Supabase BaaS服务,简化全栈开发流程
下一篇:谷歌发布Gemini 3 Deep Think推理模式,在多项基准测试中超越Claude Opus与GPT-5
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-23 12:57 , Processed in 0.778313 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表