云栈社区»论坛 › 开发者广场「Dev Plaza」 › 腾讯Hy3 preview模型正式发布：295B参数MoE架构，聚焦Agent与复 ...

发回帖发新帖

5730 积分	0 好友	727 主题

发消息

腾讯Hy3 preview模型正式发布：295B参数MoE架构，聚焦Agent与复杂推理，高性价比登场

发表于 2026-4-26 01:16:46 | 查看: 287| 回复: 0

2026年4月，腾讯正式发布了由姚顺雨带队打造的新模型——Hy3 preview，这也是他加入腾讯后的首个模型力作。这次，团队没有追逐万亿参数规模的虚名，而是把重心放在了实用性和性价比上。

腾讯首席AI科学家姚顺雨在腾讯总部发布Hy3 preview模型

模型核心亮点：理性务实，主打性价比

Hy3 preview 是一个快慢思考融合的 MoE（混合专家）语言模型。它的技术参数如下：

总参数量：295B
激活参数量：21B
上下文长度：最大支持 256K
核心应用场景：Coding 和智能体（Agent）类任务

腾讯官方表示，这不仅是混元重建后训练的第一个模型，也是迄今为止“最智能的混元模型”。在复杂推理、指令遵循、上下文学习和代码智能体能力上，Hy3 preview 实现了大幅提升。

腾讯混元系列新Logo：传达出“重新出发”的品牌形象

从技术路线上看，腾讯混元大模型秉持三大“实用性”原则：

能力体系化：拒绝“偏科”，因为即使是代码智能体的单一应用，也需要推理、长文、指令、对话、代码、工具等多种能力的深度协同。
评测真实性：跳出易被“刷榜”的公开榜单，采用自建题库、最新考试、人工评测和产品众测等方式，测试模型在真实世界的“战斗力”。
性价比追求：通过深度协同模型架构和推理框架设计，大幅降低任务成本。

腾讯首席 AI 科学家姚顺雨在发布时阐释了团队的初衷：“我们希望通过这次开源和发布，获得来自社区和用户的真实反馈，帮助我们提升 Hy3 正式版的实用性。”

他特别强调，腾讯作为一家 To C 基因强大的公司，更关心的是模型能否为用户创造实际价值。在很多场景中，问题的关键并不在于把模型做得更大更强，而在于模型能否获取并理解更丰富的上下文信息。

性能实测：Agent 与代码能力提升最显著

根据官方公布的多个评测结果，Hy3 preview 的表现相当均衡且亮眼。

上下文学习与指令遵循

在腾讯自建的 CL-bench 和 CL-bench-Life 评测集中，Hy3 preview 展现出了强大的上下文学习能力，能更好地理解杂乱冗长的上下文并遵从复杂的指令。

Hy3 preview 在多项上下文学习基准测试（AdvancedIF, AA-LCR, LongBench v2, CL-bench）中与竞品的对比成绩

复杂推理能力

在高难度的理工科推理任务中，Hy3 preview 成绩斐然。在 FrontierScience-Olympiad 和 IMOAnswerBench 等测试中表现出色，尤其是在国内的清华大学求真书院数学博资考（2026春）和全国中学生生物学联赛（CHSBO 2025）中，拿下了国内模型的最高分。

Hy3 preview 在高难度推理测试（如FrontierScience Olympiad、IMO Answer Bench、清华求真书院数学博资考）中的表现

代码与智能体能力

这是 Hy3 preview 提升最显著的方向。得益于预训练和强化学习框架的重建，它在 SWE-bench Verified、Terminal-Bench 2.0 等主流代码智能体基准，以及 BrowseComp、WideSearch 等搜索智能体基准中，均取得了极具竞争力的成绩。

Hy3 preview 在 SWE-bench、Terminal-Bench、BrowseComp、WideSearch 等主流代码与Agent基准上的表现趋势图

在官方的内部评测集（如 Hy-Backend、Hy-Vibe Bench、Hy-SWE Max）中，Hy3 preview 也展现了强大的综合竞争力。

同时，将 Hy3 preview 与市面上其他开源模型进行对比，其在智能体综合表现与模型大小（参数量）之间找到了极佳的平衡点，性价比优势非常突出。

Agent Benchmarks 散点图显示Hy3 preview在智能体综合表现与参数量之间找到高性价比平衡点

定价策略与企业级应用

要想让模型真正“用得起”，成本控制是关键。得益于模型架构与推理系统的深度协同设计，Hy3 preview 的整体推理效率提升了 40%，成本随之大幅下降。

其在腾讯云大模型服务平台 TokenHub 上的定价为：

输入价格：最低 1.2 元 / 百万 Tokens
命中缓存输入价格：0.4 元 / 百万 Tokens
输出价格：最低 4 元 / 百万 Tokens

同时，腾讯云还推出了定制的 Hy3 preview Token Plan 套餐，个人版最低仅需 28 元/月，极大地降低了开发者使用顶尖 AI 的门槛。

Hy3 preview API 按输入/输出分桶的详细价格表

Hy3 preview 针对个人与开发者的Token Plan套餐，定价最低28元/月

在正式上线前，Hy3 preview 已经在腾讯的核心业务中进行了测试并取得了显著的正向收益：

元宝App：与元宝深度协同，提升了意图识别、文本创作和深度搜索能力，带来了更智能的交互体验。
CodeBuddy / WorkBuddy：首 Token 延迟降低 54%，端到端时长降低 47%，成功率提升至 99.99%+，已稳定驱动长达 495 步的复杂 Agent 工作流。
游戏场景：在《和平精英》AI NPC 场景中，角色扮演能力和对话真实感表现令人印象深刻。
其他应用：在腾讯文档 AI PPT、QQ 浏览器、QQ AI 助手等场景中均取得了明显的性能提升。

目前，Hy3 preview 已陆续上线腾讯云、元宝、ima、CodeBuddy、QQ、微信公众号等多个核心产品，并支持接入 OpenClaw、OpenCode 等流行的开源智能体框架。

在云栈实测 Hy3 preview：一个理性、务实的“打工人”

我们云栈社区有幸赶在第一时间对 Hy3 preview 进行了全面的测试。为了验证它在真实业务场景中的表现，我们设计了五个高难度的任务，得到了一个非常清晰的结论——这是一个非常理性、务实的“打工人”模型。它不会天马行空地乱编，而是一步一个脚印地解决问题。

1. 英文视频提炼与翻译

第一个任务是完全真实的工作场景：给定一个英文技术播客的视频链接，要求它提炼核心观点并翻译字幕。

Hy3 preview 无法直接访问推送的链接，但它没有放弃，而是展现出了强大的“生存能力”。它尝试了多种路径：

首先尝试用浏览器自动化工具访问，发现环境缺少 agent-browser 库，于是尝试自动安装。
安装失败后，立刻切换方案，改用 Python 脚本 youtube-transcript-api 来获取视频信息。
成功获取视频基本信息后，通过搜索找到了这期播客的 Newsletter 页面，并从中提炼出了合理的 10 个关键观点。

在生成报告时，它表现出了极强的务实性和不瞎编的特质。当它发现从 Newsletter 页面获取的“亮点列表”信息更可靠时，它直接参考并整理，而不是像某些模型那样凭空捏造一些看起来高大上但实则不存在的“亮点”。

2. 提取与翻译视频字幕

Hy3 preview 被要求下载该英文视频的字幕并进行翻译。这个过程它大约花了 10 分钟，中间经历了多次“碰壁”和“自救”。

它先是尝试用 youtube-transcript-api 库，但发现 API 调用失败；接着又尝试用 yt-dlp 工具，经过多次调试，最终成功下载了 SRT 字幕文件。

之后，它用 Python 脚本将 SRT 转换为纯文本，并截取了前10分钟的内容进行翻译。虽然最终的翻译效果仍有优化空间，且对说话人识别存在一些错位，但对于一个需要依赖各种外部工具自动抓取的 Agent 来说，整个流程的自动化程度已经相当高。事后，它还很好地总结了自己的经验和不足，甚至给出了下次如何更高效操作的优化建议。

3. 撰写“AI 一人公司”趋势报告

我们给 Hy3 preview 设定了详细的提示词，要求它进行网页搜索、资料整理、数据总结，并最终产出一份结构化的调研报告。

它表现出了非常出色的资料搜集与处理能力：

它会根据任务自动规划调研关键词（中英文）。
它会进行多轮、多角度的搜索，并严格遵循“先搜索，后总结”的指令。
最终产出了一份长达数页的《AI 一人公司趋势调研报告》，结构完整，包含了背景、趋势、案例、商业模式、风险与展望。
我们随机抽检了报告中的两组数据（如澳大利亚一人公司增长数据、动画AI创业者案例），发现数据来源可靠且引用完全准确。

虽然报告在某些细节的深度上略有不足，但对于想要快速了解这个领域的用户来说，已经是一份可以直接使用的高质量信息汇总。

4. 动手搭建“AI 新闻聚合网站”

这是最能体现 Hy3 preview 编程能力的测试。我们要求它从零开始，基于上传的 Excel 新闻源文件，开发一个完整的 AI 新闻聚合网站。

整个开发过程非常流畅：

技术选型：Hy3 preview 自主选择了 Next.js App Router + Tailwind CSS + SQLite 的技术栈，并给出了清晰的选择理由。
环境搭建：它在本地创建了开发环境，读取 Excel 文件中的新闻源，并编写了爬虫代码。
Debug 能力：代码运行后遇到了一个前端的 Unhandled Runtime Error。我们只告诉了它“网页打不开”，它便自动检查报错堆栈，并成功修复了问题。
最终成果：在经历了31次工具调用后，它成功生成了一个可以运行的 AI 新闻聚合网页。页面能展示新闻标题、摘要和来源 Logo。

当然，这个版本也有一些瑕疵，比如新闻排序的逻辑不够完美，用户界面在美观度上还有提升空间。这些细节问题也恰好印证了它“理性、务实”的性格特点：它能帮你把功能完整搭建起来，完成从概念到落地的90%，剩下的10%的精细打磨，还需要人类来指导。

5. 高难度 STEM 仿真模拟与 Skill 加载

STEM 仿真：我们要求它通过 terminal 技能，在本地编写 Python 脚本求解洛伦兹力方程并绘制 3D 轨迹图。它成功地完成了任务，并产出了一张物理上高度可信的粒子运动轨迹图。在思考过程中，它甚至懂得先检查能量守恒再确认视觉可信度，展现了良好的物理直觉。
Skill 加载：我们让它加载一个写好的文案生成 Skill，然后根据本次测试文章的内容生成传播文案。它完美地理解了 Skill 的规则，准确抓取了文章的核心关键词，并生成了符合预设字数、风格（模板中立、创意去广告、发疯更Social）和标签规范的三版本文案。

小结

Hy3 preview的3D轨迹模拟图，展示了其在物理仿真和数学求解上的技术能力

经过这五个维度的实测，我们对 Hy3 preview 的印象非常深刻。它不像某些模型那样热衷于大包大揽的“吹牛”，而是在真实的任务执行中，处处体现着一种“工程师的务实”。

它会在遇到困难时耐心地寻找工具、自动安装依赖，而不是给出一堆天马行空但无法落地的建议。当你需要它去解决一个逻辑严谨、步骤清晰的程序问题时，你会发现它是最好的帮手。它虽然缺乏一些发散性的创意和天马行空的想象力，但这恰恰是它可靠性的体现。

对于开发者、程序员和技术发烧友来说，Hy3 preview 不仅仅是一个参数模型，它是一个可以信任、可以交付任务的智能“打工人”。正如姚顺雨所言，腾讯关心的是“如何让大模型真正为用户创造更多实际价值”。从这次测试来看，Hy3 preview 确实在以自己的方式，让 AI 能力可落地、可执行、可上手，这本身就是一种了不起的成功。

上一篇：DeepSeek V4发布在即：梁文锋融资态度逆转，国产芯片适配成焦点
下一篇：Pynsist：Python打包Windows安装程序，三步搞定免环境配置

AI大模型, 腾讯混元, Agent, MoE, 模型评测