找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

5120

积分

0

好友

677

主题
发表于 3 小时前 | 查看: 2| 回复: 0

2026年4月,腾讯正式发布了由姚顺雨带队打造的新模型——Hy3 preview,这也是他加入腾讯后的首个模型力作。这次,团队没有追逐万亿参数规模的虚名,而是把重心放在了实用性和性价比上。

腾讯首席AI科学家姚顺雨在腾讯总部发布Hy3 preview模型

模型核心亮点:理性务实,主打性价比

Hy3 preview 是一个快慢思考融合的 MoE(混合专家)语言模型。它的技术参数如下:

  • 总参数量:295B
  • 激活参数量:21B
  • 上下文长度:最大支持 256K
  • 核心应用场景:Coding 和智能体(Agent)类任务

腾讯官方表示,这不仅是混元重建后训练的第一个模型,也是迄今为止“最智能的混元模型”。在复杂推理、指令遵循、上下文学习和代码智能体能力上,Hy3 preview 实现了大幅提升。

腾讯混元系列新Logo:传达出“重新出发”的品牌形象

从技术路线上看,腾讯混元大模型秉持三大“实用性”原则:

  • 能力体系化:拒绝“偏科”,因为即使是代码智能体的单一应用,也需要推理、长文、指令、对话、代码、工具等多种能力的深度协同。
  • 评测真实性:跳出易被“刷榜”的公开榜单,采用自建题库、最新考试、人工评测和产品众测等方式,测试模型在真实世界的“战斗力”。
  • 性价比追求:通过深度协同模型架构和推理框架设计,大幅降低任务成本。

腾讯首席 AI 科学家姚顺雨在发布时阐释了团队的初衷:“我们希望通过这次开源和发布,获得来自社区和用户的真实反馈,帮助我们提升 Hy3 正式版的实用性。”

他特别强调,腾讯作为一家 To C 基因强大的公司,更关心的是模型能否为用户创造实际价值。在很多场景中,问题的关键并不在于把模型做得更大更强,而在于模型能否获取并理解更丰富的上下文信息。

性能实测:Agent 与代码能力提升最显著

根据官方公布的多个评测结果,Hy3 preview 的表现相当均衡且亮眼。

上下文学习与指令遵循

在腾讯自建的 CL-bench 和 CL-bench-Life 评测集中,Hy3 preview 展现出了强大的上下文学习能力,能更好地理解杂乱冗长的上下文并遵从复杂的指令。

Hy3 preview 在多项上下文学习基准测试(AdvancedIF, AA-LCR, LongBench v2, CL-bench)中与竞品的对比成绩

复杂推理能力

在高难度的理工科推理任务中,Hy3 preview 成绩斐然。在 FrontierScience-Olympiad 和 IMOAnswerBench 等测试中表现出色,尤其是在国内的清华大学求真书院数学博资考(2026春)和全国中学生生物学联赛(CHSBO 2025)中,拿下了国内模型的最高分。

Hy3 preview 在高难度推理测试(如FrontierScience Olympiad、IMO Answer Bench、清华求真书院数学博资考)中的表现

代码与智能体能力

这是 Hy3 preview 提升最显著的方向。得益于预训练和强化学习框架的重建,它在 SWE-bench Verified、Terminal-Bench 2.0 等主流代码智能体基准,以及 BrowseComp、WideSearch 等搜索智能体基准中,均取得了极具竞争力的成绩。

Hy3 preview 在 SWE-bench、Terminal-Bench、BrowseComp、WideSearch 等主流代码与Agent基准上的表现趋势图

在官方的内部评测集(如 Hy-Backend、Hy-Vibe Bench、Hy-SWE Max)中,Hy3 preview 也展现了强大的综合竞争力。

同时,将 Hy3 preview 与市面上其他开源模型进行对比,其在智能体综合表现与模型大小(参数量)之间找到了极佳的平衡点,性价比优势非常突出。

Agent Benchmarks 散点图显示Hy3 preview在智能体综合表现与参数量之间找到高性价比平衡点

定价策略与企业级应用

要想让模型真正“用得起”,成本控制是关键。得益于模型架构与推理系统的深度协同设计,Hy3 preview 的整体推理效率提升了 40%,成本随之大幅下降。

其在腾讯云大模型服务平台 TokenHub 上的定价为:

  • 输入价格:最低 1.2 元 / 百万 Tokens
  • 命中缓存输入价格:0.4 元 / 百万 Tokens
  • 输出价格:最低 4 元 / 百万 Tokens

同时,腾讯云还推出了定制的 Hy3 preview Token Plan 套餐,个人版最低仅需 28 元/月,极大地降低了开发者使用顶尖 AI 的门槛。

Hy3 preview API 按输入/输出分桶的详细价格表

Hy3 preview 针对个人与开发者的Token Plan套餐,定价最低28元/月

在正式上线前,Hy3 preview 已经在腾讯的核心业务中进行了测试并取得了显著的正向收益:

  • 元宝App:与元宝深度协同,提升了意图识别、文本创作和深度搜索能力,带来了更智能的交互体验。
  • CodeBuddy / WorkBuddy:首 Token 延迟降低 54%,端到端时长降低 47%,成功率提升至 99.99%+,已稳定驱动长达 495 步的复杂 Agent 工作流。
  • 游戏场景:在《和平精英》AI NPC 场景中,角色扮演能力和对话真实感表现令人印象深刻。
  • 其他应用:在腾讯文档 AI PPT、QQ 浏览器、QQ AI 助手等场景中均取得了明显的性能提升。

目前,Hy3 preview 已陆续上线腾讯云、元宝、ima、CodeBuddy、QQ、微信公众号等多个核心产品,并支持接入 OpenClaw、OpenCode 等流行的开源智能体框架。

在云栈实测 Hy3 preview:一个理性、务实的“打工人”

我们云栈社区有幸赶在第一时间对 Hy3 preview 进行了全面的测试。为了验证它在真实业务场景中的表现,我们设计了五个高难度的任务,得到了一个非常清晰的结论——这是一个非常理性、务实的“打工人”模型。它不会天马行空地乱编,而是一步一个脚印地解决问题。

1. 英文视频提炼与翻译

第一个任务是完全真实的工作场景:给定一个英文技术播客的视频链接,要求它提炼核心观点并翻译字幕。

Hy3 preview 无法直接访问推送的链接,但它没有放弃,而是展现出了强大的“生存能力”。它尝试了多种路径:

  1. 首先尝试用浏览器自动化工具访问,发现环境缺少 agent-browser 库,于是尝试自动安装。
  2. 安装失败后,立刻切换方案,改用 Python 脚本 youtube-transcript-api 来获取视频信息。
  3. 成功获取视频基本信息后,通过搜索找到了这期播客的 Newsletter 页面,并从中提炼出了合理的 10 个关键观点。

在生成报告时,它表现出了极强的务实性和不瞎编的特质。当它发现从 Newsletter 页面获取的“亮点列表”信息更可靠时,它直接参考并整理,而不是像某些模型那样凭空捏造一些看起来高大上但实则不存在的“亮点”。

2. 提取与翻译视频字幕

Hy3 preview 被要求下载该英文视频的字幕并进行翻译。这个过程它大约花了 10 分钟,中间经历了多次“碰壁”和“自救”。

它先是尝试用 youtube-transcript-api 库,但发现 API 调用失败;接着又尝试用 yt-dlp 工具,经过多次调试,最终成功下载了 SRT 字幕文件。

之后,它用 Python 脚本将 SRT 转换为纯文本,并截取了前10分钟的内容进行翻译。虽然最终的翻译效果仍有优化空间,且对说话人识别存在一些错位,但对于一个需要依赖各种外部工具自动抓取的 Agent 来说,整个流程的自动化程度已经相当高。事后,它还很好地总结了自己的经验和不足,甚至给出了下次如何更高效操作的优化建议。

3. 撰写“AI 一人公司”趋势报告

我们给 Hy3 preview 设定了详细的提示词,要求它进行网页搜索、资料整理、数据总结,并最终产出一份结构化的调研报告。

它表现出了非常出色的资料搜集与处理能力:

  • 它会根据任务自动规划调研关键词(中英文)。
  • 它会进行多轮、多角度的搜索,并严格遵循“先搜索,后总结”的指令。
  • 最终产出了一份长达数页的《AI 一人公司趋势调研报告》,结构完整,包含了背景、趋势、案例、商业模式、风险与展望。
  • 我们随机抽检了报告中的两组数据(如澳大利亚一人公司增长数据、动画AI创业者案例),发现数据来源可靠且引用完全准确。

虽然报告在某些细节的深度上略有不足,但对于想要快速了解这个领域的用户来说,已经是一份可以直接使用的高质量信息汇总。

4. 动手搭建“AI 新闻聚合网站”

这是最能体现 Hy3 preview 编程能力的测试。我们要求它从零开始,基于上传的 Excel 新闻源文件,开发一个完整的 AI 新闻聚合网站。

整个开发过程非常流畅:

  • 技术选型:Hy3 preview 自主选择了 Next.js App Router + Tailwind CSS + SQLite 的技术栈,并给出了清晰的选择理由。
  • 环境搭建:它在本地创建了开发环境,读取 Excel 文件中的新闻源,并编写了爬虫代码。
  • Debug 能力:代码运行后遇到了一个前端的 Unhandled Runtime Error。我们只告诉了它“网页打不开”,它便自动检查报错堆栈,并成功修复了问题。
  • 最终成果:在经历了31次工具调用后,它成功生成了一个可以运行的 AI 新闻聚合网页。页面能展示新闻标题、摘要和来源 Logo。

当然,这个版本也有一些瑕疵,比如新闻排序的逻辑不够完美,用户界面在美观度上还有提升空间。这些细节问题也恰好印证了它“理性、务实”的性格特点:它能帮你把功能完整搭建起来,完成从概念到落地的90%,剩下的10%的精细打磨,还需要人类来指导。

5. 高难度 STEM 仿真模拟与 Skill 加载

  • STEM 仿真:我们要求它通过 terminal 技能,在本地编写 Python 脚本求解洛伦兹力方程并绘制 3D 轨迹图。它成功地完成了任务,并产出了一张物理上高度可信的粒子运动轨迹图。在思考过程中,它甚至懂得先检查能量守恒再确认视觉可信度,展现了良好的物理直觉。

  • Skill 加载:我们让它加载一个写好的文案生成 Skill,然后根据本次测试文章的内容生成传播文案。它完美地理解了 Skill 的规则,准确抓取了文章的核心关键词,并生成了符合预设字数、风格(模板中立、创意去广告、发疯更Social)和标签规范的三版本文案。

小结

Hy3 preview的3D轨迹模拟图,展示了其在物理仿真和数学求解上的技术能力

经过这五个维度的实测,我们对 Hy3 preview 的印象非常深刻。它不像某些模型那样热衷于大包大揽的“吹牛”,而是在真实的任务执行中,处处体现着一种“工程师的务实”。

它会在遇到困难时耐心地寻找工具、自动安装依赖,而不是给出一堆天马行空但无法落地的建议。当你需要它去解决一个逻辑严谨、步骤清晰的程序问题时,你会发现它是最好的帮手。它虽然缺乏一些发散性的创意和天马行空的想象力,但这恰恰是它可靠性的体现。

对于开发者、程序员和技术发烧友来说,Hy3 preview 不仅仅是一个参数模型,它是一个可以信任、可以交付任务的智能“打工人”。正如姚顺雨所言,腾讯关心的是“如何让大模型真正为用户创造更多实际价值”。从这次测试来看,Hy3 preview 确实在以自己的方式,让 AI 能力可落地、可执行、可上手,这本身就是一种了不起的成功。




上一篇:DeepSeek V4发布在即:梁文锋融资态度逆转,国产芯片适配成焦点
下一篇:Pynsist:Python打包Windows安装程序,三步搞定免环境配置
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-4-26 04:49 , Processed in 0.893895 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表