5735 积分	0 好友	724 主题

发消息

Holo3发布：成本仅GPT-54十分之一，专为GUI代理优化的AI助手登顶OSWorld基准

发表于 2026-4-2 13:02:39 | 查看: 307| 回复: 0

H公司近期正式发布了Holo3系列AI模型，该系列在“计算机使用”这一特定领域刷新了性能记录，为自动化操作网页、桌面及移动应用带来了新的可能性。

Holo3与其他主流模型在OSWorld基准上的性能-成本对比散点图

根据权威的OSWorld-Verified基准测试结果，旗舰型号Holo3-122B-A10B取得了78.85%的得分，这一成绩超越了包括GPT-5.4和Opus 4.6在内的多个主流模型。尤为关键的是，在达成这一高性能的同时，Holo3的成本仅为竞争对手的约十分之一，在性价比上展现出显著优势。

两个版本，满足不同需求

Holo3系列提供了两个不同定位的版本，以适应从社区开发者到企业客户的不同场景：

Holo3-122B-A10B：旗舰版本，性能最强，目前仅通过API方式提供服务。定价为输入每百万Token $0.40，输出每百万Token$3.00。
Holo3-35B-A3B：轻量版本，在保持出色性能的同时，完全开源（采用Apache 2.0协议）。定价更为经济，输入每百万Token $0.25，输出每百万Token$1.80。

目前，35B版本的模型权重已在Hugging Face上公开，支持免费层用户直接使用与体验。

专为GUI代理设计的视觉语言模型

Holo3并非通用大模型，而是专门为图形用户界面（GUI）代理任务优化的视觉语言模型。这意味着它经过特殊训练，能够理解屏幕上的图像、文本和控件布局，并执行点击、输入、导航等操作，从而在网页、桌面软件和移动应用环境中自主完成任务。

该模型基于Qwen3.5架构构建，并采用了稀疏混合专家（MoE）设计。这种设计使其在保持庞大总参数量的同时，每次推理仅激活少量参数，实现了高效能与低成本的计算平衡。具体来说，35B版本仅有3B活跃参数，而122B版本也仅激活10B参数。

经企业级复杂场景验证

为了检验模型在真实商业环境中的实用性，H公司专门开发了“H Corporate Benchmark”测试集。该测试集包含多达486个多步骤复杂任务，覆盖了电子商务、商业软件操作、团队协作以及跨应用工作流等多个典型场景。测试结果表明，Holo3在这些贴近实际业务的高难度任务中表现优异，证明了其企业级应用潜力。

开源与商业化的双轨策略

H公司此次采用的策略颇具巧思：将性能足够的35B版本完全开源，以此吸引广大开发者和研究者社区，促进生态创新与技术普及；同时将顶级的122B版本保持闭源并通过API提供，服务于对性能有极致要求的企业客户。这种“开源引流，闭源盈利”的双轨制，既能够快速构建开发者生态，又能保障持续的研发投入和商业回报，是当前许多人工智能公司探索的可行路径。