找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

4990

积分

0

好友

694

主题
发表于 1 小时前 | 查看: 2| 回复: 0

近日,OpenAI 正式开源了 gpt-oss-120bgpt-oss-20b 两款轻量级语言模型,其表现卓越且允许免费商用。这两个模型具备以下几个核心特性:

  • 智能体能力:原生支持工具调用、网页搜索、Python代码执行以及结构化输出。
  • 完整的思维链:可以获取模型的完整思考过程,便于调试并增强对输出结果的信任度。
  • 可配置的推理能力:支持 low/medium/high 三种推理效果等级,可按需调整。
  • 可参数微调:支持通过参数进行细粒度的优化调整。
  • Apache 2.0 许可:无论是用于实验、定制还是商业部署,都可自由构建,无需担心版权或专利风险。

有开发者通过 Ollama 进行了简单试用,反馈效果不错,但在持续使用时会遇到需要订阅的提示。

Ollama试用gpt-oss模型提示达到使用上限

模型架构

这两个模型均基于 Transformer 架构,并采用了专家混合 (MoE) 技术来减少处理每个输入令牌时实际激活的参数数量。具体来说,gpt-oss-120b 每个令牌激活约51亿参数,而 gpt-oss-20b 激活约36亿参数。

模型 层数 总参数 每个令牌激活参数 总专家数 每个令牌激活专家数 上下文长度
gpt-oss-120b 36 117b 5.1b 128 4 128k
gpt-oss-20b 24 21b 3.6b 32 4 128k

OpenAI 使用了一个高质量、主要为英文的纯文本数据集对模型进行训练,重点聚焦于 STEM编程通用知识领域。数据令牌化使用了 OpenAI o4-mini 和 GPT‑4o 所用令牌化器的超集—— o200k_harmony。该令牌化器也已一同开源,源代码地址为:https://github.com/openai/harmony

性能评估

gpt-oss-120b gpt-oss-20b OpenAI o3 OpenAI o4-mini
推理与知识
MMLU 90 85.3 93.4 93
GPQA 钻石级 80.9 74.2 77 81.4
人类水平评估 (HLE) 19 17.3 24.9 17.7
竞赛数学
AIME 2024 96.6 96 91.6 93.4
AIME 2025 97.9 98.7 88.9 92.7

综合评估显示:

gpt-oss-120b 在竞赛编程 (Codeforces)、通用问题解决 (MMLU 和 HLE) 以及工具调用 (TauBench) 方面的表现优于 OpenAI o3‑mini,并与 OpenAI o4-mini 持平或实现超越。此外,它在健康相关查询 (HealthBench) 和竞赛数学 (AIME 2024 和 2025) 方面比 o4-mini 表现更好。

尽管 gpt-oss-20b 规模较小,但在上述相同评估中,它与 OpenAI o3‑mini 持平或实现超越,甚至在竞赛数学和医疗相关任务上表现更佳。

gpt-oss在Codeforces、SWE-Bench、Tau-Bench上的性能对比图表

gpt-oss在AIME、GPQA、HLE、MMLU等多个基准测试上的准确率对比图表

可用性与部署

模型已原生量化为 MXFP4 格式,gpt-oss-120b 需要约80GB内存,而 gpt-oss-20b 仅需约16GB内存

  • gpt-oss-120b 面向生产可用场景,适合部署在大型数据中心或高端设备上。
  • gpt-oss-20b 则是设备端应用、本地推理或需要快速迭代且无需昂贵基础设施场景的理想选择。

为了提升灵活性和易用性,OpenAI 与众多领先的部署平台展开了合作,方便开发者快速集成:

  • Hugging Face
  • Azure
  • vLLM
  • Ollama
  • llama.cpp
  • LM Studio
  • AWS
  • Fireworks
  • Together AI
  • Baseten
  • Databricks
  • Vercel
  • Cloudflare
  • OpenRouter

在硬件层面,OpenAI 也与 NVIDIA、AMD、Cerebras 和 Groq 等厂商合作,以确保模型在各类系统上都能获得性能优化。其核心目的,是希望这些模型能够被广大开发者方便地使用。

总结

gpt-oss 系列模型虽然不是 OpenAI 最前沿的模型,但它汇聚了 OpenAI 内部诸多先进的技术理念、模型架构和训练方法。其强大的智能体能力,包括对工具调用、网页搜索和 Python 代码执行的原生支持,为开发者探索人工智能应用提供了丰富的可能性。

两款模型定位清晰:20B 参数版本可在消费级硬件(16GB显存)上运行,适合个人开发者和普通用户;120B 参数版本面向生产环境,需要更强的计算资源(约80GB显存)。此次开源行动,旨在加速前沿研究,促进创新,并推动在更广泛的应用场景下实现更安全、更透明的 AI 开发。

参考




上一篇:Ollama 0.7.0发布:全新引擎原生支持多模态AI模型
下一篇:移动端任务调度实践:从Android卡顿分析到负载均衡与优先级反转解决
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-4-11 20:58 , Processed in 0.741087 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表