5578 积分	0 好友	756 主题

发消息

GPT-OSS开源模型发布：120B/20B双版本，支持工具调用与代码执行

发表于 2026-4-11 19:32:20 | 查看: 119| 回复: 0

近日，OpenAI 正式开源了 gpt-oss-120b 和 gpt-oss-20b 两款轻量级语言模型，其表现卓越且允许免费商用。这两个模型具备以下几个核心特性：

智能体能力：原生支持工具调用、网页搜索、Python代码执行以及结构化输出。
完整的思维链：可以获取模型的完整思考过程，便于调试并增强对输出结果的信任度。
可配置的推理能力：支持 low/medium/high 三种推理效果等级，可按需调整。
可参数微调：支持通过参数进行细粒度的优化调整。
Apache 2.0 许可：无论是用于实验、定制还是商业部署，都可自由构建，无需担心版权或专利风险。

有开发者通过 Ollama 进行了简单试用，反馈效果不错，但在持续使用时会遇到需要订阅的提示。

Ollama试用gpt-oss模型提示达到使用上限

模型架构

这两个模型均基于 Transformer 架构，并采用了专家混合 (MoE) 技术来减少处理每个输入令牌时实际激活的参数数量。具体来说，gpt-oss-120b 每个令牌激活约51亿参数，而 gpt-oss-20b 激活约36亿参数。

模型	层数	总参数	每个令牌激活参数	总专家数	每个令牌激活专家数	上下文长度
gpt-oss-120b	36	117b	5.1b	128	4	128k
gpt-oss-20b	24	21b	3.6b	32	4	128k

OpenAI 使用了一个高质量、主要为英文的纯文本数据集对模型进行训练，重点聚焦于 STEM、编程和通用知识领域。数据令牌化使用了 OpenAI o4-mini 和 GPT‑4o 所用令牌化器的超集—— o200k_harmony。该令牌化器也已一同开源，源代码地址为：https://github.com/openai/harmony 。

性能评估

	gpt-oss-120b	gpt-oss-20b	OpenAI o3	OpenAI o4-mini
推理与知识
MMLU	90	85.3	93.4	93
GPQA 钻石级	80.9	74.2	77	81.4
人类水平评估 (HLE)	19	17.3	24.9	17.7
竞赛数学
AIME 2024	96.6	96	91.6	93.4
AIME 2025	97.9	98.7	88.9	92.7

综合评估显示：

gpt-oss-120b 在竞赛编程 (Codeforces)、通用问题解决 (MMLU 和 HLE) 以及工具调用 (TauBench) 方面的表现优于 OpenAI o3‑mini，并与 OpenAI o4-mini 持平或实现超越。此外，它在健康相关查询 (HealthBench) 和竞赛数学 (AIME 2024 和 2025) 方面比 o4-mini 表现更好。

尽管 gpt-oss-20b 规模较小，但在上述相同评估中，它与 OpenAI o3‑mini 持平或实现超越，甚至在竞赛数学和医疗相关任务上表现更佳。

gpt-oss在Codeforces、SWE-Bench、Tau-Bench上的性能对比图表