云栈社区»论坛 › 开源实战「 OpenSource 」 › 清华大学联合发布UltraData 2.4T开源数据，详解L0-L4分级治理体 ...

发回帖发新帖

4832 积分	0 好友	627 主题

发消息

[Python] 清华大学联合发布UltraData 2.4T开源数据，详解L0-L4分级治理体系与数学数据集

发表于 2026-2-11 18:03:44 | 查看: 234| 回复: 0

纵观人工智能的发展历程，本质上是一部“数据驱动策略与利用方式”的演进史。每一次范式的跃迁，都不仅是对前一阶段策略的延伸与重构，更演化出新的数据利用方法，从而推动模型能力的突破与涌现。

数据驱动学习与数据-模型协同演进示意图

回顾通用人工智能的发展，我们经历了从符号学习、监督学习、自监督学习到反馈学习的多个阶段。目前主流范式仍是“数据驱动学习”（Data-Driven Learning），即依靠数据规模的扩张来单向驱动模型能力提升。

但随着模型本身能力的增强，人工智能的发展正迈向一个更具互动性的新阶段：“数据-模型协同演进”（Data-Model Co-Evolution）。这意味着模型可以反哺数据治理，而高质量数据又能进一步优化模型，形成一个良性的闭环。你是否思考过，如何系统化地管理海量训练数据，以实现这种协同效应？

为了适应这一根本性的范式转变，清华大学自然语言处理实验室、面壁智能与OpenBMB联合发布了 L0-L4 数据分级治理（Tiered Data Management）体系，旨在为迈向通用人工智能提供系统化的数据科学支撑。

为了验证这套分级体系的有效性，研究团队在英文网页、中文网页、数学和代码四个关键领域进行了系统性实验。他们观察到一个清晰的趋势：模型性能随着数据质量从L1向L3的逐级提升而持续增强。

在实验过程中，团队构建了 UltraData-Math——一个面向数学领域的大规模、高质量预训练数据集。该数据集包含了当前最大规模的开源高质量L3数学合成数据，并在多个评测基准上超越了其他开源数据集，为数学垂直领域的数据治理提供了新的前沿范式。

为了进一步构建开放协作的数据治理社区生态，他们正式推出了 UltraData 开放社区网站。该网站系统整理了如UltraChat、UltraFeedback等前期高质量数据工作，并开源了实验过程中产生的 总计2.4T Tokens的数据 以及 4 项核心数据治理工具。

开源数据集与工具列表

UltraData 数据分级治理体系

现有的数据治理方法往往专注于特定的处理任务，例如数据过滤、筛选或编辑。但这些零散的方法难以满足大语言模型在全生命周期训练中对数据的系统性要求。

构建一个基于模型训练需求的系统性数据治理体系，背后有三大核心驱动力：

高质量公开数据资源正逐渐枯竭：未来模型的演进无法再单纯依赖数据量的堆砌，数据科学必须从粗放式扩张转向精细化治理，深度挖掘存量数据的价值。
模型训练不同阶段的差异化需求：预训练、指令微调等不同阶段，对数据的质量、数量和分布特征要求截然不同，需要针对性构建训练数据。
成本与收益的动态平衡：数据治理需要在投入与模型收益间找到最优解。前期应采用轻量低成本的方法（如启发式过滤），后期则在关键训练节点投入高成本、高价值的精细化数据（如使用LLM标注），以最大化数据的边际效应。

基于以上动机，团队构建了L0-L4五级数据分级体系，旨在让数据处理更具针对性。从原始数据（L0）开始，经历基础过滤（L1）、模型精筛（L2）、合成与增强（L3），最终形成可直接用于编排的数据（L4）。每一级都对应明确的处理标准和应用场景，避免了“一刀切”的粗放加工，力求最大化单位数据的训练价值。

L0至L4数据分级治理体系金字塔图

各层级的核心定义与应用如下：

L0 - 原始数据（Raw Data）：未经实质性处理的初始数据（PB级），包含大量噪声与重复内容，经采集解析后作为底层储备（例如Common Crawl网页、PDF文档），不直接用于训练。
L1 - 过滤数据（Filtered Data）：经过启发式规则过滤、去重等基础清洗的数据，格式规范但语义质量不均（例如FineWeb、DCAD），为后续处理提供基础资源。
L2 - 精筛数据（Selected Data）：通过模型打分、标签标注等方式筛选出的高信息密度数据，领域明确、逻辑连贯（例如Ultra-FineWeb），对模型能力提升贡献显著。
L3 - 合成与增强数据（Refined Data）：经过改写、合成或人工标注的结构化数据，语义清晰、质量优异（例如UltraChat、UltraFeedback），适用于中后期训练、指令微调、强化学习等高阶训练阶段。
L4 - 编排数据（Organized Data）：经过整理、可信校验和统一编排的有序数据，结构清晰、可检索（例如Wikidata），可直接支持RAG等应用。

01 分级体系有效性验证

研究团队在英文网页、中文网页、数学、代码四个领域，分别选取了L1至L3级别的代表性数据，在 MiniCPM-1.2B 模型上使用快速验证策略（对单一数据源采样 10B Tokens）进行数据质量验证。

L1-L3实验数据选择表

实验结果如下表所示。在不同领域中，模型性能从L1到L3层均呈现出清晰且一致的提升趋势。L3 > L2 > L1 的严格性能层级关系在所有实验中均成立，这验证了所提出的分级数据治理体系能够有效刻画具有实际意义的数据质量分层。即使在训练预算受限的验证设置下，该体系依然能产生清晰稳定的性能提升信号。

L1-L3数据在四个领域训练结果对比表

02 基于分级治理体系的多阶段模型训练

为了验证分级治理体系对动态训练过程的影响，团队设计了一组对比实验，评估 混合训练（Mix Training） 与 分级训练（Tiered Training） 两种策略的性能差异。

实验混合了四个领域的数据（固定配比：50%英文网页，25%中文网页，7%数学，18%代码），均在 MiniCPM-1.2B 模型上从头训练总计 120B Tokens。

混合训练策略：采用单阶段训练，将L1、L2、L3数据按1:1:1比例混合为统一数据池进行训练。
分级训练策略：将训练划分为三个连续的40B Tokens阶段，依次使用L1、L2、L3数据进行训练。

混合训练与分级训练结果对比表

上表给出了两种策略在各评测基准上的详细结果。与混合训练相比，分级训练在整体平均性能上提升了 1.49 个百分点，并且在英文、中文、数学和代码四个主要评测领域均取得了显著提升。

混合训练与分级训练过程得分对比折线图

上图从训练过程的动态视角进一步揭示了分级训练的优势。在早期阶段（主要使用L1数据），两种策略增长趋势相似。但在后期，分级训练策略逐步引入L2和L3高质量数据，性能曲线呈现持续稳定的上升，从28.35提升至31.66，增长 3.31。相比之下，混合训练的增长明显放缓，仅从28.26提升至30.17，增幅约为 1.91。

实验结果表明，将训练数据按L1、L2、L3分级并组织训练，能更有效地提升模型在知识理解、逻辑推理及领域专长等多维度的综合性能。

UltraData-Math 高质量数学预训练数据

基于上述数据分级治理体系，研究团队在数学数据领域进行了深入治理与严格实验，构建了当前最大规模的L3数学合成数据。相关实验结果证明了该方法的有效性，团队已将全量数据与分级治理工具在OpenBMB、HuggingFace等社区开源。

具体治理方法沿袭了分级体系：

L0 层：基于 magic-html 开发了数学专用解析器 UltraData-Math-Parser，结合w3m布局保留渲染和多级回退策略，将网页中的MathML、KaTeX和AsciiMath等格式标准化为LaTeX格式。
L1 层：通过启发式规则清洗噪声数据，并进行文档级去重。
L2 层：使用闭源大模型对种子数据进行标注，并蒸馏成轻量级Embedding分类器，实现对海量语料的高效质量分级。
L3 层：构建 UltraData-Math-Generator，通过数据改写、合成和精修（如生成问答、多人对话、多风格重写及知识支撑教材）来生成结构清晰、推理严谨的优质内容。

UltraData-Math Parser与通用解析器效果对比图

经过全链路清洗与重构，数据实现了从“广度覆盖”到“深度聚焦”的转变，最终得到290B Tokens的数学分级数据：

UltraData-Math-L1：包含 170.5B Tokens 的网页数学语料。
UltraData-Math-L2：包含 33.7B Tokens 的经质量模型筛选的高质量数学数据。
UltraData-Math-L3：包含 88B Tokens 的多格式高质量合成数学数据（如问答、多轮对话、知识教材等）。

实验验证与结果分析

为验证数据质量，团队基于 MiniCPM-1.2B 模型设计了一系列控制变量实验，所有实验均在 100B Tokens 的训练量下进行。

实验数据显示，在L0层使用UltraData-Math解析器，对下游任务表现有显著影响。该解析方案在 MATH 数据集上达到了 28.72 分，优于 trafilatura (28.08) 和 magic-html (26.58)，直接证明了解析数据的完整性对模型理解复杂数学逻辑至关重要。

L0解析器实验结果对比表

团队将最终数据 UltraData-Math-L3 与当前最先进的开源数学数据集（Nemotron-CC、MegaMath、FineMath）进行了独立训练对比。

结果表明，UltraData-Math在多个核心基准上刷新了同规模模型的性能纪录。得益于L0-L3的分级治理，模型不仅在 MATH 基准上大幅领先 Nemotron-CC 4plus (+3.62分)，更在 GSM8K、Math-Bench 以及 R-Bench-Math 等多维数学评测中展现了卓越的推理性能，有力验证了L3合成数据对复杂数学思维链（CoT）的显著增益。与此同时，模型在 MBPP 代码生成任务上也收益显著 (49.27)，并保持了稳健的通用知识水平（MMLU），实现了数学深度与逻辑广度的双重突破。

UltraData-Math L3数据与主流开源数据集实验结果对比表

UltraData 开放社区网站

研究团队同步推出了UltraData开放社区与官方网站，该平台将及时发布最新的数据治理工具、数据集与研究动态，是探索数据科学前沿的优质资源。

01 全链路治理工具

平台聚合了覆盖L0至L4每一层级的数据治理工具，形成完整工作流：

L0: UltraData-Parser，支持网页、PDF等异构内容解析。
L1: UltraData-Cleaner，动态组合启发式规则过滤、去重等算子。
L2: UltraData-Selector，通过模型打标筛选高价值样本。
L3: UltraData-Generator，实现多样化数据改写与合成。
L4: UltraData-Organizer，构建结构化知识库并进行校验。

UltraData-Math-L0-Parser 在线试用Demo界面

团队还将这些治理工具部署在HuggingFace Spaces等平台，开发者无需自行部署即可快速在线体验效果。

02 全层级数据集

网站整合了OpenBMB社区在数据治理方面的往期成果与最新实践，形成了覆盖各级的数据集矩阵：

L1级：多语言基础数据 DCAD-2000（累计下载222k，覆盖2282种语言）。
L2级：预训练核心数据 Ultra-FineWeb（累计下载406k，曾连续2周登顶HuggingFace Datasets Trending榜首）。
L3级：SFT/RL专用数据 UltraChat（据HuggingFace统计全球500+模型使用，位列第7）、UltraFeedback（全球1000+模型使用，位列第4）。
以及本次发布的 UltraData-Math 系列数据集。

结语

从提出科学方法论（论文），到落地实用工具（平台），再到提供优质资源（数据集），技术团队构建了“理论→实践→应用”的完整闭环。数据科学的未来在于开放协作，而非闭门造车。未来，团队希望团结更多学术界与工业界伙伴，并邀请全球开发者共同发展UltraData生态，共享优质数据、共建科学治理体系、共创面向AGI实践的新可能。

UltraData 网站：https://ultradata.openbmb.cn
HuggingFace 集合：https://huggingface.co/collections/openbmb/ultradata
UltraData-Math 数据集：https://huggingface.co/datasets/openbmb/UltraData-Math
分级体系论文：https://ultradata.openbmb.cn/blog/position-paper

上一篇：WordPress插件创业：从1到20，我是如何靠内容获客与交叉销售年入180万刀？
下一篇：Claude Opus 4.6早期测试揭秘：四大团队如何评估其代码与推理能力

大语言模型, 数据治理, 开源, UltraData, 模型训练