在当前的人工智能发展热潮中,“Token”这个概念的份量正变得越来越重。它不仅是评估大模型调用量的核心指标,也是各大模型厂商进行服务计费的基本单位。
近日,在中国发展高层论坛2026年年会上,国家数据局局长刘烈宏的发言为这一技术概念赋予了更清晰的定义。他强调,Token“词元”不仅是智能时代的价值锚点,更是连接技术供给与商业需求的“结算单位”,为商业模式的落地提供了可量化的可能。 这也在官方层面为Token给出了明确的中文翻译:“词元”。
我国日均Token调用量超140万亿,较2025年底增长超40%
根据刘烈宏局长披露的数据,截至2025年年底,全国已建成的高质量数据集总量超过了10万个。而到了今年3月,我国日均Token(词元)调用量已经突破了140万亿。这是一个什么概念?与2024年初的约1000亿调用量相比,增长超过了1000倍;即便是对比2025年底的100万亿,在短短三个月内也实现了超过40% 的增长。
刘烈宏指出,日均Token调用量的激增,有力地证明了中国人工智能发展正步入快速增长通道。应用场景正在持续深化,智能体正从“能对话”向“能决策、能执行”演进,产业的整体竞争力显著增强。同时,这也标志着数据集的供给在大幅增加,数据要素的价值在不断释放,数据赋能AI创新已经形成了一个良性的互动循环。
据了解,下一步国家数据局将以实际场景需求为导向,加快推进相关领域的先行先试工作,旨在打造一批技术可行、实用便捷、质量可靠的高质量数据集,从而推动数据供给在“量”和“质”两个维度上实现全面提升。
什么是Token(词元)?
对于不熟悉技术细节的朋友来说,可能还是会好奇:Token到底是什么?
简单来说,在AI(特别是大语言模型)的世界里,Token(词元)是模型理解和生成信息时使用的最小处理单元。无论是用户输入的一段问题,还是AI模型生成的一篇回答、一段代码,在模型内部都会被拆解成一个个的Token来进行计算和理解。
正因为Token是衡量AI模型工作量的基本“颗粒”,所以Token的调用量直接反映了AI模型的活跃度和实际产生的产业价值。调用量越高,通常意味着模型被使用得越频繁,其创造的实际经济与社会价值也就越大。此次官方定名“词元”,并公布其惊人的增长数据,无疑为整个AI产业的发展注入了一针强心剂。
你对“词元”这个官方译名有什么看法?欢迎在云栈社区与广大开发者一起交流探讨。
|