3782 积分	0 好友	492 主题

阿里Fun-ASR 1.5语音模型解析：MoE架构、方言优化与97%古诗词识别率

发表于 2026-4-21 18:58:31 | 查看: 179| 回复: 0

会议纪要不用再手动校对。

阿里近日正式发布了其端到端语音识别大模型的新一代版本——Fun-ASR 1.5。该模型在多项核心能力上实现显著提升，致力于解决实际应用中的痛点。

Fun-ASR 1.5具备识别30种语言的能力，广泛覆盖中文七大方言体系及二十余种地方口音，并针对古诗词诵读进行了专项优化。该模型能够解析语音中的韵律，重点增强了标点预测和文本归一化功能，适用于会议纪要、新闻采访、法律笔录等多种场景。

语音信息堆积概念插画

根据技术团队公布的评测数据，Fun-ASR 1.5在多项指标上表现突出。在与Seed-ASR、Tencent-ASR等主流模型的对比中，Fun-ASR 1.5在西班牙语、葡萄牙语和英语的识别准确率均超过96分。

Fun-ASR 1.5多语言识别性能雷达对比图

在中文方言识别方面，Fun-ASR 1.5的表现同样出色。在包含15种高需求方言的工业测试集中，该模型在四川话、闽南话、长沙话、苏州话等13种方言的识别准确率上，超越了对比的Seed-ASR和Tencent-ASR模型。

Fun-ASR 1.5方言识别性能雷达对比图

在实际体验中，我们上传了一段环境嘈杂、发言人带口音的三星CES演讲录音。Fun-ASR 1.5不仅完整准确地转写了内容，还能根据语音语调，对关键语句（如“NO COMPANY CAN DO WHAT WE DO.”）进行自动大写强调，提升了转写结果的可读性。

FunAudio-ASR语音识别系统实测界面截图

目前，用户可以在魔搭社区在线体验该模型，开发者则可以通过阿里云百炼平台调用相关API。

Fun-ASR 1.5能够识别包括中、英、日、韩、法、德、西、葡、俄、阿拉伯语在内的30种主流语言。

Fun-ASR 1.5支持30种语言宣传图

其一大亮点在于出色的跨语言切换（Code-Switching）能力。在实际对话夹杂多种语言时，模型无需预先设置语种标签，即可自动识别并准确切换。例如，在一段同时包含英语和日语的文本中，模型能够无缝处理：

ASR结果：We‘ve all had that experience... There's even a term for this... Paris Syndrome. 何年も前から行きたかった場所をやっと訪れてみたら、思っていたほどではなかったという経験は誰しもあることだと思います。

这种强大的多语言能力得益于模型采用的MoE（混合专家）架构。在该架构下，模型内部的不同“专家”模块可以分工协作，当识别到特定语言时仅激活相关部分进行处理，从而实现了更高效、灵活的计算。

此外，团队在训练阶段采用了分级、分阶段的精准数据策略，使模型能更好地适应真实世界复杂的语音场景，这也是驱动AIGC应用落地的关键一环。

针对中文的复杂语言环境，Fun-ASR 1.5基于数十万小时的真实方言语音数据进行了训练。据称，其平均字错误率（CER）相比上一版本大幅下降了56.2%。

Fun-ASR 1.5方言覆盖能力详解图

模型不仅“听得懂”，还能“写得地道”，能够原汁原味地还原方言用字，例如准确输出上海话的“侬”、苏州话的“倷”，为下游的方言文本处理任务提供了高质量的语料基础。

除了现代口语，该模型还攻克了古诗词识别的难点。面对文言文语法特殊、生僻字多、诵读有固定节奏和拖腔等挑战，研究团队构建了涵盖从《诗经》到近代诗词的语音-文本对齐语料库进行专项优化。

在内部测试中，Fun-ASR 1.5对古诗词的字符级识别准确率达到了97%。这使其能够应用于国学在线课程、有声诗词等场景，为文化传承提供技术支持。

语音识别的最终目标是生成可直接使用的文本。Fun-ASR 1.5在后处理环节重点强化了标点预测和文本归一化（ITN） 能力，旨在直接减少会议纪要、采访整理等场景的后期编辑工作量。

智能标点预测：模型能够基于上下文语义，自动插入逗号、句号、问号等标点，使转写文本更符合书面语习惯。
- 输入语音：“今天天气怎么样啊我想出去走走但又怕下雨”
- 输出文本：“今天天气怎么样啊？我想出去走走，但又怕下雨。”
文本归一化提升：将口语中的非标准表达自动转换为规范格式。
- 数字：“三千五百六十二” → “3562”
- 日期：“二零二六年三月二十九号” → “2026年3月29日”
- 金额：“五万八千块” → “58000元”
- 电话：“幺三八零零幺三八零零零” → “13800138000”

长期以来，语音识别技术在会议、法律等专业场景的应用往往停留在“半自动”状态，识别结果需要大量人工校对，反而增加了工作负担。

阿里Fun-ASR 1.5针对这些实际痛点，在识别准确率（尤其是多语言和方言场景）、输出文本的规范性和可直接用性方面进行了定向优化。随着科大讯飞、百度、字节等公司的模型也在持续迭代，语音识别作为自然语言处理的关键入口，正从技术研发稳步走向规模化的产业应用。

对于开发者而言，这类模型的成熟和开放，大大降低了在各类产品中集成高质量语音能力的门槛。如果你想了解更多前沿的AI技术动态与深度解析，欢迎持续关注相关的技术社区与论坛。