您现在的位置是：首页 > 特别推荐 >

懂方言，通诗词，精通30国语言，阿里发布语音识别大模型Fun-ASR1.5

2026-04-20 18:09:56作者：来源：中国信息化周报

摘要4月20日，阿里巴巴发布端到端语音识别大模型Fun-ASR1 5 ，无需预设语种标签，单一模型即可高精度识别30种语言。 ...

4月20日，阿里巴巴发布端到端语音识别大模型Fun-ASR1.5 ，无需预设语种标签，单一模型即可高精度识别30种语言。

此前，Fun-ASR1.0已用于钉钉AI听记、DingTalk A1录音机等智能硬件，在会议纪要、实时字幕、教育录播、智能客服等场景中获得广泛验证。全新升级的1.5版本旨在“听得更全更准、写得更规范”，覆盖中文七大方言体系及二十余种地方口音，并强化古诗词诵读的专项识别，将应用场景拓宽至跨国企业、国际会议、多语直播、县域政务服务以及古诗词教育等。

作为单一模型，Fun-ASR1.5可精准识别欧洲、东亚、东南亚、南亚及中东主流语种，覆盖中、英、日、韩、法、德、西、葡、俄、阿拉伯语等 30 种语言，在跨语言切换（Code-Switching）场景下——比如中英日交替，无需预设语种标签即可自动切换。

灵活支持多语言的能力源于模型的架构和训练创新。MoE（混合专家）架构让模型内部“分工协作、按需激活”，尺寸更大，可支持更多语言，同时也更为高效。在预训练阶段，不同阶段的模型匹配相应级别的数据，精准提升了模型对不同类型语音的处理能力。

在中文本土化方面，基于数十万小时真实方言语音数据的“喂养”，Fun-ASR1.5的平均字错误率（Character Error Rate，CER）相比上一版本下降 56.2%。

目前，模型支持吴语、粤语、闽南语、客家话、赣语、湘语、北方官话七大汉语方言体系，口音官话覆盖中原、西南、冀鲁、江淮、兰银、胶辽、东北、北京、港台等区域，涉及河南、四川、陕西、广东、山东、宁夏等二十多个地区，并重点优化了上海话、客家话、山西话、四川话、粤语、闽南话、河南话等 15 种高需求方言。

不仅听得懂，还能“写得地道”，Fun-ASR1.5可原汁原味还原方言，如上海话“侬”、苏州话“倷”（均指“你”），为下游模型处理方言文字提供了准确的基础语料。

文言语法特殊、典故生僻字繁多，Fun-ASR1.5对中文古诗词识别进行专项优化，研究团队构建了先秦至近代的古诗词语音-文本对齐语料库，涵盖《诗经》《楚辞》、李白杜甫诗集、苏轼辛弃疾词作等经典文本的真人诵读录音。在内部评测集中，Fun-ASR1.5 对古诗词的字符级准确率达到 97%，可应用于国学在线课程和有声诗词，助力文化传承。

语音识别的终极价值在于生成可直接使用的文本。Fun-ASR1.5 在后处理环节实现了两项关键升级：一是基于上下文语义，可以自动插入标点符号，使转写文本接近书面表达；二是增强型文本归一化（ITN），可自动将口语中的非标准表达转换为规范格式，例如将“三千五百六十二”转为“3562”，将“幺三八零零幺三八零零零”转为“13800138000”，大幅降低了会议纪要、新闻采访整理、法律笔录等场景的后期人工校对和编辑成本。

即日起，Fun-ASR1.5 已在阿里云百炼平台提供API服务，用户还可在魔搭社区在线体验。

(本文不涉密)
责任编辑：路沙

上一篇：Agent正杀入软件研发一线！全球超60位技术专家拆解AI落地困局，2026奇点智能技术大会收官

下一篇：软件正在重塑商用车研发体系