您现在的位置是:首页 > 特别推荐 >

懂方言,通诗词,精通30国语言,阿里发布语音识别大模型Fun-ASR1.5

2026-04-20 18:09:56作者:来源:中国信息化周报

摘要4月20日,阿里巴巴发布端到端语音识别大模型Fun-ASR1 5 ,无需预设语种标签,单一模型即可高精度识别30种语言。 ...

4月20日,阿里巴巴发布端到端语音识别大模型Fun-ASR1.5 ,无需预设语种标签,单一模型即可高精度识别30种语言。

 此前,Fun-ASR1.0已用于钉钉AI听记、DingTalk A1录音机等智能硬件,在会议纪要、实时字幕、教育录播、智能客服等场景中获得广泛验证。全新升级的1.5版本旨在“听得更全更准、写得更规范”,覆盖中文七大方言体系及二十余种地方口音,并强化古诗词诵读的专项识别,将应用场景拓宽至跨国企业、国际会议、多语直播、县域政务服务以及古诗词教育等。

作为单一模型,Fun-ASR1.5可精准识别欧洲、东亚、东南亚、南亚及中东主流语种,覆盖中、英、日、韩、法、德、西、葡、俄、阿拉伯语等 30 种语言,在跨语言切换(Code-Switching)场景下——比如中英日交替,无需预设语种标签即可自动切换。

 灵活支持多语言的能力源于模型的架构和训练创新。MoE(混合专家)架构让模型内部“分工协作、按需激活,尺寸更大,可支持更多语言,同时也更为高效。在预训练阶段,不同阶段的模型匹配相应级别的数据,精准提升了模型对不同类型语音的处理能力。

 在中文本土化方面,基于数十万小时真实方言语音数据的“喂养”,Fun-ASR1.5的平均字错误率(Character Error Rate,CER)相比上一版本下降 56.2%。

 目前,模型支持吴语、粤语、闽南语、客家话、赣语、湘语、北方官话七大汉语方言体系,口音官话覆盖中原、西南、冀鲁、江淮、兰银、胶辽、东北、北京、港台等区域,涉及河南、四川、陕西、广东、山东、宁夏等二十多个地区,并重点优化了上海话、客家话、山西话、四川话、粤语、闽南话、河南话等 15 种高需求方言。

 不仅听得懂,还能“写得地道”,Fun-ASR1.5可原汁原味还原方言,如上海话“侬”、苏州话“”(均指“你”),为下游模型处理方言文字提供了准确的基础语料。

 文言语法特殊、典故生僻字繁多,Fun-ASR1.5对中文古诗词识别进行专项优化,研究团队构建了先秦至近代的古诗词语音-文本对齐语料库,涵盖《诗经》《楚辞》、李白杜甫诗集、苏轼辛弃疾词作等经典文本的真人诵读录音。在内部评测集中,Fun-ASR1.5 对古诗词的字符级准确率达到 97%,可应用于国学在线课程和有声诗词,助力文化传承。

 语音识别的终极价值在于生成可直接使用的文本。Fun-ASR1.5 在后处理环节实现了两项关键升级:一是基于上下文语义,可以自动插入标点符号,使转写文本接近书面表达;二是增强型文本归一化(ITN),可自动将口语中的非标准表达转换为规范格式,例如将“三千五百六十二”转为“3562”,将“幺三八零零幺三八零零零”转为“13800138000”,大幅降低了会议纪要、新闻采访整理、法律笔录等场景的后期人工校对和编辑成本。

即日起,Fun-ASR1.5 已在阿里云百炼平台提供API服务,用户还可在魔搭社区在线体验。


(本文不涉密)
责任编辑:路沙

站点信息

  • 运营主体:中国信息化周报
  • 商务合作:赵瑞华 010-88559646
  • 微信公众号:扫描二维码,关注我们