您现在的位置是：首页 > 特别推荐 >

阿里发布两款语音新模型，指令遵循能力领跑，生僻字错率降至 5.3%

2026-03-02 13:38:55作者：来源：中国信息化周报

摘要3月2日，阿里发布两款语音新模型，基于参考音频的声音克隆模型Fun-CosyVoice3 5和无参考音频的音色设计模型Fun-AudioGen-VD。两款模型均引入了强大的“指令遵循”能力，自由控制声音的情感、语速、场景等，可用freestyle(自由风格模式)定制角色，适用于有声书、游戏、客服、播客、教育、直播等多个场景。...

　　3月2日，阿里发布两款语音新模型，基于参考音频的声音克隆模型Fun-CosyVoice3.5和无参考音频的音色设计模型Fun-AudioGen-VD。两款模型均引入了强大的“指令遵循”能力，自由控制声音的情感、语速、场景等，可用freestyle(自由风格模式)定制角色，适用于有声书、游戏、客服、播客、教育、直播等多个场景。

　　两款模型在同尺寸模型的基准评测中斩获多项SOTA。在Seed-TTS基准测试的中文“困难案例”指标中，Fun-CosyVoice3.5表现抢眼，词错误率 (Word Error Rate, WER)和说话人相似度 (Speaker Similarity, SSIM)均为最佳。同时，因为优化了“困难案例”的发音，生僻字句错率由15.2%降低到5.3%。

　　Fun-CosyVoice3.5支持freestyle指令控制，解决了传统克隆模型只会模仿不能指定角色的痛点。比如录制一个人的声音后，可以输入指令，假设其是一位资深客服，正在面对极度愤怒客户，回复的语气需要柔软、真诚、充满愧疚，并对客户的情绪感同身受。

　　Fun-AudioGen-VD专注“从无到有”的音色设计。在指令遵循能力和可控性的Instruct-TTS基准测试中超过gemini2.5-pro和gpt-4o-mini-tts。该模型不仅能根据描述定制音色和情感，还能同步模拟复杂的听觉环境，实现“人物 + 场景”的一体化。比如，在生成人声时，可添加指定类型的背景声音，如城市车流、雨声、风噪、战场炮火、警报声、无线电杂音、咖啡馆人声、俱乐部音乐、图书馆翻书声等。

　　两款模型在语音准确率、说话人相似度、韵律自然度和音质方面提升显著，主要得益于模型训练过程的优化。在强化学习中通过使用DiffRO和GRPO，增加了时长和韵律多通道的奖励。DiffRO(Differentiable Reward Optimization)意为“可微奖励优化”，由阿里通义实验室提出，专门用于优化 TTS 模型;GRPO(Group Relative Policy Optimization)意为组相对策略优化，通过对比不同答案来判断优劣，得到奖励。GRPO还被用在Flow Matching(流匹配，将噪声分布转为真实数据分布)的强化学习中，为业内首次使用于声音克隆模型。

　　此外，Fun-CosyVoice3.5所用的tokenizer帧率减半，提高了训练效率，并且首包延迟降低35%，大幅提升了实时交互体验。

　　即日起，用户可在阿里云百炼调用这两款最新模型。

(本文不涉密)
责任编辑：路沙

上一篇：2026 趋势前瞻：QA团队如何推动AI测试转型升级？

下一篇：阿里云百炼专属版登陆国际市场，加速全球企业构建专属AI引擎