您现在的位置是:首页 > 特别推荐 >
识别准、尺寸小、可免费商用,千问语音模型Qwen3-ASR全面开源!
2026-01-30 11:03:34作者:来源:中国信息化周报
摘要 1月29日晚,阿里开源千问语音识别模型Qwen3-ASR系列,在数项权威评测中斩获开源最佳(SOTA),性能直逼当前顶级闭源模型。...

Qwen3-ASR底座模型是Qwen3-Omni,结合创新的预训练 AuT 语音编码器,实现了语音识别的精准与稳定性的突破,此次开源1.7B和0.6B两个版本。其中,Qwen3-ASR-1.7B 模型语音识别准确率极强,在中文、英文、中文口音与歌唱识别等场景下达到开源最佳 SOTA,具有复杂文本识别能力以及强噪声下的稳定性;而Qwen3-ASR-0.6B 模型则在性能与效率上实现了最佳平衡,在保证语音识别准确率的情况下,128 并发异步服务推理能够达到 2000 倍吞吐,相当于可在10 秒钟处理五个小时以上的音频,同时在离线与在线推理场景下都能保持极低实时率RTF,可轻松满足大规模部署和实时服务的需求。
Qwen3-ASR系列模型实现了语言识别种类的极致扩展,1.7B 与 0.6B模型原生支持多达 30 个语种的语种识别与语音识别,以及22 个中文口音与方言语音识别,还有多个国家与地区的英文口音识别。在汉语领域,Qwen3-ASR-1.7B 整体领先GPT-4o-Transcribe等闭源 API ,方言识别的平均错误率比 Doubao-ASR还要再低 20%。现在,广东话、“港味普通话”和英语混着讲也能被Qwen3-ASR精准识别,新模型还能轻松拿捏语速超快的说唱歌曲,即便在复杂环境中,比如老人/儿童语音、强噪声、鬼畜重复等挑战场景,Qwen3-ASR仍能稳定输出,错误率极低。
此外,为推动AI社区技术创新,阿里此次还一次性开源了自研的语音强制对齐模型 Qwen3-ForcedAligner-0.6B,以及全面易用的推理框架,支持基于 vLLM 的 batch 推理、异步服务、流式推理 、时间戳预测功能等,加速产业落地。
据了解,阿里已开源语音合成模型Qwen3-TTS、语音识别模型Qwen3-ASR、全模态模型Qwen3-Omni、视觉理解模型Qwen3-VL、图片生成模型Qwen-Image和编辑模型Qwen-Image-Edit等,是多模态领域开源最广泛、最深入的模型家族。截至目前,阿里已开源400余个模型,千问模型的全球下载突破10亿,衍生模型数突破20万个,模型采用率超53%,远高于第二名Meta-Llama的15%和第三名Google-Gemma的14%,千问大模型已成为公认的全球第一开源模型家族。
(本文不涉密)
责任编辑:路沙





