准确率高达96.04%!阿里开源自研语音识别模型 DFSMN
2019-06-10 14:23:18AI云资讯986
近日,阿里巴巴达摩院机器智能实验室开源了新一代语音识别模型DFSMN,将全球语音识别准确率纪录提高至96.04%(这一数据测试基于世界最大的免费语音识别数据库LibriSpeech)。

对比目前业界使用最为广泛的LSTM模型,DFSMN模型训练速度更快、识别准确率更高。采用全新DFSMN模型的智能音响或智能家居设备,相比前代技术深度学习训练速度提到了3倍,语音识别速度提高了2倍。
语音识别模型 DFSMN
授权协议:MIT
开发语言:C/C++
操作系统:跨平台
GitHub地址:
https://github.com/tramphero/kaldi
语音识别技术一直都是人机交互技术的重要组成部分。有了语音识别技术,机器就可以像人类一样听懂说话,进而能够思考、理解和反馈。近几年随着深度学习技术的使用,基于深度神经网络的语音识别系统性能获得了极大的提升,开始走向实用化。基于语音识别的语音输入、语音转写、语音检索和语音翻译等技术得到了广泛的应用。

目前主流的语音识别系统普遍采用基于深度神经网络和隐马尔可夫(Deep Neural Networks-Hidden Markov Model,DNN-HMM)的声学模型,其模型结构如图所示。声学模型的输入是传统的语音波形经过加窗、分帧,然后提取出来的频谱特征,如 PLP, MFCC 和 FBK等。
而模型的输出一般采用不同粒度的声学建模单元,例如单音素 (mono-phone)、单音素状态、绑定的音素状态 (tri-phonestate) 等。从输入到输出之间可以采用不同的神经网络结构,将输入的声学特征映射得到不同输出建模单元的后验概率,然后再结合HMM进行解码得到最终的识别结果。
据了解,DFSMN模型就是在国际声学会议 ICASSP 2018 上做oral报告的 DFSMN(深度前馈序列记忆网络)。DFSMN使用基于BLSTM的统计参数语音合成系统作为基线系统,采用广泛使用的跳跃连接技术,在执行反向传播算法时,梯度可以绕过非线性变换。
著名语音识别专家,西北工业大学教授谢磊表示:“阿里此次开源的DFSMN模型,在语音识别准确率上的稳定提升是突破性的,是近年来深度学习在语音识别领域最具代表性的成果之一,对全球学术界和AI技术应用都有巨大影响。”
相关文章
- 生态共进:昆仑智云以阿里云认证伙伴身份,破解AI落地“最后一公里”
- 昆仑智云:以阿里云认证生态伙伴身份,破解企业AI“三无困境”
- 全来店亮相 2026 阿里云 PolarDB 开发者大会
- 阿里云支持鹰角3D新游《明日方舟:终末地》全球开服
- 风行在线携手阿里云通义大模型,AI漫剧创作平台“橙星梦工厂”,引领数字内容生产新范式!
- 阿里云AI火花大会:AI加速从单点创新迈向规模化落地
- 灵机一动亮相阿里云展:定义AI硬件的智能体操作平台
- Meta轻量MR头显Phoenix曝光,阿里巴巴/微美全息开启智能眼镜激烈争夺战
- 玻色量子计算云服务上线阿里云!面向全球开放,直面国际量子算力竞争!
- DFRobot亮相阿里云通义智能硬件展,软硬融合AI视觉方案获高度关注
- 定义AI时代隐私计算新标准,YoooTek联合阿里云无影发布 Glass-Box 架构
- 神眸携秋季新品亮相阿里云“秒物·智趣” 开启智能影像新纪元
- 西朗门业杨元嘉斩获阿里国际站2025真牛奖TOP10
- AI时代新媒体如何突围?在阿里巴巴北京举办
- 阿里云AI Landing Zone正式发布,助力企业从“上好云”到“用好AI”的战略升级
- 爱诗科技与阿里云达成全栈AI合作 AI视频服务全球化再启航
人工智能企业
更多>>人工智能硬件
更多>>- 忆联UH812a以极致存力破局大模型载入瓶颈,释放算力潜能
- 讯飞翻译机登陆MWC 2026,同传级沟通体验,多语种交流无压力
- 普恩志引领:2026半导体与高端制造前瞻——核心备件如何驱动产业革新与市场机遇
- 超旗舰降噪,殿堂级音质 索尼双芯超旗舰真无线降噪耳机WF-1000XM6正式发售
- 当AI学会“隐身”,手机才真正智能:三星Galaxy S26系列开启AI哲学的降维打击
- 全球首秀!讯飞AI眼镜亮相MWC,多模态同传大模型与极致轻量化设计 引领智能穿戴新风向
- 全球瞩目!荣耀携Robot Phone、Magic V6系列、荣耀MagicBook Pro 14 2026震撼亮相MWC 2026
- MWC直击:荣耀双旗舰搭载第五代骁龙8至尊版,助力智能手机下一代技术演进
人工智能产业
更多>>人工智能技术
更多>>- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
- 在MoltBot/ClawdBot,火山方舟模型服务助力开发者畅享模型自由
- 教程 | OpenCode调用基石智算大模型,AI 编程效率翻倍
- 全国首个!上海上线规划资源AI大模型,商汤大装置让城市治理“更聪明”
- 昇思人工智能框架峰会 | 昇思MindSpore MoE模型性能优化方案,提升训练性能15%+









