准确率高达96.04%!阿里开源自研语音识别模型 DFSMN
2019-06-10 14:23:18AI云资讯932
近日,阿里巴巴达摩院机器智能实验室开源了新一代语音识别模型DFSMN,将全球语音识别准确率纪录提高至96.04%(这一数据测试基于世界最大的免费语音识别数据库LibriSpeech)。
对比目前业界使用最为广泛的LSTM模型,DFSMN模型训练速度更快、识别准确率更高。采用全新DFSMN模型的智能音响或智能家居设备,相比前代技术深度学习训练速度提到了3倍,语音识别速度提高了2倍。
语音识别模型 DFSMN
授权协议:MIT
开发语言:C/C++
操作系统:跨平台
GitHub地址:
https://github.com/tramphero/kaldi
语音识别技术一直都是人机交互技术的重要组成部分。有了语音识别技术,机器就可以像人类一样听懂说话,进而能够思考、理解和反馈。近几年随着深度学习技术的使用,基于深度神经网络的语音识别系统性能获得了极大的提升,开始走向实用化。基于语音识别的语音输入、语音转写、语音检索和语音翻译等技术得到了广泛的应用。
目前主流的语音识别系统普遍采用基于深度神经网络和隐马尔可夫(Deep Neural Networks-Hidden Markov Model,DNN-HMM)的声学模型,其模型结构如图所示。声学模型的输入是传统的语音波形经过加窗、分帧,然后提取出来的频谱特征,如 PLP, MFCC 和 FBK等。
而模型的输出一般采用不同粒度的声学建模单元,例如单音素 (mono-phone)、单音素状态、绑定的音素状态 (tri-phonestate) 等。从输入到输出之间可以采用不同的神经网络结构,将输入的声学特征映射得到不同输出建模单元的后验概率,然后再结合HMM进行解码得到最终的识别结果。
据了解,DFSMN模型就是在国际声学会议 ICASSP 2018 上做oral报告的 DFSMN(深度前馈序列记忆网络)。DFSMN使用基于BLSTM的统计参数语音合成系统作为基线系统,采用广泛使用的跳跃连接技术,在执行反向传播算法时,梯度可以绕过非线性变换。
著名语音识别专家,西北工业大学教授谢磊表示:“阿里此次开源的DFSMN模型,在语音识别准确率上的稳定提升是突破性的,是近年来深度学习在语音识别领域最具代表性的成果之一,对全球学术界和AI技术应用都有巨大影响。”
相关文章
- 阿里云与天猫启动“AI新品类联合计划” ,支持智能硬件规模化发展
- 阿里云与Omdia联合发布AI安全报告,引领构建全新AI安全范式
- 阿里云 2025首届「AI安全」全球挑战赛完美收官,展现大模型安全攻防新高度
- 模型即服务,应用即未来:阿里云助力中小企业AI应用规模化落地
- 叫叫与阿里云达成全栈AI战略合作 让教育更“懂孩子”
- Zenlayer 亮相 2025 云栖大会,荣获阿里云首批云网络产品能力认证伙伴
- 在阿里云上,跑出中小企业AI应用规模化的“加速度”
- 亚信科技、阿里云达成“能力中心”合作,联办大模型论坛
- 德明利亮相阿里云栖大会,首秀企业级存储产品及解决方案
- 英特尔助力阿里云推出多款云实例与存储方案,共筑AI时代云端算力基石
- 方直科技与阿里云达成AI全栈战略合作, 开启儿童智能陪伴新征程
- BetterYeah AI联手阿里云推出电商行业AI Agent解决方案
- 汉数科技携手阿里云,打造 AI 大模型时代的高质量数据云
- 德勤、SAP、阿里云联手发布“智企三百计划“
- 值得买科技携“海纳”MCP Server亮相阿里云栖大会,驱动AI应用生态协同创新发展
- 阿里云发布全新AI员工“万小智”,赋能中小微企业开启智能经营时代









