科大讯飞AI强势赋能讯飞输入法破解语音界棋局-爱云资讯

首页人工智能公司正文

不久前结束的国际消费类电子产品展览会CES2019让全世界看到了人工智能(AI)全面应用的未来，智能语音产品应用和服务成为AI落地的焦点。随着智能语音技术爆发临界点的到来，大众会越来越明显感受到AI给生活带来优越性，尤其是手机输入法语音输入方式带来颠覆性的、持续性的变革。

自2010年讯飞输入法发布业界首个中文语音输入，完成智能语音从概念技术到产品落地的华美转身。九年时间深入探索和研发，讯飞输入法通用语音识别率提升至98%，升级支持英日韩俄及23种方言语音等语音输入功能，让增进人机沟通无障碍的初衷得以实现，通过技术持续创新，向着更自然、更便捷、更智能的应用方向实践。2019年开年，科大讯飞AI升级强势赋能讯飞输入法，破解语音业界难掷一子的“珍珑棋局”，取得了前所未有的突破。

众所周知，科大讯飞首家推出深度全序列卷积神经网络(DFCNN，Deep Fully Convolutional NeuralNetwork)语音识别框架，使用大量卷积层直接对整句语音信号进行建模，获得出色的表达语音的长时相关性，相比循环神经网络(Recurrent Neural Network, RNN)结构在鲁棒性上更加出色，同时可以实现短延时的准在线解码。快速迭代是颠覆式创新的灵魂，科大讯飞携高屋建瓴的行业之势，基于Attention模型的核心思想，通过机器学习(ML，Machine Learning)的方法，构建了Hybrid CNN即混合的Attention CNN模型，从而在语音界保持在进化链的最前端。

前沿的Hybrid CNN模型用于构建语音识别声学模型的全局优化，仿照人类视觉机制，同时也借鉴人类大脑处理的一些优势，可谓效果更好、资源占用更小、模型更灵活的新一代语音识别系统。

具体地说，在DFCNN基础上，将传统卷积使用扩张卷积(Dilated conv)代替，让每个卷积输出都包含更大范围的信息，使得模型不使用池化层(pooling)也可以看到很长的语音段信息，从而实现对语音长时相关性的更精确的表达。与此同时，还引入了基于长短期记忆网络(Long Short-Term Memory，LSTM)的门控机制(Gated Mechanism，GM)，使得Hybrid CNN在长时相关性建模的过程中，能快速的过滤噪声等干扰信息，并加强语境等长时信息，进一步提升模型的抗干扰能力，从而在实际应用中能够保障高噪声等复杂场景的语音识别效果。

另一个比较重要的地方在于，本次Hybrid CNN模型真正实现了端到端的建模，此前的端到端建模方案如CTC等在输出端已经可以做到直接输出中文汉字，取得了一定的效果提升，但是在输入端仍然采用人工设计的特征，这些特征在语速很快等特殊场景下就会损失信息。科大讯飞这次以原始音频波形(Raw-wave)直接建模，避免了人工设计的特征提取过程带来的信息损失，真正的实现了端到端建模，进一步的提升了识别效果。

也正因为上述创新，使得Hybrid CNN这种前沿的语音识别框架克服了DFCNN模型参数量和计算复杂度大的问题。在保证识别效果不损失的情况下，系统资源占用规模和运算量同比下降了60%以上，使得Hybrid CNN可以在智能手机等移动设备上流畅运行，这也使得本地化语音的识别效果更加接近云端识别效果。

AI快速发展升级能给大众日常生活体验带来哪些不一样的体验呢？简单地说，下载使用讯飞输入法最新版(Android和iOS客户端)，不仅能够准确识别用户所说的普通话，而且支持中英混合语音输入，同时也优化了普通话与七种方言口音(东北话、天津话、河南话、皖北话、山东话、河北话、四川话)的混合语音输入效果，进一步增强语音用户的输入体验。

在复杂对话场景下，有了语音输入随心说，就大大减少用户手动切换语音识别模式的操作，畅快用普通话、英文、方言任意一种或中英混合、普通话与方言混合输入，有效提高语音用户日常的便捷性。

如今，智能语音技术已经进入成熟期，可以预见随着移动终端广泛应用，云计算、物联网、大数据关联领域的裂变式发展，不远的将来将迎来AI应用和服务的大爆发。

科大讯飞AI强势赋能讯飞输入法 破解语音界棋局

科大讯飞AI强势赋能讯飞输入法破解语音界棋局