科大讯飞AI强势赋能讯飞输入法 破解语音界棋局
2019-01-25 15:24:22AI云资讯1822

自2010年讯飞输入法发布业界首个中文语音输入,完成智能语音从概念技术到产品落地的华美转身。九年时间深入探索和研发,讯飞输入法通用语音识别率提升至98%,升级支持英日韩俄及23种方言语音等语音输入功能,让增进人机沟通无障碍的初衷得以实现,通过技术持续创新,向着更自然、更便捷、更智能的应用方向实践。2019年开年,科大讯飞AI升级强势赋能讯飞输入法,破解语音业界难掷一子的“珍珑棋局”,取得了前所未有的突破。

众所周知,科大讯飞首家推出深度全序列卷积神经网络(DFCNN,Deep Fully Convolutional NeuralNetwork)语音识别框架,使用大量卷积层直接对整句语音信号进行建模,获得出色的表达语音的长时相关性,相比循环神经网络(Recurrent Neural Network, RNN)结构在鲁棒性上更加出色,同时可以实现短延时的准在线解码。快速迭代是颠覆式创新的灵魂,科大讯飞携高屋建瓴的行业之势,基于Attention模型的核心思想,通过机器学习(ML,Machine Learning)的方法,构建了Hybrid CNN即混合的Attention CNN模型,从而在语音界保持在进化链的最前端。
前沿的Hybrid CNN模型用于构建语音识别声学模型的全局优化,仿照人类视觉机制,同时也借鉴人类大脑处理的一些优势,可谓效果更好、资源占用更小、模型更灵活的新一代语音识别系统。
具体地说,在DFCNN基础上,将传统卷积使用扩张卷积(Dilated conv)代替,让每个卷积输出都包含更大范围的信息,使得模型不使用池化层(pooling)也可以看到很长的语音段信息,从而实现对语音长时相关性的更精确的表达。与此同时,还引入了基于长短期记忆网络(Long Short-Term Memory,LSTM)的门控机制(Gated Mechanism,GM),使得Hybrid CNN在长时相关性建模的过程中,能快速的过滤噪声等干扰信息,并加强语境等长时信息,进一步提升模型的抗干扰能力,从而在实际应用中能够保障高噪声等复杂场景的语音识别效果。
另一个比较重要的地方在于,本次Hybrid CNN模型真正实现了端到端的建模,此前的端到端建模方案如CTC等在输出端已经可以做到直接输出中文汉字,取得了一定的效果提升,但是在输入端仍然采用人工设计的特征,这些特征在语速很快等特殊场景下就会损失信息。科大讯飞这次以原始音频波形(Raw-wave)直接建模,避免了人工设计的特征提取过程带来的信息损失,真正的实现了端到端建模,进一步的提升了识别效果。
也正因为上述创新,使得Hybrid CNN这种前沿的语音识别框架克服了DFCNN模型参数量和计算复杂度大的问题。在保证识别效果不损失的情况下,系统资源占用规模和运算量同比下降了60%以上,使得Hybrid CNN可以在智能手机等移动设备上流畅运行,这也使得本地化语音的识别效果更加接近云端识别效果。

AI快速发展升级能给大众日常生活体验带来哪些不一样的体验呢?简单地说,下载使用讯飞输入法最新版(Android和iOS客户端),不仅能够准确识别用户所说的普通话,而且支持中英混合语音输入,同时也优化了普通话与七种方言口音(东北话、天津话、河南话、皖北话、山东话、河北话、四川话)的混合语音输入效果,进一步增强语音用户的输入体验。

在复杂对话场景下,有了语音输入随心说,就大大减少用户手动切换语音识别模式的操作,畅快用普通话、英文、方言任意一种或中英混合、普通话与方言混合输入,有效提高语音用户日常的便捷性。
如今,智能语音技术已经进入成熟期,可以预见随着移动终端广泛应用,云计算、物联网、大数据关联领域的裂变式发展,不远的将来将迎来AI应用和服务的大爆发。
相关文章
- 科大讯飞发布玲珑Agent OS,让AI真正走进企业核心业务流
- 2026中国翻译协会年会召开,科大讯飞携多语言AI翻译产品矩阵亮相并获评5A级企业认证
- 科大讯飞佛山人工智能产业基地正式启用,助力南海构建AI产业生态
- 科大讯飞重磅布局智能穿戴,讯飞AI眼镜开启跨语言沟通新时代
- 科大讯飞AstronClaw升级,引领AI Agent从对话走向执行
- 科大讯飞亮相2026联合国中文日,让语言无界,让文化共鸣
- 打造办公新模式,科大讯飞三大核心“AI+办公”大模型在成都发布
- 科大讯飞AIPC华东制造基地正式投产,软硬智造一体出场即“数字员工”
- 科大讯飞与苏移集成签署战略合作协议,共推具身智能产业升级
- 从硬件集成到软核共研,科大讯飞与北京人形机器人创新中心深化合作
- 科大讯飞与金光集团签约战略合作,携手推动印尼人工智能转型
- MWC 2026 | 科大讯飞全球首发AI眼镜,多款AI产品全新升级
- 科大讯飞AI学习机T90系列重磅发布,开启个性化学习新时代
- 科大讯飞携手天津河西区:探路“人民城市”数字底座,为基层减负增效
- 科大讯飞ANYPIN获2026德国iF设计奖,以隐形科技重塑AI录音新体验
- 科大讯飞将亮相MWC2026,推动安全、可部署AI走向全球行业
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源









