智能语音快速发展需跨越三座“大山”

2019-02-22 15:45:29爱云资讯

智能语音

语音是语言的物质外壳,是人类区别与其他动物从而能够主宰世界的一种强大能力,是最直接、高效的信息沟通方式。在万物互联时代,随着机器学习技术的快速发展,大规模场景数据的不断积累,算力的指数级提升, 语音逐渐成为人机交互的全新入口。从手机端语音助手到智能音响、智能车载设备……

智能语音

已经由最初消费者娱乐时的调侃型应用,发展到如今可解决各种实际问题的功能性平台。语音技术的赋能(即Speech+),为各个垂直领域开辟出了全新价值。

数据+算法+算力

推动智能语音技术飞速发展

IDC(国际数据公司)最新发布的报告《2019年全球IT产业预测》中指出,AI将成为全新的用户接口,到2024年,支持AI的用户界面和流程自动化将取代目前三分之一基于屏幕的应用程序;到2022年, 至少30%的企业将使用会话语音技术进行客户维护工作。

近年来智能语音技术的飞速发展背后有三个推动力,这三大因素的组合造就了人工智能和智能语音技术的发展:第一,随着互联网技术以及手机等移动终端的普及应用,大量的真实场景和用户语料资源得到积累和沉淀,这为语音识别中的语言模型和声学模型的训练提供了丰富的资源,使得构建大规模语言模型和声学模型成为可能。第二,以深度学习为代表的机器学习和人工智能的发展和突破, 使得语音识别模型对复杂数据的挖掘和学习能力得到了空前的提升,使得更大规模的海量数据的作用得以充分的发挥。第三,支持大数据和深度学习的大计算能力提升,规模计算能力为技术变革奠定了基础。

“鲁棒性”、个性化、低资源

智能语音深化应用需跨越三座大山

在以上三大助力的赋能之下,智能语音在技术层面已具备根基,但若要在人机交互领域取得绝对性主导地位,抛开语义理解这个挑战不谈,目前的智能语音发展还面临语音识别“鲁棒性”、个性化、低资源三大主要瓶颈, 在性能、成本、智能程度上仍需继续深耕。

语音识别“鲁棒性”问题。在生物学中,有个术语叫做“鲁棒性”,是指系统在扰动或不确定的情况下,仍能保持它的特征行为。这一问题在包括语音识别领域在内的众多AI领域也同样存在。

语音识别整个过程包含语音信号处理、语音检测与增强、声学特征提取、声学建模、语言模型、解码搜索等多个环节。语音信号的多样性和复杂性对每个模块都有影响,因此在真实使用场景中,语音识别的“鲁棒性”(稳健性)是非常重要的挑战。特别是语音交互从近讲走向远讲,场景发生了变化,语音交互跨界声学、信号处理和机器学习三个领域。声学上带来的影响众多,包括声学回波、目标移动、房间混响、各种背景噪音、干扰声源等, 语音识别的准确率会大打折扣。

个性化。基础语音识别和合成效果稳定后,下一步就是追求差异化或个性化。语音服务应该为每个场景、每个用户来深度定制,提高交互服务的粘合度。例如,开车导航时,男性就可能喜欢用林志玲的声音,女性可能就喜欢用岳云鹏的声音。如果语音合成只有一个声音,大家就会觉得很无聊,因此需要做出个性化的声音来满足大家个性化需求,这对技术也有非常大的考验。

低资源场景的挑战。人工智能行业内流传一句话:“有多少人工,就有多少智能。”智能语音作为人工智能的重要分支,在数据标注、计算资源、模型自适应等方面也都需要大量的人力财力投入。如何投入更少的资源来获取更多更有效的成果,也是目前智能语音技术需要探索的一大重点。

深度学习+迁移学习+关键词检出

迎接智能语音新挑战

瞄准智能语音技术的三大挑战, 同盾智能语音实验室做了众多探索, 包括智能语音降噪、小数据迁移学习、低资源关键词检出等方面,有效提高了智能语音交互的体验。

基于深度学习的智能语音降噪。在各种实际语音交互场景(比如智能客服)中,用户语音不可避免的带有噪声,噪声严重影响语音识别的准确率。传统基于统计信号处理的方法很难解决一些棘手的突发或非平稳噪声。通过深度学习的方法,用数据驱动的思路来降噪,借助大数据有效地去学习语音和非语音之间的结构关系,从而可以获得非常理想的降噪效果。此外,同盾语音团队还尝试把人的“注意力机制”引入到深度学习算法中, 更好地解决突发噪声问题。

基于深度学习的语音识别说话人自适应。在很多时候,通用语音识别的测试准确率已经较为理想,但是“千人千音”,每个人的口音造成了每个人机器语音识别性能的差异。通过深度学习的方法,基于小样本迁移学习, 让模型适应不同人的口音,实现通过少量目标说话人数据提升语音识别性能的目标,提升模型效率。

低资源关键词检出。关键词检出是指从一段语音流中检测出关注的部分,在语音内容理解与信息挖掘中具有重要的作用。例如,在智能客服对话中,通过检测一些关键词,来挖掘用户的需求,理解用户。同样的,智能音箱交互的“唤醒词”、命令控制都是属于关键词检出任务,通过比较轻量级的资源去做关键词检出,并不断提升关键词检出的鲁棒性和适应性, 来提高交互准确率。

相关文章
热门文章
头条文章
重点文章
推荐文章
热点文章
关于我们|联系我们|免责声明|会展频道
冀ICP备2022007386号-1 冀公网安备 13108202000871号 爱云资讯 Copyright©2018-2023