研究者受启发模拟听觉处理过程提升AI语音识别能力-爱云资讯

首页人工智能技术正文

将特定的一段声音从繁杂的大环境中分离出来是十分复杂的，但是在人类的下位听觉通路中，我们就可以将某些单一声源从背景中分离出来，并可在空间中定位声源位置。受到以上神经生理学过程的启发，研究人员发表了一篇关于通过声源定位和自动语音识别等声音识别组件测试面部特征影响的设计方案。

人工智能语音识别能力

研究者指出，人体的躯干、头部和耳廓会吸收和反弹声波并改变声音的频率。当声波到达耳蜗和柯替氏器时，后者会因声波震动产生神经讯号。然后这些神经讯号会通过听觉神经系统被传送到耳蜗神经核，耳蜗核随后将信息分别传送到判断音源方向的上橄榄体和定位音源位置的外侧上橄榄体上。最后，两股信息再被汇总到大脑的下丘核。

为了用算法模拟这一神经过程，研究者们设计了一种机器学习架构来处理两款机器人听到的声音。为了测试系统的表现，研究者们用Soundman建立了SSL和ASR基准线。研究团队发现来自SSL的数据可以帮助调整机器头颅的姿态以及选择适合的渠道向ASR系统提供信息，从而提高语音识别准确率。动态SSL实验的结果显示机器学习系统可以处理不同种类的回声，这些研究成果是此前静态SSL成果的延伸。

研究者受启发 模拟听觉处理过程提升AI语音识别能力

研究者受启发模拟听觉处理过程提升AI语音识别能力