钉钉会议DR-SwWPE算法登上国际顶会ICASSP2024
2024-04-21 10:56:26爱云资讯阅读量:59969
4月14日-19日,国际声学、语音与信号处理会议ICASSP 2024在韩国首尔举办。在本次会议上,钉钉蜂鸣鸟音频实验室负责人冯津伟携全球首个集自适应滤波器和神经网络的混合架构的DR-SwWPE算法亮相,该算法实现了利用AI技术解决视频会议中关键的音频难题“去混响”,并已落地于钉钉F1、F2等视频会议一体机,相关论文被ICASSP 2024收录。
ICASSP是全世界规模最大、最全面的声学、语音和信号处理方面的国际会议,也是语音技术领域最具影响力的顶级学术会议之一,来自全球各地的学者、应用厂商代表共聚一堂,分享声学领域的最新研究成果,交流技术创新和落地场景应用,探讨全球语音技术的发展趋势。
在实际环境中,声音在会议室等密闭空间中传输会不可避免地与房间的墙面、天花板等发生反射和衍射,从而产生混响。去混响是语音领域最基础的、也是最难解的问题之一,在过去的一段时间里,全球的研究者们一直在努力尝试解决,但进展不明显。
在这一最前沿技术的国际舞台上,冯津伟介绍了钉钉蜂鸣鸟实验室提出的DR-SwWPE算法的研究背景、研究过程及最新应用成果,吸引了众多与会者参与讨论。其中,声学领域泰斗级专家 IEEE Fellow Tomohiro Nakatani 对这一算法突破给予了高度评价,他表示,这一算法在他的经典WPE算法理论上又做了进一步扩展,不仅有理论意义,也具有实用意义。
(冯津伟和 Tomohiro Nakatani 在论文前合影)
冯津伟介绍道,一个优秀的去混响算法需要满足对远场语音直达声失真尽可能小,保持比较高的目标语音PESQ指标,同时尽量将混响感降低,提升SRMR指标。面对现实中高动态范围的房间声学环境,去混响算法能够有较强的泛化能力和声学环境自适应能力,让远程会议声如其境。钉钉蜂鸣鸟实验室提出的最新DR-SwWPE算法则做到了这一点。
DR-SwWPE以data-resuse technique为出发点,通过严谨的数学推导和分析,首次从学术角度提出并且验证了麦克风阵列可以用自适应滤波器(adaptive filter)和神经网络(neural network,见下图)混合架构完成去混响任务。
这一架构提供了一个技术拓展平台,任何最新的自适应滤波器算法或者神经网络的算法都可以集成进这个混合架构之中,为行业去混响技术的发展也提供了更多想象空间。基于DR-SwWPE的线性自适应学习能力,其自适应滤波器部分可以有效处理混响中的线性部分,而神经网络的非线性建模能力能够有效处理混响中的非线性部分,二者结合形成互补,补足了当前各种纯自适应滤波器算法或者纯神经网络算法的不足。
此次,钉钉音视频DR-SwWPE登上ICASSP 2024这一顶级学术会议,代表着其背后的音频技术在学术领域进一步得到广泛认可。与此同时,另一篇关于个性化语音活动检测器VAD的研究论文也亮相此次会议,该算法的计算复杂度低和时延短,适合应用在实时会议系统中实现目标说话人的智能辨识,并有效抑制在开空间会议时周围人声的干扰音,提升语音质量。
钉钉蜂鸣鸟音频实验室旨在用传统信号处理结合深度学习算法,来解决实时语音通信碰到的复杂问题,提升钉钉会议的产品体验,并探索下一代音视频形态。其重点研究方向包括音频3A算法、多通道降噪去混响、声源定位、音视频多模态算法等。
- 钉钉亮相世界人工智能大会,分享AI落地千行百业的实践
- 钉钉为淘宝网商家开放私域运营能力,粉丝一键加群
- 钉钉CTO程操红:钉钉全面升级AI能力,探索企业应用场景和生态解决方案
- 有鹿机器人CEO陈俊波:用钉钉让公司变身成为一个Agent系统
- 宇树CMO王其鑫:聚焦AI机器人,携手钉钉探索数智化提效路径
- 奥比中光CIO肖乐:钉钉助力加速机器人视觉系统进化
- 钉钉战略客户部总经理邱达:AI大模型的进步,将带来全新形态的组织变革
- 聚焦制造业:钉钉联手创新奇智,以AI驱动行业高质量发展
- 钉钉将在北京召开2024年生态大会,发布7.6版本新功能
- 华为发布全新鸿蒙原生智能,支付宝、钉钉、同程旅行等基于意图框架打造原生智能体验
- 山港科技与钉钉深化战略合作,共创“智隼”系列安全产品
- 企业传统应用也能快速低门槛拥有AI助理,钉钉宜搭产品能力迎来全新升级
- 世界知名机器人企业上钉钉:宇树科技与钉钉达成战略合作
- 浙江大学管理学院与钉钉成立“浙大管院-钉钉数智组织联合实验室”
- 钉钉恒星计划:启动全新AI生态合作战略,助力SaaS生态伙伴AI转型
- 强强联合!钉钉携手鼎捷发布“全栈新一代IPD智能化解决方案”