“AI+音频”行业领先 网易云信论文成果获声学顶会 INTER-NOISE 高度认可
2021-08-05 16:29:57AI云资讯827
近日,第 50 届国际噪声控制工程会议(INTER-NOISE 2021)通过在线方式举办,由网易云信音频实验室完成的两篇论文被大会收录,获得国际公开认可。
本次入选的两篇论文聚焦在 AI 音频降噪和 AI 音乐检测两个方向,突破多个音频核心技术问题,自建国内行业中首个 AI 音乐检测模型,引起了从业者的强烈关注。与会者认为,随着 AI 应用的不断加深,音视频处理技术会随之提高,将带动产业朝着高质量方向发展。

(郝一亚博士正在进行论文演讲)
在大会期间,网易云信音频算法专家郝一亚博士连续两天发表论文演讲,进一步阐释网易云信在将 AI 深入应用音视频方面所做的努力和尝试,探讨 AI 助力音视频技术发展的可能性,并表示愿意与业内同仁共同进步,推动音视频的长足发展。
INTER-NOISE:物理声学历史最悠久的国际学术会议
国际噪声控制工程大会(INTER-NOISE)是由国际噪声控制工程学会(I-INCE)主办的系列国际学术与技术交流大会,是物理声学历史最悠久的国际学术会议。主办方 I-INCE 成立于 1974 年,由代表着噪声控制专业的国际专业协会和机构组成,目前成员包括来自40多个国家的50多个组织。
作为知名国际专业会议,INTER-NOISE大会每年在美洲、欧洲和非洲以及亚太地区轮流举行,主题聚焦在世界各地的噪音控制问题上,并且因其专业性和覆盖范围而有着巨大影响力——比如1972年在华盛顿第一次召开时,美国噪音控制法案(US Noise Control Act)正在审议之中,与会人员的积极交流和呼吁推动了后续法案的通过。
随着技术和各项基础能力的发展,现在的音频技术关注点和几十年以前,甚至十几年以前都有很大差别,噪声控制在现在及未来应该如何发展,发挥怎样的作用都是近年来在着重思考的问题,2019 年的会议主题是“噪声控制工程的影响”,2020 年的主题则是“噪音控制以改善环境,噪音和振动控制技术的进步”。

本届大会继续由 I-INCE 发起,美国噪声控制工程学会(INCE-USA)和 Pro Acustica (巴西)共同主办,美国声学学会、SAE 国际、西班牙声学学会和韩国噪声与振动工程学会参与联合举行。虽然因疫情原因,今年的活动只能以线上方式进行,但大会还是进行了精心策划和准备——包括在第一届会议活动地点举办仪式,纪念自 1972 年第一届国际噪声大会以来噪声控制取得的 50 年进展,以及通过聚焦的议题展望和推测未来 50 年可能取得的成就,会议主题也定为“噪声控制的下一个 50 年”。
2篇技术论文:突破多个音频核心技术问题
作为会议最重要的事项之一,本届大会按照已有的严格文章审核流程和标准——由三位细分领域的专家匿名交叉审核,最终再由 Technical Chair 最终选拔——收录了来自 25 个国家和地区的作者的 635 篇学术论文。
网易云信音频实验室被 INTER-NOISE 2021 收录的两篇论文分别是《一种基于神经网络的针对瞬时噪声控制的低计算复杂度噪声抑制方法》(A Neural Network Based Noise Suppression Method for Transient Noise Control with Low-Complexity Computation)和《一种使用梅尔频谱和频谱通量的基于卷积神经网络的实时音乐检测方法》(A Real-time Music Detection Method based on Convolutional Neural Network using Mel-Spectrogram and Spectral Flux)。

(来源:INTER-NOISE 2021官网)
第一篇论文聚焦在 AI 抑制“瞬间噪声”的问题,“瞬时噪声”是指键盘声、敲门声等这类突发性的声音。网易云信音频实验室针对 RTC 场景,成功研发落地了轻量级的、适合全平台终端的 AI 音频降噪算法。该算法使用了优化的谐波相关性(Modified Harmonic-Correlation),和独创的损失函数(Loss Function),在一个 RNN(Recurrent Neural Network)模型上进行训练。在终端运行时,算法结合了网易云信自研的 NENN 推理框架,在大幅提升降噪效果(SNRI and Speech Quality)的同时,保持了一个极低的运算复杂度。整体而言,网易云信研发的 AI 音频降噪算法同时兼顾了算法效果和计算开销,不仅适合实时处理,还能落地到各种运算能力有限的终端设备中,可以应用在包括会议场景、语聊房场景等目的仅为语音通话的场景中。目前,该算法已经应用在网易 POPO、网易有道乐读等具体的场景,并取得良好的效果。
第二篇论文聚焦在利用卷积神经网络算法对“有用信号”的检测和减损。通常来说,在 WebRTC 在音频处理中,大量的算法都是针对 Speech 信号进行设计,整体是一个 Speech EnHancement 系统,但是在 RTC 的场景中,有用信号(Desired Signal)不仅仅只有 Speech,还有一种常见信号就是音乐(比如音乐主播、音乐教学等场景中)。网易云信落地国内行业中首个 AI 音乐训练检测模型,这是结合了自研的帧间频域特征和一个轻量级神经网络,训练出了一个音乐检测率高、鲁棒性强、且计算开销小,适合在各个端侧落地的 AI 模型;通过对环境声音的检测,区分出音乐和非音乐场景,并基于此先验信息,对 RTC 中音频 APM 处理进行有针对性的调整,在保证语音信号质量的同时,大幅提高音乐信号的质量,可以应用在包括音乐教学、音乐直播等目标传输信号包含音乐的场景中。

(Music和Noise的检测准确率可以达到93%以上)
网易云信音频实验室:立足前沿厚积薄发
本次两篇论文被业内顶尖学术大会期刊收录,证明了网易云信音频实验室厚积薄发的技术实力:不仅能在国际上被同行认可,前沿技术获得突破,还能通过具体的场景发挥技术的价值,带领行业不断向前。
从行业角度看,RTC行业发展至今已经有二十年左右的时间,从小众产品变成几乎人人都会接触到的巨大产业,自然也带来激烈的市场竞争。随着行业逐渐成熟,粗放的市场环境过去之后,谁能带给用户更好的体验谁就具有核心竞争力,技术的重要性越来越突出。另外,实时音视频技术个性化场景要求越来越高,应对的环境也愈加复杂,传统的技术已经很难有大的优化空间,所以实时音视频企业倾向于成立 AI 实验室或 AI 项目组,专门负责 AI 在音视频中的应用研究,为客户提供更加便捷、易用、专业的音视频服务。
作为行业内首批音视频 AI 实验室之一,网易云信音频实验室自成立之初便秉承“把身临其境的音频感受带给用户”的使命感,不断把握前沿技术方向,攻克业内最难的技术瓶颈,将行业顶尖技术应用到产品中,进而实现用户体验的全面升级。

(网易云信音频实验室一角)
当前,网易云信音频实验室拥有 9 名核心成员,来自北大、中科院、南大、中科大等国内外顶尖高校及科研机构,100%拥有硕博学历。实验室重点研究 RTC 产品相关的音频处理技术,例如回声消除、降噪、自动增益控制等通话中长期应用的算法。同时,对最新技术方向也保持关注,例如空间音效、基于统计机器学习和深度学习的AI降噪、场景检测、啸叫检测等。
自成立以来,网易云信音频实验室除了保障产品的算法研发和优化需求之外,已提交专利数十项,获得网易集团创新奖「0-1 创新奖」。此次两篇论文被 INTER-NOISE 2021 的收录更是进一步奠定了网易云信在音频技术领域的领军者地位。接下来,网易云信音频实验室将在基础算法、模型方面加强研究,结合具体行业和应用场景,以技术创新引领产品创新,以技术升级驱动用户体验升级。
相关文章
- 周杰伦同款耳机 1MORE S20 Ultra 重磅发布,开启开放式音频全能新世代
- GETshow广州展圆满收官,瑞聆臻音便携音频新品惊艳全场
- 哈曼引领车内音频体验变革 迈向个性化、软件驱动新时代
- 腾讯音乐与长安汽车打造首个座舱AI声学技术研发中心 推动车载音频体验迈向生态协同
- 韶音OpenFit Pro横扫多项权威大奖,以硬核实力定义开放式音频新标杆
- QQ音乐首发上线TME CONNECT 业内首创母带级无线高保真音频直传技术
- 聚焦场景化声学创新 传音控股筑牢新兴市场音频技术壁垒
- 歌尔亮相GAS2026 全栈声学方案解锁智能眼镜AI音频新体验
- 苹果史上第二大交易:将以20亿美元收购音频初创公司Q.ai
- 技术赋能内容,喜马拉雅以智能推荐引领个性化音频新时代
- 酷狗音乐重塑蝰蛇全景声音频细节 专为smart精灵5号深度定制
- “超级秘书”来了!界环AI音频眼镜特别版首发搭载VUI2.0
- AI音频内容创作更高效,腾讯云“音频超能力”亮相2025中国新媒体大会
- 性能迭代驱动市场格局,BOYA mini系列以技术革新定义“轻专业”音频新标准
- 酷狗声学实验室建成!汇聚100余款终端设备 夯实音频技术专业优势
- HUAWEI SOUND及音频新品技术沟通会:深度解码「华为悦彰」技术,聆听家庭影院新标杆
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源









