Interspeech 2025 | 腾讯优图实验室4篇论文入选，涵盖超声波活体检测、神经语音编解码、语音合成等方向-AI云资讯

近期，Interspeech 2025会议发出了审稿结果通知。Interspeech是由国际语音通信协会（ISCA）组织的语音研究领域的顶级会议之一，是全球最大的综合性语音信号处理领域的科技盛会。本届会议以“Fair and Inclusive Speech Science and Technology”为主题，内容涵盖语音识别、语音合成、语音编码、语音增强、自然语言处理等多个领域。

今年，腾讯优图实验室共有4篇论文入选Interspeech 2025，内容涵盖超声波活体检测、神经语音编解码、语音合成等方向，展现了优图实验室在语音研究领域的技术能力与创新突破。

以下为入选论文摘要：

LLM框架中用于鲁棒语音合成的单调注意力机制

Yike Zhang, Yiming Li(中科院计算所/优图实习生), Jie Chen, Qinghua Wu, Songjun Cao, Long Ma

基于大规模语言模型（LLM）的文本到语音（TTS）合成技术已展现出卓越性能并受到广泛关注。尽管此类方法生成的语音自然度出色，但其往往缺乏单调对齐约束，导致合成输出中出现重复、遗漏和对齐错误等问题。本文提出一种针对LLM架构设计的逐步单调注意力算法，以增强TTS合成的鲁棒性并有效解决上述缺陷。相较于现有最优模型VALL-E R，所提方法无需额外强制对齐器，且在域外测试集上表现出更强的鲁棒性。实验进一步表明，该方法能良好适配大规模模型参数与海量训练数据。

SonarGuard2:基于自适应多普勒效应特征提取的超声波活体检测

Xiaoming Zhang, Keyue Zhang, Taiping Yao, Songjun Cao, Shouhong Ding, Long Ma

人脸鉴伪对于人脸识别系统的安全性至关重要。基于视觉的人脸活体检测算法在面对视频攻击（如视频重放）时常常失效。然而，基于声波的活体检测可以依赖多普勒效应有效地检测此类攻击。为了提高活体检测的鲁棒性，我们提出了一种新颖的框架，名为SonarGuard2，该框架自适应地选择超声信号并分析多普勒效应。具体来说，我们引入了回声消除来过滤发射信号以获取多普勒效应特征，然后利用复数卷积神经网络来增强对多普勒效应特征的建模能力。此外，我们提出了一种在移动设备上判断超声信号可用性的新方法。在采集数据上的性能和可视化结果表明了我们框架的有效性。

Freecodec:更少tokens的解耦神经语音编码器

Youqiang Zheng(武汉大学/优图实习生), Weiping Tu(武汉大学), Yueteng Kang, Jie Chen, Yike Zhang, Li Xiao(武汉大学), Yuhong Yang(武汉大学), Long Ma

神经语音编解码器凭借其利用离散令牌表征实现的卓越重建效果而备受瞩目。它是语音编码和大型语言模型（LLM）等生成任务中的关键组件。然而，大多数基于残差矢量量化的方法由于在建模复杂耦合信息方面的编码效率较低，导致在使用较少令牌时性能欠佳。本文提出了一种名为FreeCodec的神经语音编解码器，它通过将语音的内在属性解耦到不同组件，采用了一种更有效的编码框架：提取一个全局向量作为音色信息；使用一个具有长步幅级别的韵律编码器来建模韵律信息；内容信息则来自一个内容编码器。

通过采用不同的训练策略，FreeCodec在重建和属性解耦场景下均实现了最优性能。主观和客观实验结果均表明，我们的框架优于现有方法。

论文链接：

https://arxiv.org/abs/2412.01053

MPE-TTS：基于多模态提示的情感可控zero-shot语音合成系统

Zhichao Wu(南京航空航天大学/优图实习生), Yueteng Kang, Songjun Cao, Long Ma, Qiulin Li(南京航空航天大学), Qun Yang(南京航空航天大学)

大多数现有的zero-shot语音合成（ZS-TTS）系统基于单一提示生成未见过的语音，例如参考语音或文本描述，这限制了它们的灵活性。我们提出了一种基于多模态提示的定制情感ZS-TTS系统。该系统将语音解耦为内容、音色、情感和韵律，允许以文本、图像或语音的形式提供情感提示。为了从这些提示中提取情感信息，我们提出了一种多模态提示情感编码器。此外，我们引入了一种类似大型语言模型（LLM）的韵律预测器，以适应韵律的分布，并提出了一种情感一致性损失，以保留预测韵律中的情感信息。采用基于扩散的声学模型生成目标梅尔谱图。客观和主观实验均表明，我们的系统在自然性和相似性方面优于现有系统。

论文链接：

https://arxiv.org/abs/2505.18453

Interspeech 2025 | 腾讯优图实验室4篇论文入选，涵盖超声波活体检测、神经语音编解码、语音合成等方向

相关文章

人工智能企业

人工智能硬件

人工智能产业

人工智能技术