Interspeech 2025 | 腾讯优图实验室4篇论文入选,涵盖超声波活体检测、神经语音编解码、语音合成等方向
2025-07-10 18:22:15爱云资讯2216
近期,Interspeech 2025会议发出了审稿结果通知。Interspeech是由国际语音通信协会(ISCA)组织的语音研究领域的顶级会议之一,是全球最大的综合性语音信号处理领域的科技盛会。本届会议以“Fair and Inclusive Speech Science and Technology”为主题,内容涵盖语音识别、语音合成、语音编码、语音增强、自然语言处理等多个领域。
今年,腾讯优图实验室共有4篇论文入选Interspeech 2025,内容涵盖超声波活体检测、神经语音编解码、语音合成等方向,展现了优图实验室在语音研究领域的技术能力与创新突破。
以下为入选论文摘要:
1
LLM框架中用于鲁棒语音合成的单调注意力机制
Yike Zhang, Yiming Li(中科院计算所/优图实习生), Jie Chen, Qinghua Wu, Songjun Cao, Long Ma
基于大规模语言模型(LLM)的文本到语音(TTS)合成技术已展现出卓越性能并受到广泛关注。尽管此类方法生成的语音自然度出色,但其往往缺乏单调对齐约束,导致合成输出中出现重复、遗漏和对齐错误等问题。本文提出一种针对LLM架构设计的逐步单调注意力算法,以增强TTS合成的鲁棒性并有效解决上述缺陷。相较于现有最优模型VALL-E R,所提方法无需额外强制对齐器,且在域外测试集上表现出更强的鲁棒性。实验进一步表明,该方法能良好适配大规模模型参数与海量训练数据。
2
SonarGuard2:基于自适应多普勒效应特征提取的超声波活体检测
Xiaoming Zhang, Keyue Zhang, Taiping Yao, Songjun Cao, Shouhong Ding, Long Ma
人脸鉴伪对于人脸识别系统的安全性至关重要。基于视觉的人脸活体检测算法在面对视频攻击(如视频重放)时常常失效。然而,基于声波的活体检测可以依赖多普勒效应有效地检测此类攻击。为了提高活体检测的鲁棒性,我们提出了一种新颖的框架,名为SonarGuard2,该框架自适应地选择超声信号并分析多普勒效应。具体来说,我们引入了回声消除来过滤发射信号以获取多普勒效应特征,然后利用复数卷积神经网络来增强对多普勒效应特征的建模能力。此外,我们提出了一种在移动设备上判断超声信号可用性的新方法。在采集数据上的性能和可视化结果表明了我们框架的有效性。
3
Freecodec:更少tokens的解耦神经语音编码器
Youqiang Zheng(武汉大学/优图实习生), Weiping Tu(武汉大学), Yueteng Kang, Jie Chen, Yike Zhang, Li Xiao(武汉大学), Yuhong Yang(武汉大学), Long Ma
神经语音编解码器凭借其利用离散令牌表征实现的卓越重建效果而备受瞩目。它是语音编码和大型语言模型(LLM)等生成任务中的关键组件。然而,大多数基于残差矢量量化的方法由于在建模复杂耦合信息方面的编码效率较低,导致在使用较少令牌时性能欠佳。本文提出了一种名为FreeCodec的神经语音编解码器,它通过将语音的内在属性解耦到不同组件,采用了一种更有效的编码框架:提取一个全局向量作为音色信息;使用一个具有长步幅级别的韵律编码器来建模韵律信息;内容信息则来自一个内容编码器。
通过采用不同的训练策略,FreeCodec在重建和属性解耦场景下均实现了最优性能。主观和客观实验结果均表明,我们的框架优于现有方法。

论文链接:
https://arxiv.org/abs/2412.01053
4
MPE-TTS:基于多模态提示的情感可控zero-shot语音合成系统
Zhichao Wu(南京航空航天大学/优图实习生), Yueteng Kang, Songjun Cao, Long Ma, Qiulin Li(南京航空航天大学), Qun Yang(南京航空航天大学)
大多数现有的zero-shot语音合成(ZS-TTS)系统基于单一提示生成未见过的语音,例如参考语音或文本描述,这限制了它们的灵活性。我们提出了一种基于多模态提示的定制情感ZS-TTS系统。该系统将语音解耦为内容、音色、情感和韵律,允许以文本、图像或语音的形式提供情感提示。为了从这些提示中提取情感信息,我们提出了一种多模态提示情感编码器。此外,我们引入了一种类似大型语言模型(LLM)的韵律预测器,以适应韵律的分布,并提出了一种情感一致性损失,以保留预测韵律中的情感信息。采用基于扩散的声学模型生成目标梅尔谱图。客观和主观实验均表明,我们的系统在自然性和相似性方面优于现有系统。
论文链接:
https://arxiv.org/abs/2505.18453
相关文章
- 荣耀x腾讯新闻APP折叠屏适配合作 联手提升用户阅读体验
- 腾讯云零信任堡垒机上线,安全效率两手抓
- 自然语言转SQL再突破!腾讯云TCDataAgent斩获国际榜单全球第三、国内第一
- ICCV 2025 | 腾讯优图实验室大模型8篇论文入选,涵盖风格化人脸识别、AI生成图像检测、多模态大语言模型等方向
- 腾讯云联合Gartner权威发布《Data+AI下一代数智平台建设指南》
- 腾讯云联合Gartner发布《Data+AI下一代数智平台建设指南》
- 腾讯应用宝全面升级,独家支持4K播放和300帧游戏画面
- 最高10倍加速!北京大学联合腾讯优图实验室将 GQA 改造成 MLA形式
- 腾讯发布系列公益数字化工具 与行业共同开启公益新想象
- ACL 2025 | 腾讯优图实验室大模型4篇论文入选,涵盖智能体、角色扮演、自动推理等方向
- 腾讯云首次亮相科技盛会VivaTech,助力欧洲企业掘金AI时代
- 腾讯云董志强:构建内生安全能力需要云平台高等级安全架构
- 3400亿研发铸就里程碑,腾讯云数据库核心专利首摘中国专利金奖
- 腾讯云 TVP 走进青岛啤酒,解码数字化驱动智慧零售增长引擎
- 腾讯云架构师技术沙龙 · 长沙站圆满落幕,共话AI驱动下的技术架构与前沿应用
- 腾讯云深耕山东成绩单:服务2万家企业,Top 10千亿企业8家选择腾讯云