Interspeech 2025 | 腾讯优图实验室4篇论文入选,涵盖超声波活体检测、神经语音编解码、语音合成等方向
2025-07-10 18:22:15AI云资讯7727
近期,Interspeech 2025会议发出了审稿结果通知。Interspeech是由国际语音通信协会(ISCA)组织的语音研究领域的顶级会议之一,是全球最大的综合性语音信号处理领域的科技盛会。本届会议以“Fair and Inclusive Speech Science and Technology”为主题,内容涵盖语音识别、语音合成、语音编码、语音增强、自然语言处理等多个领域。
今年,腾讯优图实验室共有4篇论文入选Interspeech 2025,内容涵盖超声波活体检测、神经语音编解码、语音合成等方向,展现了优图实验室在语音研究领域的技术能力与创新突破。
以下为入选论文摘要:
1
LLM框架中用于鲁棒语音合成的单调注意力机制
Yike Zhang, Yiming Li(中科院计算所/优图实习生), Jie Chen, Qinghua Wu, Songjun Cao, Long Ma
基于大规模语言模型(LLM)的文本到语音(TTS)合成技术已展现出卓越性能并受到广泛关注。尽管此类方法生成的语音自然度出色,但其往往缺乏单调对齐约束,导致合成输出中出现重复、遗漏和对齐错误等问题。本文提出一种针对LLM架构设计的逐步单调注意力算法,以增强TTS合成的鲁棒性并有效解决上述缺陷。相较于现有最优模型VALL-E R,所提方法无需额外强制对齐器,且在域外测试集上表现出更强的鲁棒性。实验进一步表明,该方法能良好适配大规模模型参数与海量训练数据。
2
SonarGuard2:基于自适应多普勒效应特征提取的超声波活体检测
Xiaoming Zhang, Keyue Zhang, Taiping Yao, Songjun Cao, Shouhong Ding, Long Ma
人脸鉴伪对于人脸识别系统的安全性至关重要。基于视觉的人脸活体检测算法在面对视频攻击(如视频重放)时常常失效。然而,基于声波的活体检测可以依赖多普勒效应有效地检测此类攻击。为了提高活体检测的鲁棒性,我们提出了一种新颖的框架,名为SonarGuard2,该框架自适应地选择超声信号并分析多普勒效应。具体来说,我们引入了回声消除来过滤发射信号以获取多普勒效应特征,然后利用复数卷积神经网络来增强对多普勒效应特征的建模能力。此外,我们提出了一种在移动设备上判断超声信号可用性的新方法。在采集数据上的性能和可视化结果表明了我们框架的有效性。
3
Freecodec:更少tokens的解耦神经语音编码器
Youqiang Zheng(武汉大学/优图实习生), Weiping Tu(武汉大学), Yueteng Kang, Jie Chen, Yike Zhang, Li Xiao(武汉大学), Yuhong Yang(武汉大学), Long Ma
神经语音编解码器凭借其利用离散令牌表征实现的卓越重建效果而备受瞩目。它是语音编码和大型语言模型(LLM)等生成任务中的关键组件。然而,大多数基于残差矢量量化的方法由于在建模复杂耦合信息方面的编码效率较低,导致在使用较少令牌时性能欠佳。本文提出了一种名为FreeCodec的神经语音编解码器,它通过将语音的内在属性解耦到不同组件,采用了一种更有效的编码框架:提取一个全局向量作为音色信息;使用一个具有长步幅级别的韵律编码器来建模韵律信息;内容信息则来自一个内容编码器。
通过采用不同的训练策略,FreeCodec在重建和属性解耦场景下均实现了最优性能。主观和客观实验结果均表明,我们的框架优于现有方法。

论文链接:
https://arxiv.org/abs/2412.01053
4
MPE-TTS:基于多模态提示的情感可控zero-shot语音合成系统
Zhichao Wu(南京航空航天大学/优图实习生), Yueteng Kang, Songjun Cao, Long Ma, Qiulin Li(南京航空航天大学), Qun Yang(南京航空航天大学)
大多数现有的zero-shot语音合成(ZS-TTS)系统基于单一提示生成未见过的语音,例如参考语音或文本描述,这限制了它们的灵活性。我们提出了一种基于多模态提示的定制情感ZS-TTS系统。该系统将语音解耦为内容、音色、情感和韵律,允许以文本、图像或语音的形式提供情感提示。为了从这些提示中提取情感信息,我们提出了一种多模态提示情感编码器。此外,我们引入了一种类似大型语言模型(LLM)的韵律预测器,以适应韵律的分布,并提出了一种情感一致性损失,以保留预测韵律中的情感信息。采用基于扩散的声学模型生成目标梅尔谱图。客观和主观实验均表明,我们的系统在自然性和相似性方面优于现有系统。

论文链接:
https://arxiv.org/abs/2505.18453
相关文章
- 腾讯与特斯拉共同升级座舱体验,正式上线微信互联与目的地服务
- 腾讯游戏启动2026寒假未成年人保护专项行动,AI功能助力家庭科学管控
- 腾讯云助力炫佳科技全新升级一站式AI短剧平台 平均制作效率提升90%
- 生态共赢 赞同科技携手腾讯云斩获三项大奖
- 绿联科技联手腾讯游戏:打造“NAS+游戏”新生态,突破存储设备功能局限
- 腾讯云 WeData 升级三大 Data+AI 能力,位居一体化数据智能平台市场第一!
- 腾讯云智能体开发平台升级:做深平台、做厚内容、做强应用,构筑Agent产业合作新生态
- 从工具辅助到认知革命:天立与腾讯的战略共振如何重塑学习未来
- 腾讯云发布 AI 数据湖解决方案,支持 CPU和GPU 混合调度
- 智效跃迁,架构无界,第三届腾讯云架构师峰会圆满落幕!
- 腾讯云ADP国内首发AI原生Widget:一句话秒级生成交互组件,重塑Agent使用体验
- 绝味食品牵手腾讯打造AI会员智能体 满足消费者多元化需求
- 腾讯视频与北京电影学院达成战略合作 共建“AI影视联合实验室”
- 高端消费科技品牌 xTool 递表港交所:个人创意工具全球龙头,腾讯领投 2 亿美元 pre-IPO
- 四川具身科技新品发布,腾讯云全栈AI能力助力提升机器人情感交互能力
- 腾讯云Valkey社区贡献位居全球第一,率先在国内支持8.0版本
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
- 在MoltBot/ClawdBot,火山方舟模型服务助力开发者畅享模型自由
- 教程 | OpenCode调用基石智算大模型,AI 编程效率翻倍
- 全国首个!上海上线规划资源AI大模型,商汤大装置让城市治理“更聪明”
- 昇思人工智能框架峰会 | 昇思MindSpore MoE模型性能优化方案,提升训练性能15%+









