Interspeech 2025 | 腾讯优图实验室4篇论文入选,涵盖超声波活体检测、神经语音编解码、语音合成等方向
2025-07-10 18:22:15AI云资讯8905
近期,Interspeech 2025会议发出了审稿结果通知。Interspeech是由国际语音通信协会(ISCA)组织的语音研究领域的顶级会议之一,是全球最大的综合性语音信号处理领域的科技盛会。本届会议以“Fair and Inclusive Speech Science and Technology”为主题,内容涵盖语音识别、语音合成、语音编码、语音增强、自然语言处理等多个领域。
今年,腾讯优图实验室共有4篇论文入选Interspeech 2025,内容涵盖超声波活体检测、神经语音编解码、语音合成等方向,展现了优图实验室在语音研究领域的技术能力与创新突破。
以下为入选论文摘要:
1
LLM框架中用于鲁棒语音合成的单调注意力机制
Yike Zhang, Yiming Li(中科院计算所/优图实习生), Jie Chen, Qinghua Wu, Songjun Cao, Long Ma
基于大规模语言模型(LLM)的文本到语音(TTS)合成技术已展现出卓越性能并受到广泛关注。尽管此类方法生成的语音自然度出色,但其往往缺乏单调对齐约束,导致合成输出中出现重复、遗漏和对齐错误等问题。本文提出一种针对LLM架构设计的逐步单调注意力算法,以增强TTS合成的鲁棒性并有效解决上述缺陷。相较于现有最优模型VALL-E R,所提方法无需额外强制对齐器,且在域外测试集上表现出更强的鲁棒性。实验进一步表明,该方法能良好适配大规模模型参数与海量训练数据。
2
SonarGuard2:基于自适应多普勒效应特征提取的超声波活体检测
Xiaoming Zhang, Keyue Zhang, Taiping Yao, Songjun Cao, Shouhong Ding, Long Ma
人脸鉴伪对于人脸识别系统的安全性至关重要。基于视觉的人脸活体检测算法在面对视频攻击(如视频重放)时常常失效。然而,基于声波的活体检测可以依赖多普勒效应有效地检测此类攻击。为了提高活体检测的鲁棒性,我们提出了一种新颖的框架,名为SonarGuard2,该框架自适应地选择超声信号并分析多普勒效应。具体来说,我们引入了回声消除来过滤发射信号以获取多普勒效应特征,然后利用复数卷积神经网络来增强对多普勒效应特征的建模能力。此外,我们提出了一种在移动设备上判断超声信号可用性的新方法。在采集数据上的性能和可视化结果表明了我们框架的有效性。
3
Freecodec:更少tokens的解耦神经语音编码器
Youqiang Zheng(武汉大学/优图实习生), Weiping Tu(武汉大学), Yueteng Kang, Jie Chen, Yike Zhang, Li Xiao(武汉大学), Yuhong Yang(武汉大学), Long Ma
神经语音编解码器凭借其利用离散令牌表征实现的卓越重建效果而备受瞩目。它是语音编码和大型语言模型(LLM)等生成任务中的关键组件。然而,大多数基于残差矢量量化的方法由于在建模复杂耦合信息方面的编码效率较低,导致在使用较少令牌时性能欠佳。本文提出了一种名为FreeCodec的神经语音编解码器,它通过将语音的内在属性解耦到不同组件,采用了一种更有效的编码框架:提取一个全局向量作为音色信息;使用一个具有长步幅级别的韵律编码器来建模韵律信息;内容信息则来自一个内容编码器。
通过采用不同的训练策略,FreeCodec在重建和属性解耦场景下均实现了最优性能。主观和客观实验结果均表明,我们的框架优于现有方法。

论文链接:
https://arxiv.org/abs/2412.01053
4
MPE-TTS:基于多模态提示的情感可控zero-shot语音合成系统
Zhichao Wu(南京航空航天大学/优图实习生), Yueteng Kang, Songjun Cao, Long Ma, Qiulin Li(南京航空航天大学), Qun Yang(南京航空航天大学)
大多数现有的zero-shot语音合成(ZS-TTS)系统基于单一提示生成未见过的语音,例如参考语音或文本描述,这限制了它们的灵活性。我们提出了一种基于多模态提示的定制情感ZS-TTS系统。该系统将语音解耦为内容、音色、情感和韵律,允许以文本、图像或语音的形式提供情感提示。为了从这些提示中提取情感信息,我们提出了一种多模态提示情感编码器。此外,我们引入了一种类似大型语言模型(LLM)的韵律预测器,以适应韵律的分布,并提出了一种情感一致性损失,以保留预测韵律中的情感信息。采用基于扩散的声学模型生成目标梅尔谱图。客观和主观实验均表明,我们的系统在自然性和相似性方面优于现有系统。

论文链接:
https://arxiv.org/abs/2505.18453
相关文章
- 腾讯首发效率智能体工具集,打造“AI提效新标配”
- 腾讯发布CodeBuddy Security,用AI Agent实现更高效的代码审计
- 腾讯云ADP4.0发布:推出Claw模式,助力企业Agent规模化落地
- 腾讯董志强:AI Agent已成为众多企业“数字员工”,安全防护需要同步跟上
- Agent进入“生产级”时代!腾讯云ADP4.0发布,打造企业级 AgentOps平台
- 腾讯文档「人机双写」行业首发,原生接入WorkBuddy打造新一代AI办公工作台
- 未来智能与腾讯云达成战略合作,共筑AI Agent硬件与办公智能体新生态
- 腾讯QQ发布“新芽守护行动”,全面升级未成年人保护体系
- 腾讯云MongoDB获亚太游戏行业“三料第一”
- iCourt第二届全国法律人AI大赛走进腾讯,探见法律AI生态新未来
- 首汽约车与腾讯地图达成品牌战略合作 北京发车仪式圆满举行
- 双展联动!携手宝安区、腾讯云,洲明文博会硬核科技清单请查收!
- 腾讯云联合TC601提出国产 Data+AI平台五步转型路径
- 北京无限迭代与腾讯云和中国电信等公司共同荣获全球AI生态基石大奖
- 金山文档Skill、专家与连接器上架腾讯云WorkBuddy
- 腾讯云TVP走进银河通用×NVIDIA×福田戴姆勒,解码AI驱动产业硬核突围之路
人工智能企业
更多>>人工智能硬件
更多>>- 半导体质检新利器,上海兰宝传感CCD 线径检测实力出圈
- 续航流畅实力之选!一加 Turbo 6X 系列国补到手价 1274.15 元起
- 期末考倒计时 快来用三星Galaxy Tab S11系列提升自己的“题商”
- 海柔闪攀机器人双深位升级方案中国首秀!为超密存储和更高效率护航
- 技嘉于 COMPUTEX 2026 缔造 DDR5 世界纪录 勇夺10项全球超频冠军
- 上海智位机器人(DFRobot) 发布 seeMote Cap 与 seeMote Cube,帮助 Apple Vision Pro 开发者把真实工具带入 visionOS 应用
- 源自老牌科研院所积淀,默克蒂森全系列传感器与工控仪表赋能工业智造
- From AI, For AI:艾利特如何让机器人成为AI产业的“关键推动者”?
人工智能产业
更多>>人工智能技术
更多>>- 腾讯发布CodeBuddy Security,用AI Agent实现更高效的代码审计
- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力









