腾讯多媒体实验室肖玮:深度学习多角度助力语音通信,带来沉浸式音视频体验
2019-11-07 17:34:41AI云资讯965
随着5G时代的正式到来,又一次产业革命大潮正在悄然而至,人工智能、物联网loT、云计算、5G等前沿技术出现在大众视野。11月6日-7日,Techo开发者大会在北京举行,在音视频及通信专场上,腾讯多媒体实验室专家研究员肖玮带来以“信号处理遇见深度学习,语音通信新技术的研发实践”为主题的演讲,从语音通信面临的挑战,以及智慧语音通信技术的发展两方面介绍深度学习为语音通信带来的创新。

(腾讯多媒体实验室专家研究员 肖玮)
Techo开发者大会由腾讯云发起,汇聚全球顶尖行业专家和技术爱好者,通过一场主论坛、18个技术方向分论坛和多场创新互动活动,为全球开发者搭建一个开放、中立、活跃的技术平台,助力于开发者的能力成长和实践创新。本届大会聚集来自全球5000多位开发者,并邀请超150位业界大咖围绕前沿技术发展进行分享和交流。
作为多媒体技术的重要组成部分,语音通信扮演着非常重要的角色,而语音通信体验则成为了打造沉浸式多媒体体验的关键一步。
相较于模拟信号时代的语音通信,数字信号时代的语音通信在流程上要复杂许多。“从技术层面出发,语音通信主要存在三个技术挑战。”据肖玮介绍,其一,信源层面上,如何获得近似无噪声、无回声、无混响的声音信号源?其二,传输链路层面上,如何兼容不同的的压缩与传输标准,并确保传输稳定?其三,工程化层面上,如何确保功能模块在维持低复杂度的同时,做到更优秀的性能及低时延?这三项挑战成为摆在语音通信技术面前的“三座大山”。
看似简单的数字语音通信,其实存在着众多需要解决的问题以及复杂的流程,想要打造一套具备普适性的语音通信系统,自然少不了深度学习的助力。
肖玮介绍,多媒体实验室将深度学习应用于信号处理过程中,一方面,基于深度学习,对瞬态等非平稳噪声形成有效抑制,实现语音增强;另一方面,结合经典信号处理和深度学习设计了音频超分技术,前向兼容现有协议前提上,提升信号的分辨率,将窄带语音输入腾讯云,补足窄带语音所丢失的部分,提升回放内容质量。同时,轻量级设计方法,能够保证模型小,可以在云端(支持大并发)或者终端(低功耗)部署。
此外,由于信号传输过程中可能出现的衰减等问题,在转码的过程中很容易出现转码失真的情况,影响音频回放的质量。为了解决这一问题,打造了一套盲式下行后处理技术。该技术兼容包括ITU-T G.711在内的各种标准协议,并且可以与音频超分协同;无需修改现有的通信协议,可降低转码失真,同时具备便于部署的轻量级建模的特性。
“借助深度学习,我们打通了从上行到传输再到下行的完整链路,这一系列技术不仅性能强大,同时又具备着轻建模,易部署的特性,能够广泛应用于基于数字信号传播的语音通话中。”肖玮表示,基于深度学习手段,腾讯多媒体实验室将语音信号处理与人工智能技术进行深入结合,打造出端到端的智慧语音通信解决方案,实现自然的人与人之间的交流。
作为腾讯旗下顶尖的音视频通信和处理研发团队,腾讯多媒体实验室在标准制定方面已经取得了令人瞩目的成绩,有近50项提案被下一代视频编码标准VVC/H.266采纳。此外,在虚拟现实(VR)、点云(PCC)、网络传输协议 (DASH)、多媒体系统(OMAF、CMAF、NBMP) 等相关多媒体标准中也取得了突破性进展,获得多项标准核心专利。
在5G浪潮下,多媒体的技术和形式不断发生改变,高效率低延迟的传输,带来了更丰富的落地场景,让8K、VR、AI更加触手可及。腾讯多媒体实验室也开始在沉浸式媒体和泛媒体方向发力,目前,多媒体实验室已经产出了相应的SDK(软件开发工具包)供文旅以及教育行业使用,未来将会在融媒体、新媒体等更多更丰富的场景落地,为用户带来极具5G时代色彩的沉浸式体验。
提升语音通信的质量只是智慧语音通信的一个侧面,它能够实现的功能则远不止于此。肖玮表示,随着智慧语音通信技术的进一步发展,未来,腾讯多媒体实验室也将持续进行技术创新,让沉浸式音视频体验更加触手可及。
相关文章
- 腾讯与特斯拉共同升级座舱体验,正式上线微信互联与目的地服务
- 腾讯游戏启动2026寒假未成年人保护专项行动,AI功能助力家庭科学管控
- 腾讯云助力炫佳科技全新升级一站式AI短剧平台 平均制作效率提升90%
- 生态共赢 赞同科技携手腾讯云斩获三项大奖
- 绿联科技联手腾讯游戏:打造“NAS+游戏”新生态,突破存储设备功能局限
- 腾讯云 WeData 升级三大 Data+AI 能力,位居一体化数据智能平台市场第一!
- 腾讯云智能体开发平台升级:做深平台、做厚内容、做强应用,构筑Agent产业合作新生态
- 从工具辅助到认知革命:天立与腾讯的战略共振如何重塑学习未来
- 腾讯云发布 AI 数据湖解决方案,支持 CPU和GPU 混合调度
- 智效跃迁,架构无界,第三届腾讯云架构师峰会圆满落幕!
- 腾讯云ADP国内首发AI原生Widget:一句话秒级生成交互组件,重塑Agent使用体验
- 绝味食品牵手腾讯打造AI会员智能体 满足消费者多元化需求
- 腾讯视频与北京电影学院达成战略合作 共建“AI影视联合实验室”
- 高端消费科技品牌 xTool 递表港交所:个人创意工具全球龙头,腾讯领投 2 亿美元 pre-IPO
- 四川具身科技新品发布,腾讯云全栈AI能力助力提升机器人情感交互能力
- 腾讯云Valkey社区贡献位居全球第一,率先在国内支持8.0版本
人工智能企业
更多>>人工智能硬件
更多>>- 当AI学会“隐身”,手机才真正智能:三星Galaxy S26系列开启AI哲学的降维打击
- 全球首秀!讯飞AI眼镜亮相MWC,多模态同传大模型与极致轻量化设计 引领智能穿戴新风向
- 全球瞩目!荣耀携Robot Phone、Magic V6系列、荣耀MagicBook Pro 14 2026震撼亮相MWC 2026
- MWC直击:荣耀双旗舰搭载第五代骁龙8至尊版,助力智能手机下一代技术演进
- 联想moto首款“大折叠”手机MWC正式发布
- 三星Galaxy S26 Ultra上手:AI深度融入,防窥屏隐私防护太实用
- 复工提速!艾利特迈幸机器人助力3C行业智能物流打通“最后一公里”
- 移动办公需求增长 三星折叠屏手机成商务用户的“神器”
人工智能产业
更多>>人工智能技术
更多>>- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
- 在MoltBot/ClawdBot,火山方舟模型服务助力开发者畅享模型自由
- 教程 | OpenCode调用基石智算大模型,AI 编程效率翻倍
- 全国首个!上海上线规划资源AI大模型,商汤大装置让城市治理“更聪明”
- 昇思人工智能框架峰会 | 昇思MindSpore MoE模型性能优化方案,提升训练性能15%+









