腾讯多媒体实验室肖玮:深度学习多角度助力语音通信,带来沉浸式音视频体验
2019-11-07 17:34:41AI云资讯1079
随着5G时代的正式到来,又一次产业革命大潮正在悄然而至,人工智能、物联网loT、云计算、5G等前沿技术出现在大众视野。11月6日-7日,Techo开发者大会在北京举行,在音视频及通信专场上,腾讯多媒体实验室专家研究员肖玮带来以“信号处理遇见深度学习,语音通信新技术的研发实践”为主题的演讲,从语音通信面临的挑战,以及智慧语音通信技术的发展两方面介绍深度学习为语音通信带来的创新。

(腾讯多媒体实验室专家研究员 肖玮)
Techo开发者大会由腾讯云发起,汇聚全球顶尖行业专家和技术爱好者,通过一场主论坛、18个技术方向分论坛和多场创新互动活动,为全球开发者搭建一个开放、中立、活跃的技术平台,助力于开发者的能力成长和实践创新。本届大会聚集来自全球5000多位开发者,并邀请超150位业界大咖围绕前沿技术发展进行分享和交流。
作为多媒体技术的重要组成部分,语音通信扮演着非常重要的角色,而语音通信体验则成为了打造沉浸式多媒体体验的关键一步。
相较于模拟信号时代的语音通信,数字信号时代的语音通信在流程上要复杂许多。“从技术层面出发,语音通信主要存在三个技术挑战。”据肖玮介绍,其一,信源层面上,如何获得近似无噪声、无回声、无混响的声音信号源?其二,传输链路层面上,如何兼容不同的的压缩与传输标准,并确保传输稳定?其三,工程化层面上,如何确保功能模块在维持低复杂度的同时,做到更优秀的性能及低时延?这三项挑战成为摆在语音通信技术面前的“三座大山”。
看似简单的数字语音通信,其实存在着众多需要解决的问题以及复杂的流程,想要打造一套具备普适性的语音通信系统,自然少不了深度学习的助力。
肖玮介绍,多媒体实验室将深度学习应用于信号处理过程中,一方面,基于深度学习,对瞬态等非平稳噪声形成有效抑制,实现语音增强;另一方面,结合经典信号处理和深度学习设计了音频超分技术,前向兼容现有协议前提上,提升信号的分辨率,将窄带语音输入腾讯云,补足窄带语音所丢失的部分,提升回放内容质量。同时,轻量级设计方法,能够保证模型小,可以在云端(支持大并发)或者终端(低功耗)部署。
此外,由于信号传输过程中可能出现的衰减等问题,在转码的过程中很容易出现转码失真的情况,影响音频回放的质量。为了解决这一问题,打造了一套盲式下行后处理技术。该技术兼容包括ITU-T G.711在内的各种标准协议,并且可以与音频超分协同;无需修改现有的通信协议,可降低转码失真,同时具备便于部署的轻量级建模的特性。
“借助深度学习,我们打通了从上行到传输再到下行的完整链路,这一系列技术不仅性能强大,同时又具备着轻建模,易部署的特性,能够广泛应用于基于数字信号传播的语音通话中。”肖玮表示,基于深度学习手段,腾讯多媒体实验室将语音信号处理与人工智能技术进行深入结合,打造出端到端的智慧语音通信解决方案,实现自然的人与人之间的交流。
作为腾讯旗下顶尖的音视频通信和处理研发团队,腾讯多媒体实验室在标准制定方面已经取得了令人瞩目的成绩,有近50项提案被下一代视频编码标准VVC/H.266采纳。此外,在虚拟现实(VR)、点云(PCC)、网络传输协议 (DASH)、多媒体系统(OMAF、CMAF、NBMP) 等相关多媒体标准中也取得了突破性进展,获得多项标准核心专利。
在5G浪潮下,多媒体的技术和形式不断发生改变,高效率低延迟的传输,带来了更丰富的落地场景,让8K、VR、AI更加触手可及。腾讯多媒体实验室也开始在沉浸式媒体和泛媒体方向发力,目前,多媒体实验室已经产出了相应的SDK(软件开发工具包)供文旅以及教育行业使用,未来将会在融媒体、新媒体等更多更丰富的场景落地,为用户带来极具5G时代色彩的沉浸式体验。
提升语音通信的质量只是智慧语音通信的一个侧面,它能够实现的功能则远不止于此。肖玮表示,随着智慧语音通信技术的进一步发展,未来,腾讯多媒体实验室也将持续进行技术创新,让沉浸式音视频体验更加触手可及。
相关文章
- 腾讯首发效率智能体工具集,打造“AI提效新标配”
- 腾讯发布CodeBuddy Security,用AI Agent实现更高效的代码审计
- 腾讯云ADP4.0发布:推出Claw模式,助力企业Agent规模化落地
- 腾讯董志强:AI Agent已成为众多企业“数字员工”,安全防护需要同步跟上
- Agent进入“生产级”时代!腾讯云ADP4.0发布,打造企业级 AgentOps平台
- 腾讯文档「人机双写」行业首发,原生接入WorkBuddy打造新一代AI办公工作台
- 未来智能与腾讯云达成战略合作,共筑AI Agent硬件与办公智能体新生态
- 腾讯QQ发布“新芽守护行动”,全面升级未成年人保护体系
- 腾讯云MongoDB获亚太游戏行业“三料第一”
- iCourt第二届全国法律人AI大赛走进腾讯,探见法律AI生态新未来
- 首汽约车与腾讯地图达成品牌战略合作 北京发车仪式圆满举行
- 双展联动!携手宝安区、腾讯云,洲明文博会硬核科技清单请查收!
- 腾讯云联合TC601提出国产 Data+AI平台五步转型路径
- 北京无限迭代与腾讯云和中国电信等公司共同荣获全球AI生态基石大奖
- 金山文档Skill、专家与连接器上架腾讯云WorkBuddy
- 腾讯云TVP走进银河通用×NVIDIA×福田戴姆勒,解码AI驱动产业硬核突围之路
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 自变量机器人王昊:训练世界模型需付出“时间税”,解决模态对齐是当务之急
- 腾讯发布CodeBuddy Security,用AI Agent实现更高效的代码审计
- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代









