腾讯多媒体实验室肖玮:深度学习多角度助力语音通信,带来沉浸式音视频体验
2019-11-07 17:34:41AI云资讯1032
随着5G时代的正式到来,又一次产业革命大潮正在悄然而至,人工智能、物联网loT、云计算、5G等前沿技术出现在大众视野。11月6日-7日,Techo开发者大会在北京举行,在音视频及通信专场上,腾讯多媒体实验室专家研究员肖玮带来以“信号处理遇见深度学习,语音通信新技术的研发实践”为主题的演讲,从语音通信面临的挑战,以及智慧语音通信技术的发展两方面介绍深度学习为语音通信带来的创新。

(腾讯多媒体实验室专家研究员 肖玮)
Techo开发者大会由腾讯云发起,汇聚全球顶尖行业专家和技术爱好者,通过一场主论坛、18个技术方向分论坛和多场创新互动活动,为全球开发者搭建一个开放、中立、活跃的技术平台,助力于开发者的能力成长和实践创新。本届大会聚集来自全球5000多位开发者,并邀请超150位业界大咖围绕前沿技术发展进行分享和交流。
作为多媒体技术的重要组成部分,语音通信扮演着非常重要的角色,而语音通信体验则成为了打造沉浸式多媒体体验的关键一步。
相较于模拟信号时代的语音通信,数字信号时代的语音通信在流程上要复杂许多。“从技术层面出发,语音通信主要存在三个技术挑战。”据肖玮介绍,其一,信源层面上,如何获得近似无噪声、无回声、无混响的声音信号源?其二,传输链路层面上,如何兼容不同的的压缩与传输标准,并确保传输稳定?其三,工程化层面上,如何确保功能模块在维持低复杂度的同时,做到更优秀的性能及低时延?这三项挑战成为摆在语音通信技术面前的“三座大山”。
看似简单的数字语音通信,其实存在着众多需要解决的问题以及复杂的流程,想要打造一套具备普适性的语音通信系统,自然少不了深度学习的助力。
肖玮介绍,多媒体实验室将深度学习应用于信号处理过程中,一方面,基于深度学习,对瞬态等非平稳噪声形成有效抑制,实现语音增强;另一方面,结合经典信号处理和深度学习设计了音频超分技术,前向兼容现有协议前提上,提升信号的分辨率,将窄带语音输入腾讯云,补足窄带语音所丢失的部分,提升回放内容质量。同时,轻量级设计方法,能够保证模型小,可以在云端(支持大并发)或者终端(低功耗)部署。
此外,由于信号传输过程中可能出现的衰减等问题,在转码的过程中很容易出现转码失真的情况,影响音频回放的质量。为了解决这一问题,打造了一套盲式下行后处理技术。该技术兼容包括ITU-T G.711在内的各种标准协议,并且可以与音频超分协同;无需修改现有的通信协议,可降低转码失真,同时具备便于部署的轻量级建模的特性。
“借助深度学习,我们打通了从上行到传输再到下行的完整链路,这一系列技术不仅性能强大,同时又具备着轻建模,易部署的特性,能够广泛应用于基于数字信号传播的语音通话中。”肖玮表示,基于深度学习手段,腾讯多媒体实验室将语音信号处理与人工智能技术进行深入结合,打造出端到端的智慧语音通信解决方案,实现自然的人与人之间的交流。
作为腾讯旗下顶尖的音视频通信和处理研发团队,腾讯多媒体实验室在标准制定方面已经取得了令人瞩目的成绩,有近50项提案被下一代视频编码标准VVC/H.266采纳。此外,在虚拟现实(VR)、点云(PCC)、网络传输协议 (DASH)、多媒体系统(OMAF、CMAF、NBMP) 等相关多媒体标准中也取得了突破性进展,获得多项标准核心专利。
在5G浪潮下,多媒体的技术和形式不断发生改变,高效率低延迟的传输,带来了更丰富的落地场景,让8K、VR、AI更加触手可及。腾讯多媒体实验室也开始在沉浸式媒体和泛媒体方向发力,目前,多媒体实验室已经产出了相应的SDK(软件开发工具包)供文旅以及教育行业使用,未来将会在融媒体、新媒体等更多更丰富的场景落地,为用户带来极具5G时代色彩的沉浸式体验。
提升语音通信的质量只是智慧语音通信的一个侧面,它能够实现的功能则远不止于此。肖玮表示,随着智慧语音通信技术的进一步发展,未来,腾讯多媒体实验室也将持续进行技术创新,让沉浸式音视频体验更加触手可及。
相关文章
- 腾讯云与阶跃星辰达成战略合作,共塑大模型时代智能座舱新体验
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- TINNOVE梧桐科技与腾讯音乐共建座舱AI“声学创新实验室”正式挂牌
- 腾讯公司与浙江大学达成深度合作,共建联合实验室培育硬核技术人才
- 腾讯会议发布“天籁智联”协议,面向硬件生态伙伴全面开放
- 腾讯音乐与长安汽车打造首个座舱AI声学技术研发中心 推动车载音频体验迈向生态协同
- 腾讯云与赞同科技深化金融科技合作——技术研讨凝共识 装机实操促落地
- 从Agent 浪潮到组织变革,腾讯云携手业界专家共探OpenClaw时代的安全边界与企业进化
- 腾讯云TVP走进招商局,共探具身智能与 Agent 协同演进新路径
- 新经济企业TOP500连续六年发布,腾讯五年蝉联榜首、比亚迪首进前三
- 腾讯云发布ADP Agent Portal:企业级智能体统一纳管、高效运营
- 腾讯云与聚水潭战略合作 助力电商SaaS全链路智能化与全球化升级
- 大模型智能体行业元年来临,腾讯/阿里/微美全息集体锁定AI+Agent高增长赛道!
- QQ开启AI社区运营新时代,腾讯频道Skill正式上线
- 网络媒体论坛郑州启幕,腾讯以AI为纽带,共建向上向善数字生态
- 腾讯云吴运声:构建实用、可靠、易管的企业级Agent平台,让AI人人可用
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
- 在MoltBot/ClawdBot,火山方舟模型服务助力开发者畅享模型自由









