AI让远程交流“更清晰”:GAN消除视频通话中的抖动
2020-10-22 16:19:44AI云资讯809
NVIDIA Maxine是一款云AI视频流平台,将使用GAN来提高带宽性能。

Ming-Yu Liu 和Arun Mallya 正在进行视频通话,其中一个人的画面开始出现卡顿,直至画面定格。
这是一种常见且令人反感的情况。但与大多数人不同的是,Liu和Mallya可以做出一些改变。
他们是NVIDIA的AI研究人员,专攻计算机视觉。在与Ting-Chun Wang共事中,他们意识到可以使用神经网络来替代被称为视频编解码器的软件,这种软件通常用于视频在网络传输过程中的压缩和解压缩。
迄今为止,他们的工作成果将用户在视频通话时所需的网络带宽压缩至原来的十分之一,还有望将带宽消耗降低数个数量级。
Mallya表示:“我们希望通过AI提供更好的视频沟通体验,即使在带宽极低的情况下,也可以从语音升级到视频通话。”
GAN让连接质量更佳
即使用户的面部有遮挡(比如戴着帽子、眼镜、耳机或口罩),这项技术同样适用。为了增加趣味性,他们在演示中使用了一些装饰物,这样用户可以在线上更改其发型或衣服或者创建头像。
更重要的是,如上图所示,借助神经网络定位,无需再盯着显示器上方摄像头才能与对方对视,这增强了面对面对话的感觉。
Wang表示:“借助计算机视觉技术,我们可以从多个角度来定位头部。我们认为这将帮助人们更自然地进行对话。”
迎接最前沿的AI技术,让虚拟生活更真实。
AI赋能视频通话的原理
AI辅助视频通话的工作机制十分简单。
与目前使用压缩的视频流的系统类似,参考图像发送后,仅用户眼睛、鼻子和嘴巴周围几个关键点的位置数据被发送,而非发送大量压缩过像素的图像。
接收端的生成式对抗网络通过初始图像和面部关键点,在本地GPU上重构后续图像。因此,通过网络传输的数据要比之前少得多。
Liu在GAN领域的工作成果GauGAN曾引发关注。GauGAN是一种可以将涂鸦转化为写实艺术作品的AI工具,目前已经创建了超过一百万张图像。该工具可在AI Playground中获取。
Liu表示:“疫情期间频繁的视频会议启发了我们,因此我们开始探索突破带宽瓶颈的方式,让供应商可以同时为更多人提供服务。”
GPU突破带宽瓶颈
这一方法顺应当前行业趋势,将网络瓶颈转化为计算任务,从而借助本地或云端资源更轻松地解决此类问题。
NVIDIA媒体集团高级产品总监Andrew Page表示:“如今,许多公司希望将带宽问题转化为计算问题,这是因为带宽一般很难增加,而增强算力则相对容易。”

NVIDIA Maxine搭配了一套视频会议和流媒体服务工具
AI 工具优化视频服务
GAN视频压缩是NVIDIA Maxine即将推出的几个功能之一,这是一个云AI视频流平台,用于增强视频会议和电话质量。它将音频、视频和对话式AI功能整合在一个工具包中,并支持多种设备。
在上周的GTC大会上,NVIDIA宣布推出了Maxine平台。基于该平台,服务提供商能够在提供超高分辨率的视频的同时,实现实时翻译、噪声消除和情景感知的闭路字幕。用户可以享受到人脸校正、虚拟助手和化身逼真的动画角色等功能。
Page表示:“视频会议正在经历一场复兴。疫情期间,它的缺点给所有人带来了不愉快的使用体验,但回归视觉动物的属性,视频终将成为人们今后生活中的一部分。”
通过利用基于Tensor Core核心的NVIDIA GPU,Maxine可运行如NVIDIA Jarvis的软件。NVIDIA Jarvis是用于对话式AI的SDK,提供了一套语音和文本功能。 它们共同提供了当今有用的AI功能,并成为未来视频产品和服务的基石。

相关文章
- 数字厨电36%增速背后,老板电器2025年报交出了“AI+烹饪”答卷
- 获新华网重磅报道!科大能通AI储能充电机器人闪耀第四届中国科交会
- Think 2026全新发布:IBM推出“AI运营模式”蓝图,弥合日益扩大的AI鸿沟
- AI真正的战场不在聊天框:“北大系”爱化身祭出企业级AGI,扎进车间、门店和供应链
- 海能达CCA 2026重磅发声:以AI赋能关键通信,探索智联新方向
- 浩鲸科技亮相数字中国建设峰会,携手中国电信以AI-Native驱动云网智能化
- 焕新升级,快鹭智能办公AI CRM引领销售管理2.0时代!
- 智生影像・共创未来 智能影像时代AI影视创作主题研讨共绘视听产业新图景
- 图灵进化亮相GITEX AI Kazakhstan,三款AI一体机发布,总统亲临关注
- 找个尼日利亚单身妈妈做代言?橙果视界AI智能体矩阵破解本地化难题
- 法大大发布智能合同助手,打造人人可用的AI合同助手
- 全球首款8K AI拇指运动相机!光子跃迁LEAPTIC Cube正式预售
- SpaceXAI宣布将向Anthropic开放搭载22万张英伟达GPU的巨像一号超级计算机
- OpenAI宣布与AMD、英伟达、英特尔、微软及博通达成超级合作,合力加速AI发展
- 宇信科技亮相印尼华为大会:全栈AI+生态协同破局金融数智化本地挑战
- 格创东智亮相福州峰会,携双引擎演绎AI驱动工业“提质增效”与“绿色低碳”
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench









