只需两个元素,英伟达让你视频会议不再尴尬
2021-06-25 09:51:32AI云资讯758
只需两个元素告别尴尬
根据英伟达媒体会上的演示来看,只需要录入两个元素,就能通过AI来解决上述视频会议过程中的尴尬问题,两个元素分别为一张人物外貌照片和一段视频流。之后Vid2Vid Cameo就能在视频通话的过程中模拟出真实高清的人物形象,或是虚拟的卡通形象,这些形象还可以根据会议人的面部形态进行匹配。
这就意味着,如果会议人员没有着正装,Vid2Vid Cameo也可以根据已经录入的元素来模拟出与会者的正装形象,并且可以进行动态显示。而如果与会者没有化妆,或个人形象暂时不佳,Vid2Vid Cameo也能以此前元素中的理想形象,来动态的呈现在会议的视频中。
这项功能同样可以应用于目前很多厂商在关注的通过卡通虚拟形象来进行在线交流的功能中,Vid2Vid Cameo同样可以虚拟出一个卡通形象,用户只需上传一张卡通头像便可实现,通过追踪与会者的五官变化,来进行实时的虚拟形象显示。
Vid2Vid Cameo甚至还能可以实现移花接木,通过AI将某个人的动作转移到另一个人的参照图像上,同样可以生成更逼真、更清晰的结果,优于先进的模型。

值得一提的是,Vid2VidCameo还能大大降低网络压力,让以往视频会议过程中由于网络问题所造成画面卡顿及马赛克现象一去不复返。原因在于在实际虚拟过程中通过仅来回压缩及发送头部位置和关键点,而不是完整的视频流,此技术将视频会议所需的带宽降低 10 倍,从而提供更流畅的用户体验。
AI助力全新视频会议体验
本次展示的Vid2Vid Cameo 是用于视频会议的 NVIDIA Maxine SDK 背后的深度学习模型之一,它借助生成式对抗网络 (GAN),实现了仅用一张人物2D图像即可合成逼真的人脸说话视频。Vid2Vid Cameo是英伟达在CVPR 2021上发表的28篇论文之一。
实现上述功能的过程中,AI发挥了重要作用,AI可以将用户的面部动作映射到参考照片上,当侦测到与会者身体运动后,也能自动调整角度,让与会者看上去可以一直处在面向摄像头的状态。
这一模型基于 NVIDIA DGX 系统开发,使用包含 18 万个高质量人脸说话视频的数据集进行训练。网络已掌握识别 20 个关键点,这些关键点可用于在没有人工标注的情况下对面部动作进行建模。包括眼睛、嘴和鼻子在内的点对特征的位置进行编码。

在传输过程中,视频会议平台只需传送关键点信息接口,视频接收端会使用此信息来模拟参照图像的外观以合成一个视频。另外,该模型还可以进行调整,传输不同数量的关键点,以实现在不影响视觉质量的条件下,适应不同的带宽环境。这也就是上文提到的可以大幅节省传输流量的原因所在。
目前,这一能够让视频会议人员告别个人形象尴尬的功能即将登陆 NVIDIA Maxine SDK,为开发者提供经过优化的预训练模型,以便在视频会议和直播中实现视频、音频和增强现实效果。开发者已经能采用 Maxine AI 效果,包括智能除噪、视频升采样和人体姿态估计。SDK 支持免费下载,还可与 NVIDIA Jarvis 平台搭配用于对话式 AI 应用,包括转录和翻译。
也许在不久以后,无论是刚刚起床,还是身在海滩边度假的你,当临时视频会议接入的时候,都能西装笔挺、头发一丝不乱的出现在会议之中,随时以最好的形象进行沟通。
相关文章
- 英伟达发布Nemotron 3 Super开源智能体AI模型:或成为OpenClaw的理想选择
- 英伟达CEO黄仁勋将AI比作一个五层蛋糕,称其潜力尚未被完全发掘
- Teclab绕过英伟达RTX 50显存时钟限制,将RTX 5070 Ti超频至超过36Gbps
- 全力奔赴AI推理时代,英伟达/微美全息大举进军开启空前爆发盛宴!
- 英伟达将推出新款GeForce RTX 5050显卡,搭载9GB GDDR7显存
- 英伟达将向两家光子技术公司注资40亿美元,抢占AI竞争制高点
- OpenAI宣布获得亚马逊、英伟达和软银新融资1100亿美元
- 英伟达的消费级GPU业务面临困境,游戏业务收入环比下滑
- 英伟达Blackwell平台为AI推理工作负载带来全新水平的Token优化
- 三星HBM4高带宽内存正式进入英伟达Vera Rubin人工智能芯片平台
- 英伟达已瞄准台积电1.6nm产能,特斯拉/微美全息加速扩展AI芯片集群生态!
- 黄仁勋为何见她?英伟达中国行背后的工业AI落地逻辑
- 英伟达与OpenAI的千亿美元超级合作陷入停滞
- AMD与高通计划追随英伟达,下一代AI产品也将采用SOCAMM内存
- AI浪潮汹涌芯片突围战打响!英伟达/特斯拉/微美全息竞速引领基建突破新高度!
- 三星或将成为英伟达Vera Rubin平台首批HBM4内存供应商
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
- 在MoltBot/ClawdBot,火山方舟模型服务助力开发者畅享模型自由
- 教程 | OpenCode调用基石智算大模型,AI 编程效率翻倍
- 全国首个!上海上线规划资源AI大模型,商汤大装置让城市治理“更聪明”
- 昇思人工智能框架峰会 | 昇思MindSpore MoE模型性能优化方案,提升训练性能15%+









