用“我的世界”自动生成“现实世界”:英伟达展示AI脑补新技术
2021-04-19 09:23:24爱云资讯863
最引人注意的是,GANcraft 的 AI 是在没有现实世界与 Minecraft 世界之间对应数据的情况下,完成学习并进行渲染的。从演示视频上看来,它提升的效果可谓惊人。
此前,英伟达的 GPU 可以利用 Tensor Core 开启 DLSS(深度学习超级采样)技术,让很多游戏的画质、帧数大幅提升。如果 GANcraft 的技术成熟,我们或许可以期待未来出现更加强大的 3D 图像精细化技术。
GANcraft 技术大幅简化了复杂场景下的 3D 建模过程。要在以往,这需要多年的专业领域知识,现在每个《我的世界》玩家都可以成为 3D 艺术家了。
通常,深度学习超分辨率算法需要原有真实图像,并在对应的情况下进行监督训练,但对于《我的世界》中大量的虚构场景来说,这样的要求显然不太现实。在研究中,作者也将 GANcraft 与一些基于 2D 数据训练的模型(MUNIT、SPADE)、基于 2D 修补和 3D 变形生成图像的方法 wc-vid2vid,以及从 3D 一致数据集中学习并进行预测的 NeRF-W 进行了比较。
相比之下,我们可以看到 im2im 的方法(MUNIT 和 SPADE)无法实现视角的一致性,因为它们并不学习 3D 结构,且每一帧都是独立生成的;wc-vid2vid 可以产生视图一致的视频,但是由于块状几何体和训练测试集差距引起的误差累积,图像质量会随着时间发展迅速恶化。NSVF-W 的效果看起来接近于 GANcraft,但缺少一些精细度。
在没有参照图像的情况下,生成对抗网络 GAN 已在小规模、无限制的神经渲染任务中取得了一些成功。但对于 GANcraft 的应用场景来说,问题则更具挑战性——与真实世界相比,《我的世界》中的像素块具有完全不同的标签分布。例如,某些场景被雪、沙漠或水完全覆盖。也有在一个小区域内跨越多种内容的场景。此外,当从神经渲染模型随机采样视图时,我们不可能将采样的视角分布与互联网上可获取的照片相匹配。
如上图所示,由于任务的复杂性,使用互联网上的公开照片作为参照进行对抗训练(第一行)会导致难看的结果。生产和使用伪真实情况进行训练是 GANcraft 工作的主要贡献之一,并且可以显著提高生成效果(第二行)。
生成「伪真图」的方法是使用预训练的 SPADE 模型从分割蒙版生成真实感图像。当从方块世界中采样分割蒙版时,伪真图与从相同视图生成的图像共享相同的标签和相机视角。这不仅减少了标签和视角的不匹配,而且还使我们能够使用更强的损失函数(例如 perceptual 和 L2 loss)来进行更快、更稳定的训练。
这样,只要再给定视角参数,我们就可以渲染辐射场以获得 2D 特征图了,该特征图最后通过卷积神经网络 CNN 转换为图像。
由于辐射场可以使用更简单的 MLP 进行建模,因此 GANcraft 的两阶段体系结构可显著提高图像质量,同时减少计算量和内存占用量,这是基于隐式体积方法的计算瓶颈。GANcraft 所提出的体系结构能够处理非常复杂的虚拟世界。研究人员表示在实验中,人们可以使用尺寸为 512×512×256 网格的内容,这相当于现实世界中的 65 英亩或 32 个足球场。
相关文章
- 英伟达宣布在台积电亚利桑那州工厂投产Blackwell人工智能芯片
- 英伟达RTX 5060 Ti显卡即将上市,性能比RTX 4060 Ti提升20%
- 英伟达下一代Rubin GPU将采用台积电SoIC技术
- 国产高密度算力产品Shanghai Cube发布 对标英伟达SuperPod!
- 新思科技携手英伟达加速芯片设计,提升芯片电子设计自动化效率
- 英伟达首个“量子日”重磅来袭,微美全息多路径量子技术激活应用生态
- 立讯精密亮相英伟达GTC,高速互连赋能AI算力升级
- 神雲科技于 GTC 2025 震撼发布由英伟达加速的先进MiTAC AI服务器解决方案
- 英伟达将修建加速量子计算研究中心,向量子计算机演进
- 英伟达CEO黄仁勋称通用机器人时代已经到来
- 英伟达推出RTX Pro 6000 Blackwell GPU:拥有96GB的显存和600W的功耗
- 英伟达推出下一代AI超级芯片Blackwell Ultra GB300和Vera Rubin
- 英伟达GeForce RTX 5070创始人版显卡推迟到3月下旬上市
- 文远知行一度暴涨140%,因英伟达持有173.86万股
- 英伟达或于3月发布RTX 5070,以应对AMD的RDNA 4显卡
- 自动驾驶浪潮汹涌,英伟达/微美全息AI大模型赋能加速智能化变革步伐