腾讯多媒体实验室5篇论文入选PCS 2022，含视频压缩、视频数据集等领域-AI云资讯

视觉数据编码顶级国际论坛之一的 PCS 2022 论文入选结果公布！

本次，腾讯多媒体实验室共有5篇论文入选，内容含视频压缩、视频数据集、神经网络压缩图像/视频压缩、高维媒体压缩等多个领域。

以下为入选论文简介：

用于屏幕内容编码的开放视频数据集

An Open Video Dataset for Screen Content Coding

Y. Wang, X. Zhao, X. Xu, S. Liu, Z. Lei, M. Afonso, A. Norkin, T. Daede 2022 IEEE PCS, Dec. 2022

近年来，屏幕内容视频在视频录制和视频会议等几大视频应用中越来越受欢迎。不同于传统由相机传感器捕获的图像视频内容，屏幕内容是由计算机通过程序及模型计算生成的。针对屏幕内容的统计特性，研究人员开发了专用的编码工具以实现显着的压缩效率增益。鉴于屏幕内容应用的普及，本文提出了一个开放的屏幕内容视频数据集，用于屏幕内容编码技术的研究和发展。提出的视频数据集包含12 个典型的公开可用的屏幕内容类型视频剪辑。此外，为了更好地理解所提出的视频数据集的特征，本文对 AOMedia Video 1 (AV1) 视频编码标准中的几项核心的屏幕内容编码工具进行了性能评估，并在本文中结合数据集的统计特性进行了分析。

通用视频编码中帧内和帧间预测的统一快速分割算法

Unified Fast Partitioning Algorithm for Intra and Inter Predictions in Versatile Video Coding

W. Kuang, X. Li, X. Zhao, S. Liu 2022 IEEE PCS, Dec. 2022

最新一代VVC视频编码标准采用了比上一代HEVC视频编码标准更加灵活的块划分技术框架。该技术框架所支持的四叉树及多类型树（QTMT）块划分结构显著提高了编码效率。然而，根据递归编码单元(CU) 块划分方案进行全搜索寻找最优块划分结构会导致编码器的计算复杂度大幅增加。在本文中，作者针对帧内和帧间预测提出了一种统一的块划分结构快速算法，该算法利用了编码器在模式决策过程中评估各种候选块划分方案的各种历史信息进行块划分模式的筛选，从而跳过不必要的块划分方案，达到编码器计算复杂度的降低。本文所提出的算法在VVC 参考软件VTM-14.0 之上已经实现并且验证。实验结果表明，所提出的算法在所有帧内（AI）、随机访问（RA）和低延迟（LDP）配置下能够显著地提升编码速度，编码时间节省达到40%。

用于动态网格编码的边界保留几何视频

Boundary-Preserved Geometry Video for Dynamic Mesh Coding

C. Huang, X. Zhang, J. Tian, X. Xu, S. Liu 2022 IEEE PCS, Dec. 2022

本文提出了一种用于具有时变几何、连接性和属性的动态网格编码(DMC) 的边界保留几何视频 (BPGV) 框架。几何视频是通过在采样的 2D UV 图表中插入 3D XYZ 坐标生成的，并且可以通过任何视频编解码器进行编码以消除空间和时间冗余。然而，由于缺少 UV 图表的边界信息，几何视频本身的重建可能会严重失真。因此，建议通过有效的预测和残差编码在单独的子比特流中编码 UV 图的边界信息。连接信息可以从解码的几何图像和边界信息中推断出来，通过三角测量在解码器端具有线性复杂度。通过利用建议的编码工具（包括自适应图表采样和原始图表编码模式）在比特率和质量之间进行权衡，可以实现更好的编码性能。提议的 BPGV 框架是作为对 MPEG CfP on DMC 的回应而提交的，结果证明其与最先进的网状编解码器相比具有卓越的性能。

通过迭代训练优化基于神经网络的环路滤波器

Optimize neural network based in-loop filters through iterative training

L. Wang, X. Xu, S. Liu 2022 IEEE PCS, Dec. 2022

通用视频编码（VVC）的最新视频编码标准已于 2020 年最终确定。在研究人员之前的工作中，提出了几种基于神经网络的环路滤波器来提高 VVC 以外的压缩性能。但是，没有考虑帧间引用机制的影响，导致训练过程和最终测试过程不一致。为了解决这个问题，本文提出了一种迭代训练方法来进一步优化基于神经网络的环路滤波器。基于所提出的方法，可以实现高达 1.74% 的额外YUV BD 码率节省。与VVC相比，实验表明，22个模型的过滤器平均节省了14.00%的YUV BD-rate，而单个模型的过滤器平均节省了11.21%的YUV BD-rate。此外，主观评价已经证实单模型滤波器的性能明显优于 VVC。

替代神经图像压缩

Substitutional Neural Image Compression

X. Wang, D. Ding, W. Jiang, W. Wang, X. Xu, S. Liu, B. Kulis, P. Chin 2022 IEEE PCS, Dec. 2022

本文描述了替代神经图像压缩(SNIC)，这是一种增强任何神经图像压缩模型的通用方法，不需要数据或对训练模型进行额外调整。它将压缩性能提高到灵活的失真度量，并使用单个模型实例实现比特率控制。关键思想是将要压缩的图像替换为以所需方式优于原始图像的替代图像。找到这样的替代品对于传统的编解码器来说本来就很困难，但由于其完全可微分的结构，对于神经压缩模型来说却出人意料地有利。通过将特定损失的梯度反向传播到输入，可以高效地迭代制作所需的替代品。研究人员展示了SNIC 在与各种神经压缩模型和目标指标相结合时在提高压缩质量和执行通过率失真曲线测量的比特率控制方面的有效性。

腾讯多媒体实验室专注于多媒体技术领域的前沿技术探索、研发、应用和落地，音视频编解码、网络传输、实时通信、多媒体内容质量评估和沉浸式媒体的端到端解决方案，同时负责国际国内行业标准制定，包含多媒体数据压缩、网络传输协议、多媒体系统和开源平台等。

腾讯多媒体实验室5篇论文入选PCS 2022，含视频压缩、视频数据集等领域

相关文章

人工智能企业

人工智能硬件

人工智能产业

人工智能技术