金山云亮相LiveVideoStackCon2019 解析智能音视频算法背后的技术实践

2019-08-26 16:32:10爱云资讯

不管是高清直播互动的兴起,还是超高清视频、VR视频的爆发,人们对于更清晰画质的追求、更优良观看体验的探索,始终在不停演进。据预测,到 2022 年,超高清占视频直播 IP 流量的百分比将高达 35%,这将会带来带宽成本的飞速飙涨,那么究竟如何在高画质、低成本之间寻找一种平衡?

在近日举办的多媒体技术峰会LiveVideoStackCon2019上,金山云技术总监蔡媛发表了《集智高清-以低带宽成本获取高清画质体验》的主题分享,为这一问题带来了解决方案,能够以低带宽成本获取高清画质体验的云转码服务——集智高清。在演讲中,蔡媛深刻诠释了金山云集智高清在码率节省上的重大突破,并分享了多种视觉AI及编码技术,同时深入剖析集智高清的AI算法架构,包括如何使用全局去噪网络及局部去噪网络等深度学习算法修复并增强视频画质,并通过引出客观评测视频画质评测平台KQoE,为与会者带来了一场干货满满的技术专题分享。

金山云技术总监蔡媛在LiveVideoStackCon 2019发表演讲

5G序幕开启,AI加持构建极致云转码解决方案

近年来,随着互联网技术的飞速演进,4K高清、VR视频、直播互动等更加多元化的音视频形态,对于网络带宽传输效率提出了更高挑战。从1994年第一代视频编码标准MPEG-2推出,到2013年第三代标准HEVC/H.265 AVS2的升级,虽然压缩效率每10年增长约一倍,然而带宽的增长永远赶不上业务的需要,更加高效的音视频传输效率,始终是摆在音视频行业技术从业者们面前的难题。

“金山云基于对用户需求的深刻洞察,推出了能够以低带宽成本获取高清画质体验的云转码服务——集智高清,通过自研算法,整合AI、编码、图像处理等多种技术,融合深度神经网络对视频画面内容进行感知,优化主观体验和智能调节编码,对视频进行画质增强,提升视觉效果,适配更高清屏幕,带来更好视觉感受的同时,还可帮助客户节省50%视频传输带宽,广泛适用于绝大部分视频场景,”蔡媛介绍到,“通过对视频进行内容分类、质量对比和内容分割,匹配视频处理工具包,满足用户对超清视频画质和流畅播放体验的追求,同时大幅降低视频运营商的带宽成本压力。”

金山云集智高清云转码服务架构示意图

在内容分类方面,通过识别网络对视频场景和复杂度进行两层分类,适配更佳的画质提升和压缩效果,目前已广泛支持包括综艺、游戏、秀场、影视、体育等视频场景;在质量对比方面,从色彩饱和度、对比度、噪声、清晰度等角度,对输入视频的客观质量进行实时监测和分析,并输出质量得分,作为视频处理工具参数调节的参考;在内容分割方面,通过ROI区域检测,先将每帧的视频内容分层,再将视频画面的主体和背景根据人眼视觉特性做差异化处理,使得主体更加突出,背景更加纯净,将视频内容画质增强处理的更加精细化。最后,匹配金山云提供的AI深度学习视频处理工具包,该工具包由超分辨率、去噪、去模糊、锐化、对比度增强等多个算法模块组成,各处理工具可灵活组合,适用多种视频损失,有效进行视频画质增强。

为了更加直观地展现图像、视频转码前后的效果,金山云推出了KQoE平台,旨在为有图像、视频效果评测需求的客户提供高效易用的评测平台,以更专业的评测平台能力提升图像/视频评测效率。

创新算法框架,助推服务端编码技术优化

为了满足多样化的视频种类处理需求,集智高清的算法框架,主要由视频分析器(Video Analyzer)以及图像处理器(Image Processor)两个模块组成,在处理流程上,视频分析器以视频种类、视频质量、ROI区域进行计算,视频处理器则会根据分析结果以及输入的处理策略进行视频预处理,然后再送入编码器进行编码,完成整个编码过程。云转码的优势在于场景中有着足够多的算力,相对于端上编码,能够很好地应对对处理性能的需求。

云转码方案中,编码目标函数的优化是其中的关键。“对于云转码来说,场景和采集端不同,其目标函数需要进行优化。初级优化即试图利用网络对失真图像进行处理,尝试恢复出原始图像,但是这样做往往容易造成过平滑,因此需要进一步对L2 loss进行优化,”蔡媛介绍到,“对此,我们改进目标函数的思路是,除了L2 loss外,需要加入Perceptual loss和GAN中的判别器loss,通过调整来达到真实业务需求的最优效果。”

编码目标函数效果示意图

接下来,蔡媛重点介绍了图像处理模块中的去噪模块,分别从针对背景大块区域的全局去噪网络和针对人脸区域的局部(人脸)去噪网络两方面展开进行了解读。“全局去噪网络需要保证网络足够轻量级,甚至达到1080p@25实时处理,考虑要让模型适应不同类型、不同强度噪声,我们最终基于Memory Network的理念设计了网络模型的主干网络,”蔡媛讲到,“人脸在视频中关注度很高,由于人脸的像素数远小于整个视频的分辨率,因此局部(人脸)去噪网络的设计不需要为算法复杂度所限制。另外由于人脸存在很强的先验知识,因此需要采用更加特殊的设计才能更完整的挖掘这些先验知识。我们训练了带多尺度判别器的GAN版本,经测试验证,在修复人脸的基础上,它能对继续对人脸进行细节增强,进一步提升处理后的主观效果。”

全维度能力升级,构建面向未来的智能视频云平台

金山云集智高清致力于提供专业的云转码服务,以低带宽成本获取高清画质体验,方案在易用性、可靠性和可扩展性方面具备独特优势。通过提供易用的转码控制台以及丰富的客户端SDK、服务可用性不低于99.9%、可快速为用户定制优化场景等服务能力,帮助客户极大降低成本,提升用户观看体验。

围绕人眼结构特性,金山云的集智高清产品正试图将编码、图像处理和AI整合,基于深度神经网络的画质增强技术,对视频内容进行感知,明显提升了主观效果和客观指标,带来更好的视觉感受。

“我们希望集智高清能够成为视频行业的加速器,为客户的业务运营和行业的技术发展贡献力量,”蔡媛表示,金山云作为视频云服务的领军企业,将持续投入技术研发,通过更加高效的产品和解决方案,帮助客户更好应对移动视频日益复杂多样的场景和需求,给终端用户带来更好的视觉感受。

相关文章
热门文章
头条文章
重点文章
推荐文章
热点文章
关于我们|联系我们|免责声明|会展频道
冀ICP备2022007386号-1 冀公网安备 13108202000871号 爱云资讯 Copyright©2018-2023