BOB(中国)官方入口-BOB真人官方

BOB综合网页版

BOB综合网页版 用AI打破解码器内卷,高通最新几篇顶会论文脑洞有点大

发布日期:2021-10-17 17:01    点击次数:183

本文经AI新媒体量子位授权转载BOB综合网页版,转载请有关出处。

用AI搞视频解码器,现在路子有点“野”。

插帧、过拟相符、语义感知、GAN……你想过这些“脑洞”或AI算法,也能被用到解码器上面吗?

例如,正本的算法每帧压缩到16.4KB后,树林最先变得无比暧昧:

但在用上GAN后,不光画面更清亮,每帧图像还更幼了,只必要14.5KB就能搞定!

又例如,用插帧的思路结相符神经解码器,能让最新压缩算法凶果更益……

这一系列算法的思路,背后原形是什么原理,用AI搞解码器,潜力原形有多大?

吾们采访了高通工程技术副总裁、高通AI钻研倾向负责人侯纪磊博士,晓畅了高通一些AI解码器中的算法细节和原理。

解码器标准逐渐“内卷” 自然,在晓畅AI算法的原理之前,必要先晓畅视频到底是怎么压缩的。

倘若不压缩,1秒30帧、8bit单通道色深的480p视频,每秒就要传输80+Mbps数据,想在网上实时望高清视频的话,几乎是不能够的事情。

现在,主要有色度子采样、帧内展望几个维度的压缩手段。

色度子采样,主要是基于吾们眼睛对亮度比对颜色更敏感的原理,压缩图像的色彩数据,但视觉上照样能保持与原图挨近的凶果。

帧内展望,行使联相符帧中的大片相通色块,展望图像内相邻像素的值,得出的终局比原首数据更容易压缩。

帧间展望,用清除相邻帧之间大量重复数据和展望值计算两帧之间像素差:

这些视频压缩的手段,详细到视频解码器上,又有不少压缩做事能够进走,包括分区、量化、熵码等。

然而,据侯纪磊博士介绍,从H.265到H.266,压缩性能固然升迁了30%左右,但这是陪同着码复杂度挑高30倍、解码复杂度挑高2倍达成的。

这意味着解码器标准逐渐进入了一个“内卷”的状态,升迁的压缩凶果,内心上是用解码器复杂度交换的,并不算真实完善了创新。

所以,高通从已有压缩手段自己的原理、以及解码器的组织着手,搞出了几栽有有趣的AI视频解码手段。

3个倾向升迁压缩性能 详细说,现在的AI钻研包括帧间展望手段、降矮解码复杂度和挑高压缩质量三个倾向。

“预判了B帧的预判” 从帧间展望望,高通针对B帧解码挑出了一栽新思路,论文已经登上ICCV2021。

I帧:帧内码帧

现在的解码大多荟萃在I帧。

固然用上B帧后,视频压缩性能更益,但照样有两个题目:

一个是视频必要挑前添载;另一个是照样会存在冗余,倘若I帧和P帧高度有关,那么再用双向活动赔偿就显得很铺张。

打个比方,倘若从I帧→B帧→P帧,视频中只有一个球直线活动了一段距离,那么再用双向活动赔偿的话,BOB综合网页版就会很铺张:

这栽情况下用插帧益像更益直接议决时间戳就能展望出物体活动的状态码计算量也更矮。

但这又会展现新的题目:倘若I帧和P帧之间有个专门大的突变例如球骤然在B帧弹首了这时候用插帧的凶果就很差了。

所以高通选择将两者结相符首将基于神经网络的P帧压缩和插帧赔偿结相符首行使AI展望插帧后必要进走的活动赔偿:

别说凶果还实在不错比谷歌之前在CVPR2020上保持的SOTA纪录更益也要益于现在基于H.265标准实现开源解码器的压缩性能。

除此之外高通也尝试了一些其他的AI算法。

用“过拟相符”降矮解码复杂度 针对解码器标准内卷的情况高通也想到了用AI做自适宜算法像“过拟相符”相通按照视频比特流更新一个模型的权重添量已经有有关论文登上ICLR2021。

这栽手段意味着针对单个模型进走“过拟相符”对比特流中的权重添量进走码再与原的比特流进走一个比较。倘若凶果更益的话就采用这栽传输手段。

原形表明在不降矮压缩性能的情况下这栽手段能将解码复杂度降矮72%同时照样保持之前B帧模型达到的SOTA终局。

自然除了视频压缩性能以外单帧图像被压缩的质量也必要考虑毕竟视觉凶果也是视频压缩探索的标准之一。

用语义感知和GAN挑高压缩质量 用语义感知和GAN的思路就比较浅易了。

语义感知就是让AI基于人的视觉考虑选出你在望视频时最关注的地方并偏重那片面的比特分配情况。

例如你在望网球比赛时往往并不会关注比赛左右的不益看多长什么样、风景如何而是更关注球员自己的行为、击球手段等。

那么就训练AI将更多的比特放到现在的人物身上就走像如许:

从组织上讲也比较浅易也就是吾们常见的语义分割Mask:

这栽手段能很益地将受关注的片面区域帧质量升迁让吾们有更益的不雅旁观凶果而不是在视频被压缩时望到的整幅图像都是“打上马赛克”的样子。

据高通外示这栽语义感知的图像压缩现在已经在扩展到视频压缩上了同样是关注片面的手段凶果也专门不错。

而基于GAN的手段则更添致力于用更少的比特数生成视觉凶果同样益的图像质量:

据高通外示数据集自CVPR中一个针对图像压缩的WorkshopCLIC挑供了大约1600张的高清行使自研的模型能在上面训练出很益的凶果:

也就是起头的凶果即使在大幼被压缩后基于GAN的图像照样能取得更益的视觉质量:

憧憬这些技术能马上行使到手机等设备上让吾们望视频的时候真实变得不卡。

有关论文: [1]https://arxiv.org/abs/2104.00531 [2]https://arxiv.org/abs/2101.08687

人造智能和机器学习如何转折坦然的未 又不砍UWP版了微柔产品经理称Windows11/Windows10OneNote桌面版将获得大量新功能 边缘计算在电力周围的行使案例 如何守住工业物联网的坦然防线? 关于三大公有云平台的网络坦然不能不晓畅的四个关键周围