360°视频的视频编解码器性能评估中的常见测试条件和软件参考配置

这几天一直阅读提案,发现状态不是很好,就把几篇我觉得很有用的提案摘录到这里。带(*)标识的地方是我还没懂的地方= =、
首先这篇提案是JVET common test conditions and evaluation procedures for 360° video
1、Introduction
360°视频通用测试条件是在well-defined(*)的环境中进行实验,并且简化实验结果的比较。
HEVC参考软件版本HM 16.15应用于使用HM的实验。 对于360°特定的编码工具提议,建议使用JEM6.0软件。
2、Testing procedure
2.1Definitions
这里和之后的缩写用于指定表示360°视频的投影格式,它们在JVET-F1003 中有进一步描述。
ERP – Equi-rectangular projection 等角投影
CISP – Compact Icosahedral projection 紧凑的二面体投影
CMP –Cube Map projection 立方体投影
COHP – Compact Octahedron projection 紧凑八面体投影
SSP – Segmented sphere projection 分段球体投影
EAP – Equal-area projection 等面积投影
ACP – Adjusted cube map projection 调整的立方体地图投影
RSP – Rotated sphere projection 旋转球体投影
此外还将使用JVET-F1003定义的特定的球面视频品质指标PSNR:
1. WS-PSNR
2. CPP-PSNR
3. S-PSNR-I
4. S-PSNR-NN (w/o interpolation)
F1003将在下一篇博文中讲
2.2Processing chain
高保真测试材料以YUV 4:2:0格式提供,表示ERP中的360°视频。 在编码之前,这些材料将根据下图规定的测试程序转换为上面列出的某一种投影格式。
这里写图片描述

3、Software
对于投影和质量测量的360Lib-3.0软件包,应使用使用SVN下载,方法:
http://blog.csdn.net/qq_21747841/article/details/73188782
下载地址:https://jvet.hhi.fraunhofer.de/svn/svn_360Lib/tags/360Lib-3.0/
JVET-F1003 “360Lib中的投影格式转换和视频质量度量的算法描述”提供了有关软件包中支持的投影格式转换过程,打包格式和视频质量度量计算的附加信息。
4、Test sequences and sizes
4.1 High fidelity input
表1定义了一组测试序列。 他们都是采用YUV 4:2:0格式,代表ERP中的360度视频。 ERP投影中图片的高度(H)是表1中报告的宽度(W)的一半。所有帧(由表格中的帧计数定义)都应对所有序列进行处理和编码。测试序列可从ftp://[email protected]ftp://[email protected]的/testsequences/testset360文件夹中下载,但是登录信息需要VCEG和MPEG的认可成员联系JVET主席获取登录信息。我也没登录信息,所以Orz
这里写图片描述
4.2 Coding projections
4096*2048=8388608、
2496*3320=8286720
3552*2368=8411136
1184*7104=8411136
2672*3096=8272512
为什么要列上面这几个式子呢,是为了方便理解下面的内容:
在编码之前,需要将高保真度测试材料转换为上面列出的编码投影之一。 表3中列出的每个投影的框架尺寸将用于生成锚点(用于对比)。 对于8K ERP源,编码大小是高保真ERP的半宽和半高,而对于剩余的编码投影,尺寸被选择为具有与编码ERP大致相同数量的编码样本(即,25 %的高保真8K ERP,这里就是上面的那几个式子的含义)。 对于4K ERP源,编码大小是所有投影的高保真ERP的75%。
对于新的投影格式提案,编码样本的数量不应超过ERP编码格式的编码样本的101%。
对于从投影之前到编码以及解码转换之后的所有转换,应使用6抽头Lanczos滤波器用于亮度和4Lumzos滤波器用于色度。
这里写图片描述
参考图1,首先将输入投影转换为表3所示分辨率的编码投影。转换过程的输出是YUV 4:2:0 10位视频。 因此,编码的输入位深度为10位。 使用10位内部位深进行编码和解码。编码和解码后,在原始和重建的视频之间计算WS-PSNR。 在360Lib中,WS-PSNR可用于除TSP之外的所有投影格式。
在重建编码投影和高保真度ERP CPP-PSNR和S-PSNR之间进行计算。 CPP-PSNR目前可用于除EAP之外的所有预测。 对于CPP-PSNR,根据图1,以较低分辨率(即重构编码投影的分辨率)计算度量。
视野内的动态视口(FoV)的客观指标的计算是根据从360°180°视频生成的2D直线视口图片计算的,从重建的编码投影(重构的视口)渲染的视口将与从高保真度ERP(原始视口)生成的锚点进行比较。对于每个测试序列,将生成2个动态视口,视野大小为75°*75°。每个测试序列的视口参数列在表4中。每个视口的中心位置以(yaw, pitch)()形式提供。对于动态视口,为序列的第一张照片和最后一张照片提供一系列(yaw, pitch)偏移位置,并对序列中其他图像的偏移位置进行线性插值。 360Lib软件用于生成动态视口。视口生成的输出是表4中列出的大小的10位4:2:0 YUV视频。在原始视口和重建的视口之间PSNR将被测量。
这里写图片描述
总共将报告11个不同的指标:解码输出和输入高保真ERP之间的编解码器和编解码器输入和输出之间的PSNR和CP-PSNR报告的CPP-PSNR,S-PSNR-1和S-PSNR-NN, 原始和重建ERP在最高分辨率下的CPP-PSNR,S-PSNR-1,S-PSNR-NN和WS-PSNR以及用于2个动态视口的PSNR。
另外,对于每种投影格式,应该在原始和重建的视频之间计算出未压缩的投影映射过程的端到端WS-PSNR计算,但是跳过图1中的Enc / Dec步骤。
对于编码工具支持,ERP的测试结果是强制报告的。 其他投影格式的测试结果是可选的。

4.3 Subjective quality check using “evil viewports”
对于每种投影格式,应进行主观质量检查测试以评估不连续边缘的影响。 应按照以下步骤,为AHG提供比特流或解码的视频。
将为每个投影格式识别两个顶点位置,如表5所示。第一个顶点将沿着不连续边缘的图片边界。 第二个顶点将在图像内,而不是沿图像边界,在最大数目不连续边缘的位置。 对于ERP,第二个“顶点”位于图像的(0,0)中心,并且不与不连续边缘对齐,因为格式中唯一的不连续边缘已经由第一个顶点表示。
这里写图片描述
当序列在编码之前旋转时,如图2所示,它需要在每个标识的顶点和每个识别的静态视口的最低速率点进行单独的编码。请注意,表5中指出的顶点是旋转投影格式的目标视口中心,表6中定义的静态视口中心是旋转前原始图片中的源视口中心。解码后,应提取以表5中定义的顶点为中心的静态视口进行主观质量检查。对于特定的投影格式,应为每个序列提供4个解码的恶意视口(evil viewports),包括(a)以顶点1为中心的静态视口1,(b)以顶点2为中心的静态视口1,(c)以顶点1为中心的静态视口2 ,以及(d)以顶点2为中心的静态视口2.要强制所识别的顶点位于识别的视口的中心,使用360lib软件需要旋转两步。具体来说,对于(dst_yaw,dst_pitch)表5中给定的顶点和(src_yaw,src_pitch)表6中的给定源视口中心,首先旋转输入的ERP,使源视口中心位于(0, dst_pitch)中心,其次,进一步旋转使图像的(0,dst_pitch)中心到所识别的顶点(dst_yaw,dst_pitch)。第一步是纯ERP到ERP的旋转,输出框架尺寸与输入相同。第二步与编码和格式转换(下采样)一起完成。(*)
这里写图片描述
这里写图片描述
5Encoder configurations and quantization parameter values
此处是编码器配置文件及其用途,以及HM和JEM的软件配置。 对于每个视频序列,将使用四个量化参数值:22,27,32和37。
与JVET通用测试条件文档[1]对齐,四个测试反映了只读,随机访问和低延迟设置:
1内,10位
2随机访问,10位
3低延迟,10位
4低延迟,仅P片,10位
其中,随机访问是强制性的,而剩余是可选的。 要与JVET和JCT-VC CTC对齐,在随机访问测试中,运动搜索范围设置为256,对于HM和JEM,GOP大小设置为16。

6Test results
Templates for reporting test results for HM and JEM coding can be found in https://jvet.hhi.fraunhofer.de/svn/svn_360Lib/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章