轉:MPEG中面向沉浸式視覺體驗的標準化活動(虞露)

原文鏈接:https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/99669793

本文是虞露老師在LiveVideoStackCon 2019上海 音視頻技術大會的議題,介紹露MPEG標準工作組中面向高沉浸感視覺體驗而開展的一系列標準化活動。對於做VVC的同學,可以瞭解下EVC標準,很詳細。

640?wx_fmt=jpeg

業界對於HEVC的壓縮性能比較認可,其實現複雜度也在不斷地進行優化,但專利許可問題是HEVC在業界真正遇到的挑戰。在HEVC編碼專利許可問題的背景下,一些公司決定在MPEG國際標準組織以公開的方式來發展一個新的EVC標準。本文整理自浙江大學的虞露教授在LiveVideoStackCon 2019上海大會中的分享,詳細介紹了近期在MPEG標準工作組中面向高沉浸感視覺體驗而開展的一系列標準化活動。

文 / 虞露

整理 / LiveVideoStack

640?wx_fmt=png

大家好,我是來自浙江大學的教授虞露,本次分享的主題是MPEG中面向沉浸式視覺體驗的標準化活動,內容中介紹了近期在MPEG標準工作組中面向高沉浸感視覺體驗而開展的一系列標準化活動,包括具有知識產權優勢的MPEG-5 Essential Video Coding技術、全景視頻的表達與編碼方法、增強的3自由度和6自由度的視頻及點雲編碼技術等。


1. MPEG


1.1 MPEG標準組織

640?wx_fmt=png

 

MPEG標準組織官網:https://mpeg.chiariglione.org在每一次MPEG會後都會有新聞公報,有關MPEG最新標準化活動的成果和進展情況都會以公報的形式在官網發佈,關於MPEG未來的動向大家可以關注MPEG主席的博客http://blog.chiariglione.org。上圖中下半部分就是近期博客中提到的視頻編碼領域四十年標準化的發展歷程。本次分享的主要內容是在沉浸式媒體方面的一些新的探索,除了新的MPEG標準MPEG-I(I: Immersive)外還有目前正在進行的MPEG-5 EVC,在MPEG-I中包括增強的三自由度視頻(3DoF+)、六自由度視頻(6DoF)和點雲等標準化活動都在同步開展中。

 

1.2 MPEG-5 EVC


1.2.1 EVC提出的背景

 

640?wx_fmt=png

業界對於HEVC的壓縮性能比較認可,其實現複雜度也在不斷地進行優化,但專利許可問題是HEVC在業界真正遇到的挑戰,專利許可條款與費率不清晰阻礙了標準落地。很多公司知道HEVC在性能和複雜度優化方面做得很好,但何時能夠真正解決HEVC的收費問題目前還沒有一個明確答案。

 

640?wx_fmt=png 

在HEVC編碼專利許可問題的背景下,MPEG啓動了VVC,它是ISO/IEC MPEG 與 ITU VCEG再度聯手開展的新一代視頻編碼標準,這個項目在2018年4月正式啓動,目標在2019年7月形成CD,2020年7月形成FDIS。但所有的技術提案方只承諾可以給業界授權,至於如何授權以及專利費用和條款的問題都是不清楚的,這與H.265存在同樣的問題。在同一時期Google領導創立了AOM組織,目標是爲互聯網視頻建立開放的、免許可費的編碼格式標準,但這個目標能否達成依舊是個未知數。在這樣的背景下,一些公司決定在MPEG國際標準組織以公開的方式來發展一個新的EVC標準。

1.2.2 EVC目標、手段與時間表

 

640?wx_fmt=png

EVC的做法與之前H.265和VVC標準不同,一方面要保證技術上的先進性,但同時也要結合商業上的需求,因此在技術提案時技術提案方需要承諾授權方式,目前EVC標準的提案中提案人都會做專門的聲明,承諾適時公佈專利許可條款。這樣做會給市場更強的信心去實現這個標準,對推廣成本的預估也更加清晰。EVC在AVC已經公開20年以上的免專利費技術基礎上,推出了基本工具集、對標AVC;在基本工具集的基礎上,EVC還增加少量性能顯著、知識產權來源明確的工具,形成增強工具集,對標HEVC。

 

1.2.3 EVC WD2.0

 

640?wx_fmt=png

 

三月底在MPEG會議上剛剛確立了EVC WD2.0,下一個版本就會是CD。上圖中呈現了非常完整的編碼流程,包括塊劃分、幀間預測、幀內預測、變換量化、環路濾波到最後的熵編碼。其實,從H.261到H.265,包括VVC都一直採用這套框架,但其中所有模塊分爲兩種不同顏色,綠色框中的是之前所說的基本工具集的工具,藍色虛線框是增強工具集的工具。希望綠色框中的基本工具能夠做到免專利費,而藍色框中的增強工具則是有明確知識產權收費條款限定的。

 

1.2.4 EVC 基本工具集

 

640?wx_fmt=png

 

在EVC標準發展過程當中,關於技術能否滿足上述綠色模塊免專利費的要求,做了很多調研分析。例如,在1994年的學術文獻上就能發現採用四叉樹的編碼方法,距今已經二十年以上,哪怕當時是有專利申請也已過期了,目前就可以免費使用。這是一種分析策略。

 

640?wx_fmt=png

 

其他方面包括幀內預測、幀間預測和模式編碼等都是採用類似的方法,放心採用二十年以上的文獻報道或者已知專利保護已失效的技術。比如Loop filter是H.263標準中的技術,但對這些技術重新組織之後,性能仍然可能超過AVC。

 

1.2.5 EVC 增強工具集

 

640?wx_fmt=png

 

MPEG-5 EVC增強工具集中所有技術都是在技術提案中承諾適時公佈明確的專利許可條款,這些技術的主要來源公司包括三星、華爲和高通等。

 

1.2.6 EVC 編碼性能

 

640?wx_fmt=png

在上述策略的基礎上,目前一個是對標AVC測試Baseline profile的性能。可以看到在指定測試條件下,EVC Baseline profile在同樣的恢復視頻質量下比AVC節省了37%的碼率,編碼時間也更加節省,複雜度也可以接受,在Baseline profile上可以說明顯超過了AVC。

 

640?wx_fmt=png

 

EVC再上一層是Main profile,即增強的工具集。和HEVC相比在同樣的恢復視頻質量下節省了大約28%的碼率,編碼複雜度有所增加,大約爲HEVC的2.6倍,解碼器時間增加到大約1.7倍。這個性能對市場而言已經可以明顯判別EVC Main profile優於HEVC。

爲了技術生態發展,適當收費或者說適時公佈專利許可條款都是無可厚非的,所以MPEG在EVC新的標準上就是這樣的定位。不論現在新增的功能多炫酷,技術核心仍然離不開2D視頻壓縮編碼,所以EVC也是發展新功能的一個非常好的基礎。

1.3 沉浸式視覺媒體的多維度屬性

 

640?wx_fmt=png

 

沉浸式視覺媒體的新功能若要達到增強沉浸感,必須在高空間分辨率、高時間分辨率、高動態分辨率和寬色域範圍等方面儘可能真實的還原人眼所看到的景象,除此之外本次分享的高沉浸感媒體內容主要涉及寬視場範圍、多視點和高自由度以及新型表達模型三個方面。

 

1.3.1 寬視場:360°全景視頻

 

640?wx_fmt=png

在寬視場360°全景視頻中提供給用戶的是3自由度,即在XYZ軸上視角可以自由轉動,支持roll/pitch/yaw,雖然有較好的沉浸感但視點位置必須是固定的。

 

1.3.2 全景視頻分辨率、數據量

 

640?wx_fmt=png

視網膜中央凹分辨率在每一度的視角達到200 PPD。在距離3倍圖像高度的位置處觀看4K超高清電視,每度視角所接收到的像素約爲100 PPD,基本接近視網膜的分辨率。360°4K全景視頻每度視角所接收到的像素僅爲11 PPD,遠遠低於視網膜的分辨率。如果需要全景視頻滿足視網膜分辨率的話,像素率需要達到72K*36K,整個畫面達到2.5G 像素。央視4K廣播使用的傳輸帶寬是36 Mbps,那麼按照2.5G像素哪怕用500倍壓縮比信道寬度也將達到9Gbps,目前的技術差距還非常的大。

 

1.3.3 全景視頻表達格式

 

640?wx_fmt=png

 

全景視頻360°是固定視角的表達模式,可以看作人在球心、可以向球的各個方向觀看,所以全景視頻描述的是球形的影像,最常使用2D Equi-Rectangular Projection (ERP)方法,把球形影像拉成平面,但可以看到圖中很多地方發生變形。

 

640?wx_fmt=png

 

針對這樣的全景視頻投影模式進行了很多探討,包括立方體、六面體、八面體、二十面體和截斷的金字塔等投影模式。

 

640?wx_fmt=png

 

過多面體的投影模式會引出一些處理方面的問題,所以在測試中六面體是相對不錯的選擇。但六面體的投影是在每一個面上進行等間隔採樣,映射到球面其實是不等距離的採樣。因此在CMP的基礎上有人提出了調整的CMP,把像素點的分佈在六面體表面不是等比例的。

 

640?wx_fmt=png

 

PAU就是我們提出的一種方式,基於對CMP方案的調整,使得在球面的經度緯度上都可以儘量採用等間隔採樣。

 

1.3.4 HM-16.16 based coding performance

 

640?wx_fmt=png

 

對比於ERP,CMP的編碼效率提高了大約2%,通過採樣格式的優化最多可以提高10%以上的編碼效率。所以不改變編碼方式,僅選擇採樣格式優化成爲全景視頻提高壓縮性能的非常重要的手段。

 

1.3.5 New Coding Tools for 360 Video

 

640?wx_fmt=png

 

JVET在VVC的基礎上探索了幀內預測、幀間預測新工具,特別是在六面體的面不連續的位置上進行新編碼工具的引入,但這些編碼工具提升的壓縮效率非常有限。主要需要解決的問題是在不同面的拼接縫上的不連續狀況,經過環路內濾波器的開關、再加上後處理基本可以解決這樣的問題。

 

1.4 沉浸式視覺媒體的多維度屬性

 

640?wx_fmt=png

 

爲了高沉浸感體驗,在視場範圍達到360°之後,視點還可以在三維空間裏自由移動(高自由度)。

 

1.4.1 MPEG相關活動MPEG-1

 

640?wx_fmt=png

 

3DoF就是固定視點的全景360°技術,MPEG在此基礎上又增加了3DoF+和6DoF,從3DoF到6DoF中間的技術跨越性比較大,所以在中間引入了3DoF+這樣的過渡階段。

 

1.4.2 寬視場:360°全景視頻

640?wx_fmt=png

 

當視點不固定時,兩張360°全景圖像其實無法滿足3DoF+或者6DoF的視覺需求。

1.4.3 超多視點視頻

 

640?wx_fmt=png

 

3DoF+和6DoF其實探討的是超多視點視頻編碼的問題,上圖中相機在一條直線或弧線上以極高密度排布,拍攝各個視角的影像,也可以用球形相機進行畫面捕捉。

 

1.4.4 MPEG-1 Visual 3DoF+ Activities

 

640?wx_fmt=png

 

MPEG針對3DoF+已經開展了提案徵集與響應。3DoF+任務約定不修改視頻編解碼器,爲了支持3DoF+輸入端可能會接收超多視點的視頻,通額外增加定義新的Metadata來支持3DoF+應用,核心部分仍然使用現有的成熟編解碼技術,例如HEVC。

1.4.5 Synthesis with Different # of Cameras

 

640?wx_fmt=png

 

上圖分別是用24、8、2路攝像機合成視頻,三段視頻都是移動視點和朝向來觀看,它們採用同一個頭部移動路徑,2路攝像機合成的視頻明顯存在一些遮擋區域的信息缺失情況。

 

1.4.6 Responses to CfP of 3DoF+ Visual

 

640?wx_fmt=png

 

今年三月,MPEG收到的五份響應的提案,在這裏與大家分享。

 

640?wx_fmt=png

 

浙江大學提出的方案(m47684)應該是最簡潔的,首先選擇所有輸入視頻裏最中心視點的視頻(從而儘可能多的覆蓋整個場景),在此基礎上通過投影、擦除的方法,篩選出具有補充信息的其它視點信息,將那些區域截成子圖,這樣編碼的像素率會控制在兩路視頻之內。

 

640?wx_fmt=png

 

在浙江大學提出方案的基礎上,也有公司提出把補充信息分割成小片並拼接起來,在主視點上方添加一塊拼接圖,整個作爲一路視頻傳輸。

 

640?wx_fmt=png

 

也有公司提出拼接以後的圖可以類似於編碼中常用的四叉樹劃分去組織表達每一個分片。

640?wx_fmt=png

 

還有方案提出對於高頻信息部分補充一些額外信息作爲Metadata傳輸。

 

640?wx_fmt=png

 

另有方案提出把多路視頻信息投影到3D空間上進行分析處理和重投景,每一個小切片儘量平行於景物當中物體表面,以小切片拼成完整的圖像後進行編碼。

 

640?wx_fmt=png

 

對上述各方案進行主觀測試後得出的結論是,在一些測試序列上提案的方案能夠超過簡單的視頻篩選,但在另一些測試序列上尚不能夠達到很滿意的效果。

 

1.4.7 Test Model of immersive video (TMIV) (w18470)

 

640?wx_fmt=png

 

所以在三月底的會議當中確定了開發Test Model軟件平臺,其中包括Encoder和Decoder。編碼端核心依然使用傳統的編碼器,它的作用主要是從多路輸入的視頻中篩選和組織有效信息,做編碼之前的前處理;在解碼端仍然使用傳統的解碼器,但需要額外接收一些Metadata,並進行拆解和渲染恢復。

 

640?wx_fmt=png

 

上圖是在本次會議定義的一些需要繼續發展的核心實驗。

 

1.4.8 Timeline of Metadata for Immersive Video

 

640?wx_fmt=png

 

目前MPEG的計劃是在今年十月完成標準化工作,需要注意的是它仍然使用傳統的編解碼核心,只是外加一些Metadata和對的處理。

 

1.4.9 6自由度巡航(Free Navigation)

 

640?wx_fmt=png

 

前面講到的是3DoF+,即在十分有限的範圍裏可以移動視點;之後的發展方向是用戶可以在更大的範圍做更自由的視點移動,被稱爲6DoF。

 

1.4.10 MPEG-I Visual 6DoF Activities

 

640?wx_fmt=png

 

繼續沿用3DoF+無法滿足更高自由度的視角朝向移動,針對6DoF+的發展將不僅限於使用新的Metadata,而且可以根據需要改變核心的編解碼方案,具體內容目前還在探索當中。

 

1.4.11 MPEG-I Immersive Media Coding Formats

 

640?wx_fmt=png

3DoF+無論如何都是多路視頻,依然是以視頻的形式進行處理與傳輸,視頻都是由二維均勻採樣的點陣構成的。針對高自由度應用需求,對三維空間採用點雲的方式非均勻採樣,是一種新的視覺信息的表達方式。

 

1.4.12 Point Cloud Compression: V-PCC

 

640?wx_fmt=png

 

有意思的是,點雲的壓縮方案最終還是把三維空間中的點投影到了六個平面上,最後將投影成的小片圖像拼接組合起來,最後還是採用2D的視頻編碼進行壓縮。

 

640?wx_fmt=png

 

未來對於高自由度的使用場景,可以考慮不同的對象用不同的方式去表達,基於不同的表達再進行壓縮的編碼。比方說背景做成2D的影像,對於對象則採用點雲的方式表達。

 

1.4.13 Workflow of Immersive Visual

 

640?wx_fmt=png

 

作爲沉浸式的視覺媒體來說,有不同的解決方案可以使用,甚至包括組合使用解決方案。

 

1.4.14 MPEG標準化路線圖

 

640?wx_fmt=png

 

上圖是目前最新的MPEG標準化路線圖,其中紅色部分與Immersive Visual Content編碼密切相關。

1.5 總結

 

640?wx_fmt=png

 

總結來說,目前沉浸式媒體數據量非常大,表達形式也是多種多樣,爲高效的壓縮帶來了更大的挑戰,除了技術問題之外,知識產權也是在技術發展生態中比較值得關注的問題。

LiveVideoStack  招募

LiveVideoStack正在招募編輯/記者/運營,與全球頂尖多媒體技術專家和LiveVideoStack年輕的夥伴一起,推動多媒體技術生態發展。同時,也歡迎你利用業餘時間、遠程參與內容生產。瞭解崗位信息請在BOSS直聘上搜索“LiveVideoStack”,或通過微信“Tony_Bao_”與主編包研交流。

640?wx_fmt=jpeg

LiveVideoStackCon 2019北京 音視頻技術大會 初版日程現已上線,掃描圖中二維碼或點擊【閱讀原文】瞭解大會最新日程。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章