“智感超清”之HDR技術落地實踐

本文由百度智能雲-視頻雲音視頻處理技術架構師——邢懷飛,在百度開發者沙龍線上分享的演講內容整理而成。

內容從百度智能視頻雲的核心競爭力:“智感超清”出發,梳理了智能視頻雲相關的產品概念和技術。在詳細介紹了HDR技術的概念基礎上,結合相關“智感超清”能力,重點分享了HDR技術的應用實踐。

文/ 邢懷飛

整理/ 百度開發者中心

視頻回放:https://developer.baidu.com/live.html?id=7

 

本次分享的主題是:智感超清之HDR應用實踐。內容主要分爲以下三個部分:

  • 智能視頻雲3.0 & 智感超清介紹

  • HDR技術概念解析

  • “智感超清” HDR技術應用實踐

 

 

01 百度智能視頻雲3.0&智感超清介紹

 

百度智能視頻雲3.0介紹

上圖就是百度智能視頻雲3.0的全景圖。可以用三句話概括:

 

第一,雲智一體化

即百度目前所有的視頻雲產品都實現了智能化。可以看到,圖中標註的部分,“智感超清視頻處理”的核心能力就包括了:智能編碼、智能處理、智能抽幀、版權保護。其中,“智感超清”是視頻處理產品的一個核心競爭力品牌。

 

第二,服務平臺化

結合底層的雲智一體的能力,我們搭建了兩個平臺:視頻創作分發平臺,視聯網感知平臺

其中,創作分發平臺面向泛媒體和泛互聯網場景,可以提供端到端一站式的視頻服務。而視聯網感知平臺,面向傳統監控產業,對視頻端設備和泛視頻數據流進行統一接入、分析和管理。

 

第三,應用場景化

結合具體的應用場景,百度智能視頻雲在泛互聯網、泛媒體和泛產業方向提供了定製化的智能視頻方案覆蓋互動娛樂、內容生產、智能分析、遠程實時通訊、生產管理、安全管理等場景。

 

“智感超清”MCP視頻處理產品

 

以上是智感超清 MCP視頻處理產品的一個功能框架圖。下面簡單介紹一下每一層的結構與內容。

 

接入層與其他雲上產品類似,MCP視頻處理產品提供兩個主要入口:Console、API&SDK。

用戶可以通過控制檯(Console)進入並進行相應的配置。而對於B端的客戶,更可以靈活地採用API/SDK的方式對產品進行訪問。

 

基本功能層:包括基礎的雲上轉碼的功能,也包括基本的視頻剪輯/拼接/截圖/字幕疊加等附件的功能。

雲上轉碼可以把用戶上傳的視頻進行一個全格式、全協議的轉換,以滿足於不同客戶場景下、不同網絡情況、不同終端的適配,並可以靈活的做多碼流切換。

 

智能視頻處理層:這部分是“智感超清”整個產品核心打造的能力。抽象出以下三個層面介紹:

  • 第一:智能畫質提升

    通過AI的手段或其他傳統的手段對輸入的視頻進行預處理,然後再進行轉碼處理,會帶來比遠視頻更好的視覺體驗。其中,智能HDR轉換,也是和今天分享強相關的技術。

  • 第二: 智能老片修復

    之所以把這個門類單獨出來,是因爲針對這些老片,我們需要有特定的技術進行修復,以達到升級的用戶體驗。具體功能包括:劃痕去除,噪點去除和智能上色。

  • 第三: 智能視頻編輯

    這一部分是基本的視頻編輯能力。包括智能字幕、智能去黑邊、智能去抖動等。

     

    以上三個功能模塊構成了智能視頻處理的核心能力。 

     

智能視頻編碼:這一層是比較底層的視頻編碼能力介紹 。

主要包括:內容指定編碼、ROI編碼、4k/8k編碼 、還包括百度自研的BD265編碼器等。

 

介紹完產品框架圖,我們再介紹一下智感超清的核心競爭力在技術上如何實現。

 

第一部分是智能視頻處理。

智能視頻處理的核心目標是提升畫質 。它能夠通過視頻預處理的方式使得在視頻的分辨率、幀率、色深、色域等各個方面都能有一個較大提升。

 

其中比較核心的能力包括:SDR2HDR、超分、插幀。

 

在超分和插幀上都是基於AI模型目前,在超分模型上,已經研發了視頻級別的一個超分模型;在開源數據集上,已經達到了SOTA;在插幀的算法上,也有自研的算法,可以實現任意幀的一個插幀。

 

在智能老片修復上,百度也和其他的單位合作,構建了一個完整的數據集。比較典型的場景如:膠片上老片的物理損傷,包括其它磁帶的一些損傷,“智感超清”產品通過對圖像畫質進行多維處理,能夠在不增加視頻帶寬成本的情況下,實現畫面質量的大幅提升,打造視頻的“極質”體驗。

 

第二部分是智能視頻編碼。

智能視頻編碼方面,已經研發上線了AI驅動自適應的編碼。該模型可以根據視頻本身內容分析,預測出最優的視頻碼率與分辨率,並能夠與ABR協議結合,生成一組最優的編碼配置。與此同時,構建了一個數百萬場景級別的數據集,將VMAF當成視頻質量評分的一個指標。

 

不僅如此,百度還自研了BD265編碼器,開發了60多種算法,並考慮主觀驅動的算法去提升視頻的畫質並節省碼率。

對比開源編碼器,BD265編碼器提升了30%的碼率,速度上也提升了2~4倍。該編碼器參加了去年的MSU大賽,在VMAF上也達到了top2的水平。這個是我們前面對智能視頻處理和編碼的一個簡單介紹。

 

通過前面的簡單介紹,相信大家對智能視頻雲有一個基本的認識,並對“智感超清”產品有一個初步的瞭解。在下一章節,將給大家重點介紹HDR相關的技術。

 

 

02 HDR技術概念解析

 

什麼是HDR

 

 

HDR的特點可以用三個“更”字概括。

  • 更高的亮度範圍

    相對於 SDR來說,HDR可以達到10000nits的最高亮度。這使得它能夠更好地展示明暗對比,在亮度方面,更加貼近人眼的對物理世界的感官認知。(可以參考上圖HDR和SDR的效果對比)

     

    更廣的色彩範圍

    上圖左下角示例,是一個CIE 1931色彩空間的表達。傳統的709領域(即:高清),能夠覆蓋35.9%的色彩範圍,而到了2020領域(即:超高清),已經能夠覆蓋75.8%的色彩範圍。

     

    那麼,如何去表達這種更寬的色彩範圍呢?需要我們更高的比特也就是更高的位深去表示。

     

    這也對應了HDR的第三個特性:

  • 更深的色深(位深)

    基本上hdr都是在10比特,更高的要達到12比特才能達到。以上是我們對HDR效果的一個簡單介紹。

 

HDR端到端系統流程

之所以想介紹這個流程,是因爲HDR它不是一個單點的技術概念,它涵蓋了從視頻的拍攝、製作 、視頻編碼、解碼、播放、傳輸等一系列流程。需要整個HDR技術生態上的企業相互配合,才能完成整個HDR端到端的系統。下圖形象的展示了整個系統流程:

視頻錄製(光電轉換)→後期加工(產生元數據)→獲取HDR視頻及相關的內容元數據→壓縮傳輸→解碼→顯示器顯示播放(電光轉換)

 

HDR技術相關概念

1. 光電/電光傳輸曲線

將自然界中真實場景轉換爲屏幕上顯示出來的圖像,需要經過兩個主要步驟:

1.  通過攝影設備,將外界光信息轉換爲圖像信息存儲。本質上存儲爲數字信號。

2.  通過顯示設備,將圖像信息轉換爲屏幕輸出的光信息。

 

整個過程中,信息流要經過兩個重要的非線性映射,才能形成我們在顯示設備上看到的圖像。這兩個重要的非線性映射過程,我們又稱光電/電光傳輸曲線。

下面介紹三種常見的光電/電光傳輸曲線

  • Gamma曲線

    是一種在傳統的SDR顯示設備上被廣泛使用的轉換曲線。

    對應的標準是:BT.1886,峯值亮度僅爲100nits。

    隨着顯示設備亮度範圍的提升、圖像編碼bit depth的提升,使得傳統Gamma校正不再適用HDR的光電轉換過程。

     

  • PQ曲線

    由杜比實驗室根據Barten的人眼模型提出的電光轉換曲線。峯值亮度可以達到:10000nits。

    優點:能夠提供更高的亮度範圍。

     

  • HLG曲線

    由BBC和NHK聯合提出的光電轉換曲線。

    優點:兼容SDR的顯示和播放。在廣電領域被廣泛應用。

 

2. HDR元數據

定義:描述視頻或圖像處理過程中的關鍵信息/特徵。產生於視頻的製作階段,主要包含色彩和亮度兩大方面信息。

 

分類:按構成結構上分類,可分爲靜態元數據和動態元數據。

  • 靜態元數據:視頻中採用單一的元數據去控制每一幀的色彩和細節,元數據並不會發生變化。易造成某些大動態場景的畫面暗部或者高亮細節丟失。

  • 動態元數據:視頻中的採用變化的元數據去控制每一幀的色彩和細節。通過動態元數據,我們還可以根據用戶的顯示情況,利用tone-mapping (色調映射)的算法進行更多的適配。

 

3. HDR常見格式

前面也提到,HDR不是一個單點的技術概念,而是一個端到端的生態。從上述圖中也可以看到,HDR的格式生態十分的複雜,正是由於此,HDR的標準有些割裂,並不像視頻編碼一樣那麼清晰。若按照光電/電光傳輸曲線的種類來劃分,可以分爲以下幾個大的標準類型:

  • HDR10:由美國CT組織牽頭的一個開放標準。完全開源免費。

  • HLG:是由BBC和NHK聯合開發的高動態範圍HDR的一個標準。HLG不需要元數據,能後向兼容SDR。

  • HDR10+:爲抗衡DolbyVision, 由三星推出的一個部分免費的標準。採用的是動態元數據。

  • DolbyVision:Dolby Vision使用基本層+增強層來實現向下的兼容性。並使用動態元數據來描述所有場景。但它是一個收費標準,授權體系較爲複雜。

  • HDR Vivid:是國產的一個標準。在現有傳輸曲線和色彩空間標準的基礎上,增加動態元數據的描述,開源免費且兼容性好。

 

 

03 “智感超清”HDR技術應用實踐

 

典型超高清HDR應用需求

 

 

隨着5G通信的發展,給視頻行業帶來全新的變革,對應的終端能力也越來越強,互聯網超高清應用空前爆發,這對超高清視頻的要求也越來越高。通常,我們所說的超高清視頻包括以下六要素

  • 高分辨率

  • 高幀率

  • 色深解析

  • 寬色域

  • 高動態範圍

  • 全景聲音頻

這其中,4K、HDR等技術貫穿整個從採集、製作、呈現等整個端到端的流程。

 

下面看一下需要如何的技術儲備,才能實現如此端到端的流程?

HDR處理流程與需求分析

內容生產:

用戶拍攝HDR視頻上傳到雲端。在這一階段,平臺需要具備以下HDR的處理能力:

  • HDR視頻雲端編輯能力

  • SDR素材適配

  • HDR中間層(Mezz)文件的編碼

  • 元數據的生成

  • 元數據的透傳

 

存儲(壓縮)/處理(傳輸)階段

在HDR視頻編碼和處理階段,需要以下過程:

  • HDR轉SDR。  這涉及到重要的色調映射過程。

  • 多種輸入格式自動適配。

  • SDR轉HDR。  可以通過AI的方式,將SDR轉換爲HDR。

  • HDR格式互轉能力。HDR的格式多樣,能夠支持各種HDR格式互轉十分重要,如HDR10轉HLG。

  • HDR元數據的寫入、透傳。在原始HDR視頻基礎上,能否在碼率壓縮後寫入,這也對雲端能力提出了要求。

     

HDR顯示:

在視頻播放階段,需要一定的策略在端上做相應的適配。具體來說,需要實現:

  • HDR終端視頻播放

  • SDR終端視頻播放

  • 端上自動適配

在接下來的章節,會詳細分析各項技術的實現過程。

 

HDR轉SDR

HDR轉SDR的過程實際上是一個色調映射的過程。(Tone Mapping Operator)

HDR和SDR視頻的亮度空間和色彩範圍都差別很大,這其中的轉換過程較爲複雜。通俗理解,色調映射就是一個將HDR的圖像或者視頻,轉換爲SDR的圖像,並在SDR顯示設備正確顯示的技術。

以下是典型色調映射處理的流程:

1. 預處理

通過預處理,將圖像的亮度信息轉換爲log域。

2. 圖像分解

通過圖像的保邊濾波器,將圖像分解成基礎層和細節層。

3. 亮度信息提

將提取出的基礎層亮度信息通過不同的色調曲線進行壓縮,並將壓縮後的亮度信息加在細節層上。

4. 後置處理

通過後置處理,進行顏色校正,得到SDR圖像。

在色調映射過程中,最重要的是如何選擇不同的實現算法。這需要結合實際的應用場景。

 

SDR轉HDR

SDR轉HDR也是一個十分複雜的過程,不僅僅是變換顏色空間和動態範圍,更需要考慮暗部細節增強與過曝細節的修復、對比度的提升、色調保持不變、色彩增強處理以達到HDR的要求以及通過算法實現對噪聲的控制。

在亮度方面:希望通過SDR視頻中殘留的,過度曝光和曝光不足區域的信息,儘可能地恢復這些區域內丟失的細節。

在色彩方面:通過SDR視頻中受限的色彩,估計出原始場景的色彩,讓恢復出的HDR視頻的色彩儘可能地接近原始場景中豐富而真實的色彩。

 

上圖可以看到傳統方法對SDR轉HDR的過程,主要是通過線性轉化的方式,對過曝/欠曝的區域進行重建。

目前AI的方法,在超分和增強領域用的非常多,由於它使用的是非線性的表達,一般認爲通過AI的方法可以實現SDR轉HDR的更好效果。

 

基於AI的端到端SDR轉HDR方案

 

特點:

  1. 採用全局/局部信息融合的方式。

  2. 採用Residual Connection殘差學習。

  3. Squeeze-Excitation,channer維度自注意力算法加持。

  4. 超高清預測分辨的速度快。

     

以下是基於AI的SDR到HDR的效果展示:

 

可以看到,基於AI的SDR到HDR的轉換,在提升動態範圍的同時,還補充了曝光不足區域(陰影)的部分細節。整個畫面細節更豐富,層次更分明,整體的色彩飽和度上也有明顯的提升。

在AI模型的訓練過程中,數據的積累十分重要。這也是該方案在後續需要優化的地方。

 

HDR格式之間的轉換

HDR的格式多樣,所以能夠支持HDR格式之間相互轉換十分必要。與轉碼類似,HDR格式上也需要做一個統一分發。

要理解HDR格式相互轉換的這個過程,需要對PQ系統模型和HLG系統模型有一個深刻的理解。

1. PQ系統模型

環境光經過光光轉換曲線、逆電光轉換曲線,變換成PQ的電信號。在顯示階段,經過電光轉換曲線,變成顯示光。

 

2. HLG系統模型

環境光經過電光轉換曲線,變換成hlg的電信號。在顯示階段,通過逆電光轉換曲線、光光轉換曲線,變成顯示光。

HLG系統模型從流程上看,基本與PQ系統模型是相反的。

 

HEVC HDR支持

這部分以HEVC爲例,重點介紹編碼在HDR上是如何承載的。

HEVC對元數據的承載包含兩個部分的重要信息。

  • VUI信息

     VUI是在H.264/AVC和H.265/HEVC序列參數集中攜帶的元數據元素的集合,它們共同描述了實際視頻信號如何在樣本流內存儲和映射,包括編碼信號的參數或屬性、色彩空間、傳輸曲線等。

     

  • SEI信息 

    SEI是用來保證SDR與HDR之間的互用性的機制的方法,用於實現在接收器或者播放器中實現直接顯示或轉換顯示的過程。

    它主要包含製作的描述性信息(或色彩容積轉換)、Tone mapping信息、Color remapping信息、Knee function信息。

 

對HDR元數據的解析也是非常重要的能力。只有將原視頻的HDR元數據保存並解析下來,才能將處理完的元數據寫入以保持HDR的效果。

“智感超清”HDR客戶落地案例

“智感超清”HDR目前已經服務各行業的客戶,滿足用戶需求。

  • 在廣電領域行業,能夠滿足用戶標清、高清到4k轉換的需求。

  • 在電影行業,通過AI技術對老片進行修復,做超高清處理,提升整個在處理過程中的效率,降低成本消耗,同時讓老舊片子真正重新煥發生命力。

  • 在新媒體行業,依託百度智感超清的諸多能力優化視頻體驗,也增加了很多視頻編輯能力,包括非線編能力,極大的提升編輯在創作內容過程中的效果。

  • 在互聯網領域,服務於互聯網視頻用戶,一方面提升了視頻質量,另一方面降低了帶寬成本 解決UGC場景下視頻質量較差的問題。

 

以上是老師的全部分享內容。如有任何疑問,可以在留言區提出。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章