週末活動回顧：視頻質量主觀評價、實時RTC架構和AV1進展

問題背景：

週末去網易參加了一個小型的音視頻活動，活動上來自Bilibili、網易雲信、微幀科技的大佬分別就視頻質量主觀評價、5G低延時通信、AV1等話題進行了分享。本篇文章記錄下我的收穫和一些關鍵點，做個搬運匠，放一些當時的PPT和我的一些理解，希望對你有所幫助。

瞭解更多可以關注本人公衆號：智媒黑板報

Bilibili湯然：視頻質量主觀對比分析實踐

簡要介紹：

湯同學目前主要在B站負責轉碼系統的開發和維護，主要講解了下面幾點內容：

1. 上來先從兩個方面介紹了爲啥要轉碼？

首先要適配多用戶和多播放器，因爲PC、移動、Web這些播放器需要的音視頻編碼格式、封裝格式、傳輸協議都是不同的，所以將單一的片源轉碼進行轉碼以適配這種一對多的情況。

其次降成本，不同的視頻質量背後都是流量和存儲的成本，所以轉碼主要爲了在兼顧用戶體驗的情況下同時要考慮降成本。

2. 轉碼出來的視頻質量怎麼評估？

既然轉碼是實實在在的需求，那麼怎麼評估轉出來視頻的質量？湯同學分別給出了PSNR、SSIM、VMAF三種業界主流的主觀評價方法，當然沒有講解這三種方法背後的原理，只是過了一下，後文我附了一些鏈接，大家學習參考下，他們選擇的是VMAF方法。

3. 如何設計轉碼主動評價軟件？

湯同學最後給了下自己部門設計視頻質量主觀評價軟件的設計方法：基本是把源片A視頻和轉出來的視頻B，同時塞進基於FFmpeg+SDL2的播放器，然後將這兩個視頻渲染到同一個窗口上，左邊是A視頻的渲染效果，右邊是視頻B渲染的效果。這樣通過對比就可以從主觀方面基本得到轉碼後視頻的質量高低：

同時給出了設計這樣一個視頻分析軟件還需要有的功能，其實這就是在普通播放器基礎上加上一些花式播放和給出一些關於視頻質量計算的數據信息:

遺留了兩個思考問題：

A. 計算視頻質量分數和主觀感受不一致時如何辦？如何權衡和取捨？

B. 對於一些老片翻新或者超分特殊場景，片源的視頻質量本身就不高的情況下我們又應該選擇什麼樣的評價視頻質量手段來解決這個問題，因爲上述的評價算法都有一個前提假設，源片的質量都是比較高的情況下，也歡迎讀者對這兩個問題的分享。

感受總結：

自己雖然對這塊沒有親自實踐過，以前只是有所耳聞，但是還是感謝湯同學的分享，大概瞭解這塊內容如何開展以及會涉及到哪些問題等。

網易雲信吳桐：超高清4K視頻低延時直播和RTC融合架構設計

簡要介紹：

吳同學講的比較多，我覺得也是一下午講的最好的，介於一些時間關係很多都沒來得及講。吳同學講解的內容主要是：

1. 5G和未來網絡格局

這塊一般都是大佬高屋建瓴的部分，哈哈，其實我覺得5G會給音視頻行業帶來比較重要的工具是：邊緣計算和定製路由，也就是5G允許雲平臺服務廠商可以自己定製路由，同時允許將一些媒體服務下沉到用戶側，顯然這樣對低延時和擁塞控制這塊都是有好處的。其次吳同學認爲應該快速普及IPV6，國內這塊速度明顯還是偏慢了，提示我們要做好服務器和客戶端對IPv6的支持工作：

2. 超高清編碼

這塊比較講的簡單，主要是給了一些選擇編碼器的建議：

其實我覺得H.264在未來依然還是市場份額最大的，至少未來五六年我估計其它編碼器並不能把H.264送進墳墓，其中Zoeliu老師給出答案說未來十年H.264可能還會活躍在音視頻各個領域，就拿視頻監控領域來說，H.265出來幾年了，大部分攝像機的首選編碼格式還是H.264.因爲H.265專利費拖慢了市場佔有率，VVC即H.266還沒定稿，大概明年纔會出標準，從標準到商用編碼器出來還尚需時間，AV1目前雖然有谷歌加持同時也帶着一幫大佬在顛覆MPEG，但是實時性能跟不上目前也是事實。

3. 低延時直播和RTC架構

吳同學這塊講的最多，先分析了導致音視頻延時的原因，今天他主要講解傳輸維度，分別從傳輸協議、擁塞控制算法、分發網絡拓撲、第一公里角度等講解了低延時這塊網易雲信的實踐：

傳輸協議先比較了RTMP和SRT協議的優缺點，再提出了自研基於UDP協議。從各種RTC大會來看，大家基本都認可這麼一個觀點：要做好低延時實時視頻，還是要果斷拋棄TCP，無論自研還是選用開源項目，都要基本UDP，至少我也認爲這個方向是正確的。

自研傳輸協議降低延時：

對比RTMP Over TCP Or Over Quic優缺點：

SRT協議優缺點：

自研傳輸協議：

對於傳輸擁塞控制算法，基本還是對比了GCC算法和BBR算法的優缺點，其次講解了BBR算法的原理，網易雲信對這塊的實踐基本是BBR算法和GCC算法交叉使用。根據不用的業務場景選用不同的擁塞控制算法，因爲擁塞控制算法想達到一個比較好的效果都有它的場景和前提，最後介紹了目前基於AI對擁塞控制這塊的處理新算法PCC算法，雖然雲信還沒實踐，但是覺得這個算法是解決這類問題的新思路，後面保持關注會跟進。

GCC算法和BBR算法降低延時：

下面這張圖其實我在前文已經發過了，這種圖比較好需要仔細琢磨，帶寬延遲積的最大帶寬和最小延遲這兩個值不能同時得到，同時分析了BBR算法和原理和存在問題，也給出了網易雲信對這塊的優化處理，如果對BBR算法基礎不太瞭解，參考前文：

給出了一個場景下，對GCC算法和BBR算法的效果對比，目測來看BBR對帶寬的預估還是比較好的。

優化服務器分發網絡降低延時：

先給出目前CDN分發網絡樹形架構的弊端，提出了網易雲信的服務器低延時拓撲架構：

第一公里的低延時處理方案：

這塊大家的基本處理思路我覺得都差不多，基本網易雲信說的這些其它雲平臺服務廠商都注意到了，基本大家都是對這些點進行優化，覺得變化比較大的還是傳輸協議和分發網絡這塊，各個雲服務廠商實現差別比較大。

4. 未來期望

老師這部分還講解了未來要實現低延時，還有哪些事情可以繼續優化？其中一個思路是客戶端訂閱自己目前的碼率需求，服務器端進行探測下行帶寬然後智能決策下行的碼率，做到用戶無感知無縫切換，其次關注AI算法對壓縮和超分重建、擁塞這塊的處理，

感受總結：

最後這位吳同學覺得未來音視頻和AI應該會聯繫的更加緊密，不管是擁塞控制這塊還是編解碼這塊，應該都能看到AI技術在這方面的落地和應用。其次AR技術可能在5G到來後，實際落地應用應該會取得突破，這門技術在4G受帶寬和低延時限制，導致體驗很不好，5G加持應該那種眩暈感和體驗方式會帶來新變化，同時邊緣計算可能也比較有想象力。最後IoT時代可能會進一步推廣音視頻的應用範圍和廣度。

微幀科技Zoeliu：實時視頻通信中的Av1優化

概要介紹：

其實我們項目現在也開始預研Av1的編解碼技術，所以去聽了哈，這個公司還是我們園區的，經常還能碰到Zoeliu。雖然沒有過多幹貨，但是覺得同學跟老師探討的內容更有趣點吧，給大家分享一部分，後面的PPT貼幾張隨便看吧。

1. AV1無論從壓縮率還是視頻質量上目前的確優秀於H.265和VP9，但是速度還是有點慢，想達到實時編解碼還是有困難，目前30fps尚可使用，60fps的編碼速度還是跟不上H.265和VP9，所以AV1想落地先建議點播領域用起來，的確是可以降低成本和帶寬的；

2. AV1能達到比較好的壓縮率和視頻質量主要是裏面大概有70多個編解碼算子疊加的效果，所以要想速度快目前就得有點取捨；

3. AV1存不存在專利池問題，聽老師大概的意思是比H.265好的多，因爲要成爲AV1的成員首先得放棄當AV1的專利和自己專利衝突時的權益，所以說AV1還是可以大規模使用的。

4. 對於編解碼算法的三大組織MPEG\AVS\AOM，老師也承認咱國內的AVS目前還是可以的，希望在不久的未來能有中國人自己的編解碼算法，也希望能讓該技術成長爲5G 一樣讓國人感覺到自豪的技術。其實AVS這個編解碼算法，在我兄弟公司已經進行了商業化，國內海思芯片也進行了支持，目前發展態勢還是可以的，至少在廣電領域還是非常有話語權的。同時國內視頻監控行業的編解碼算法首先定的就是AVS，只是這些安防廠商還沒有正式落地，應該隨着國家的強推，詳細AVS生態會越來越好的。

5. 也談了AV1和AI算法跟編解碼的結合，基本結論就是AI算法現在還沒有徹底顛覆掉傳統編碼算法，更多的一些核心步驟的優化，達不到端到端的優化。但是AI算法對於傳統算法是一種很好的補充，在一些特殊步驟上，應用AI算法對編碼速度、質量、成本都是很好的提升，應該會越來越緊密。

放一些PPT：

三大編解碼算法組織目前進展：