字節跳動VQScore算法拿下ICME 2021“壓縮UGC視頻質量評估”比賽第一名

在ICME 2021國際視頻質量評估算法競賽中，字節跳動拿下第一。

在多媒體領域世界頂級學術會議ICME 2021的「壓縮UGC視頻質量評估」比賽中，字節跳動旗下火山引擎多媒體實驗室組成的“QA-FTE”隊伍，憑藉自研的VQScore算法，拿下了該比賽「無參考視頻質量評價（NR-VQA）MOS賽道」的第一名。

與QA-FTE同場競技的，還有另外11支來自不同國家的隊伍，包括上海交通大學、深圳大學、日本東京工業大學和印度理工學院等知名院校均參加了比賽。整場競賽包含兩個賽道，分別對應VQA領域兩類主流的解決方法：

無參考視頻質量評價（NR-VQA）MOS賽道：在參考信息缺失的前提下對損傷視頻質量進行評價；
全參考視頻質量評價（FR-VQA）DMOS賽道：衡量參考視頻和損傷視頻之間的質量差異。

除了在無參考視頻質量評價（NR-VQA）MOS賽道中包攬全部最高分之外，在全參考視頻質量評價（FR-VQA）DMOS賽道，火山引擎多媒體實驗室同樣拿下了部分指標的最高分。

什麼是「壓縮UGC視頻質量評估」

到底什麼是「壓縮UGC視頻質量評估」？

視頻質量評估，就是用算法模型來自動評判一段視頻的質量，比如清不清晰、有沒有噪點、畫質好不好，給出高低不同的分數。視頻質量的高低，直接影響到用戶看視頻的體驗。

有了自動評估視頻質量的算法模型，就可以在用戶生產視頻、系統處理視頻的過程中自動的用一些手段來更好的處理視頻。

比如評估發現一段視頻分辨率太低讓人看不清楚，就可以用超分辨率算法讓它清晰起來；或者評估發現一段視頻噪點太多，就可以用去噪算法減輕這些噪點。

比如發現視頻本身已經很模糊了，就把轉碼的碼率調低，節省系統帶寬，也幫觀看用戶省點流量。

比如用戶拍攝視頻的時候發現當前場景是逆光的，人物五官都看不清楚，就可以提示用戶：該調整下燈光和角度了。

可以理解爲，視頻質量評估就是一場視頻們的「入學考試」，根據考試的分數，算法老師們因材施教，讓每一段視頻都看起來更美觀。

但和傳統的專業電視臺拍攝的視頻相比，給UGC的視頻打分是更困難的一件事——畢竟在做視頻這件事上，你沒有辦法低估網友們的腦洞。

比如UGC的視頻裏，包含用戶拍攝的自然風景、食物、建築、人像、動物等各種題材的內容，甚至有些不是自然拍攝，而是遊戲錄屏，並且還會加上五花八門的字幕。

比如有的視頻本身並非豎屏視頻，爲了在移動端播放，就在上下加上背景填充。填充的圖案其實是很清晰的色塊，但中間的視頻可不一定清晰，你不能因爲兩側的填充圖案看起來很清晰，就判斷這個視頻很清晰。

再比如這種大頭特效，特效的部分很清晰，但特效之外的人物部分卻有些模糊，這到底是算清晰還是不清晰？

另外，因爲UGC拍攝有各種情況，用戶手一抖，視頻就變模糊，噪點、過曝、抖動、失真，各種問題交織在一起，算法很難評價。

火山引擎多媒體實驗室研究出的算法VQScore就是專門做視頻質量評分的，訓練這個算法的數據集都是衆包用戶根據自己的審美和觀看感受來評分的，能夠保證算法的評分契合大部分普通觀衆的觀看體驗，此前已經有了2年多的積累。

目前，VQScore系列視頻質量評估算法不僅在抖音、西瓜視頻等產品落地，並且已經作爲火山引擎視頻點播服務的一部分對外開放。

從用戶出發，巧「拆」數據集

回顧整個參賽過程，火山引擎多媒體實驗室的同學也曾遇到過模型分數的瓶頸，無論怎麼優化，都無法提升分數。

這裏需要說明，整場比賽的數據集均來自一些視頻App中的真實視頻，包含：

訓練集：6400個訓練視頻片段
驗證集：800個驗證視頻片段
測試集：800個測試視頻片段，用於對參賽模型進行比較和評分，參賽者無法獲取。

每個視頻被H.264/AVC編碼器壓縮成損傷程度由弱到強的7個壓縮片段，主辦方通過主觀測試針對每一支視頻片段收集了超過50個主觀MOS評分。

參賽者訓練模型的數據必須來自比賽主辦方的官方數據，不可以用自己的數據。數據就是訓練模型的原材料，如果數據不足，那麼算法工程師們常常會遇到巧婦難爲無米之炊的難題，雖然不是「無米」，但「米」的數量並不夠用。

怎麼才能提升「米」的數量呢？

作爲有豐富數據處理經驗的工程師，火山引擎多媒體實驗室參賽同學決定直接挨個看數據集裏的視頻，看了很多樣本之後發現了突破口：

原本的方法裏，用到了很多時域信息——通俗來講，就是隨着視頻時間進度條的進展，視頻的每一幀之間都是有相關性的，視頻的主角完成一個動作、場景發生一點變化，前後幀之間都是有聯繫的。

比賽數據集中的視頻，大多隻在短短的10秒左右，時域信息相當穩定，畫質也沒有明顯變化。

因爲對數據和用戶都有深刻的理解，根據多年處理數據的經驗，工程師們意識到一件事情：

用戶其實對時域並不敏感，更注重每一幀裏的畫面信息——也就是空域信息。

本着尊重用戶體驗的出發點，他們做出了一項更爲務實的權衡：

把單個的視頻數據集，拆成分散的幀來用。

在看重時域信息的方法中，數據集中的每個視頻都被當做單獨一個數據用來訓練，總共6400個輸入數據。但如果放棄時域信息，把每個10秒鐘左右的訓練視頻拆成單獨的幀，就可以獲得300幀左右的數據，相當於訓練算法的數據集增大到原來的30倍，6400個輸入數據就可以變成192000個。

並且這種新的方法還獲得了一個額外的好處——避免了過擬合，也就是模型死記硬背了訓練集裏的答案，在測試集裏表現失靈的情況。“時域信息用太多會過擬合，相當於我們犧牲了一小塊，保留了更大的蛋糕。”

參賽模型的技術實現

火山引擎多媒體實驗室在比賽中不僅使用了較爲傳統的CNN（卷積神經網絡），另外考慮到Transformer在NLP領域取得巨大成功，決定採用Transformer進行UGC視頻的質量評估，提出了一種CNN和Transformer相結合的框架，採用CNN提取局部特徵，利用Transformer結構通過自注意機制預測主觀質量分數。

無參考模型框架如上圖所示。

火山引擎多媒體實驗室使用卷積神經網絡（CNN）作爲特徵提取器來計算輸入視頻塊的深度特徵。提取ResNet不同層的特徵，在空間維度上利用MaxPooling將這些特徵降採樣到相同大小，並在特徵維度上進行拼接。將該特徵的空間維度展平並進行Linear projection，並添加embedding作爲Transformer的輸入：

採用的Transformer架構遵循標準的Vision Transformer，包含L層多頭注意力模塊(MSA)和多層感知器模塊(MLP)。Transformer與MLP頭連接，用於迴歸最終的主觀評分。

用於訓練的損失函數均方誤差l1-Loss和PLCC-Loss加權相加構成：

PLCC表示一個batch內預測值和groudturthlabel的相關性，其值歸一化至[-1,1]，PLCC值越大性能越好，因此PLCC損失表示爲：

全參考模型框架如下圖所示。reference patch和對應位置的distortion patch輸入共享權值的孿生神經網絡分別提取深度特徵，並在特徵空間的計算L1距離，拼接成新的特徵輸入迴歸模塊映射得到主觀DMOS分值。

如下圖所示，在訓練過程中，從壓縮視頻片段和相應的參考視頻片段中隨機裁剪出一個256×256的圖像塊patch(針對FR框架)，然後將壓縮視頻的質量評分直接作爲裁剪patch的訓練標籤。測試時，從每一幀的四個角和中心裁剪得到5個大小爲256×256的patch分別計算分值(FR框架)，所有patch的平均得分作爲壓縮視頻的預測分。

在實驗中，用於特徵提取的ResNet18網絡使用在ImageNet上預訓練的用於分類任務的網絡的權值進行初始化，並使用相同的學習率與框架的其他部分一起進行訓練；Transformer包含2層，MSA頭數爲16。在加權w1=1.00, w2=0.02的條件下，利用L1損失和PLCC損失聯合優化框架。

通過對比競賽結果中的各隊伍在測試集上的性能指標（PLCC/SROCC/KROCC/RMSE）以及SOTA FR/NR算法預測質量分數散點圖，對提出模型的性能進行驗證，其中PLCC/SRCC/KROCC越接近1越好，RMSE越接近0越好。

A. MOS track：

Comparing with SOTA NR-VQA metrics：

B. DMOS track:

Comparing with SOTA FR-VQA metrics：

對於直接預測壓縮損傷視頻MOS分的NR方法，火山引擎多媒體實驗室提出的NR框架在所有評價指標中排名第一；對於預測參考視頻和損傷視頻質量差異DMOS分值的FR方法，火山引擎多媒體實驗室提出的FR框架在預測單調性(即SROCC和KROCC)方面排名第一，在預測精度(即PLCC和RMSE)方面排名第二。同時通過散點圖可以看出，提出的方法與主觀評分具有較高的相關性，顯著超出了其他的SOTA FR/NR方法。

目前行業內，視頻畫質好壞直接影響實際業務QoE，已經是不爭的事實，包括完播、留存、關注等。模仿人類主觀感受是一件非常困難的事，受到很多因素的干擾。而用戶真實感知，和學術上那些行業已有衡量體系（PSNR、SSIM、VMAF等）仍有鴻溝，包括他們彼此之間評價標準，也不完全統一。導致在視頻工業生產中的需求，如扶持高清原創、打擊視頻劣質內容、針對畫質精準匹配轉碼檔位節省成本等，都沒有很好的解決方案。

基於以上原因，字節/火山引擎花大力氣研發出VQScore，尋求解決這一長期痛點，同時向工業界推出其無參考質量評價標準。

針對UGC內容的研究與實際應用場景更加貼近，UGC質量評價算法對監控視頻平臺整體畫質、監督畫質提升算法、指導壓縮效率提升等場景有重要作用。據悉，火山引擎多媒體實驗室提出的Transformer結構實現了算法性能的提升，對後續相關算法研究具有較強的指導意義。

字節跳動背後的音視頻技術揭祕

音視頻技術在近幾年呈現突飛猛進的發展，一方面滿足了企業對於業務高速增長需求，另一方面也爲業務的發展創造了更多的可能性。在本專題中，將展示字節跳動背後的音視頻技術，以及如何利用這些技術支撐業務發展並滿足合作伙伴的需求。本分享將從音視頻編解碼開始，回顧音視頻編解碼技術並進行展望，介紹視頻編解碼的優化與評估；隨後，將介紹音視頻在直播方面的應用和如何通過音視頻支持業務的增長；最後，將以抖音爲例，介紹RTC技術是如何追求極致的體驗。

詳情請掃描圖中的二維碼或點擊閱讀原文報名參加專場活動。

本文分享自微信公衆號 - LiveVideoStack（livevideostack）。
如有侵權，請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”，歡迎正在閱讀的你也加入，一起分享。

字節跳動VQScore算法拿下ICME 2021“壓縮UGC視頻質量評估”比賽第一名

LiveVideoStack暫停商業化運營

美圖AI動漫功能的落地探索

AVS3實時語音標準制定取得重要進展

超燃！全球邊緣計算大會，騰訊、阿里、百度等攜手打造前所未有的AI知識盛宴！

AI新範式下，阿里雲視頻雲大模型算法實踐

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結