中南大學張昊:我非常期待基於AI的圖像視頻編碼技術的創新


點擊上方“LiveVideoStack”關注我們

策劃 :包研、 Alex

編輯:Alex


張昊

年終訪談

#002#



編者按:本週是2021年的最後一週,在這個迎接新年的日子裏,LiveVideoStack有幸邀請到了中南大學計算機學院張昊教授參加我們的年終訪談。過去的十餘年時間裏,張教授一直致力於視頻編碼技術的研究,曾發表期刊會議論文共50餘篇,擁有專利60餘項(授權或申請),主要研究領域包括視頻編解碼、基於深度學習的圖像視頻處理、視頻分析等。在此次與LiveVideoStack的對話中,張教授分享了他對音視頻技術發展與未來創新、元宇宙、音視頻人才培養和技術學習等話題的看法和感悟。


中南大學計算機學院教授  張昊

LiveVideoStack:  張教授,歡迎您參加訪談,請您向我們的讀者簡單介紹一下目前您所關注的技術。

張昊: 很榮幸有機會參加LiveVideoStack的訪談。目前我主要關注基於深度學習的圖像視頻編碼和前後處理技術。另外,還在關注面向VR/AR的相關編碼和處理技術。我還在參與一些與視頻分析相關的應用研究。
LiveVideoStack:  回顧近幾年的音視頻技術發展,有哪些創新技術令您印象深刻?
張昊: 最早接觸的音視頻技術是H.264視頻編碼。我覺得H.264標準的制定對視頻應用有重要的影響。另外,可伸縮視頻編碼結合相關傳輸技術,極大提升了互聯網上的視頻會議質量。

LiveVideoStack: 您目前關注的音視頻技術應用場景有哪些?能否具體說說?

張昊:我目前比較關注的應用場景有:基於AI的視頻處理、基於AI的視頻編碼器參數優化、基於人臉關鍵點AI編碼的視頻會議、三維視頻會議、雲端渲染和編碼(或者混合渲染)、虛擬人技術等。感覺這些方向在未來可能會有一些真正廣泛應用的技術或產品出來。


LiveVideoStack: 張教授,您在加入中南大學之前,曾在美國的Vidyo公司工作過。據您觀察,中外的視頻技術發展有哪些不同? 


張昊:我只在這一家公司工作過,所以對這個話題還沒有太多發言權。不過我回國後跟國內企業進行校企科研合作比較多,個人感覺國內的視頻人才越來越多,不少國外知名企業的技術骨幹都回國創業或者加入國內企業。我對視頻編碼這個方向稍微瞭解多一點,感覺這方面國內的技術研發實力是很強的,在國際上也是很有競爭力的。

LiveVideoStack: 元宇宙是今年大熱的話題,Facebook前段時間也更名“Meta”,變身元宇宙公司。對於元宇宙,您是如何理解的? 


張昊:網上很多人都針對元宇宙談過自己的看法。我個人的理解就是元宇宙是結合VR/AR等技術,對網絡時代社交的一次全面升級。未來的元宇宙是什麼形式,是否包含多種應用,哪些應用可以普及,現在都難以預測。我現在更關心那些可以相對較快落地的技術,比如VR/AR編碼技術,虛擬人技術等。


LiveVideoStack: 對於音視頻技術的未來發展,還可能會有哪些令人期待的創新?在AI與視頻編碼技術結合上,未來有可能會出現哪些突破?


張昊:我非常期待基於AI的圖像視頻編碼技術的創新。目前基於傳統視頻編碼框架提升壓縮率已經越來越困難,我們期待一個新的框架。目前AI視頻編碼還達不到最新傳統編碼標準(比如VVC)的水平,但是這個方向最近不斷有新的研究成果發佈出來,相信性能提升會加快。要是未來AI編碼成爲業界廣泛採用的方案,那編碼器的優化可能會需要與以往不同的技術。當然,在完全的AI編碼成爲現實之前,可能會有一箇中間狀態,比如結合傳統架構和AI模塊的編碼技術和標準。這要求編碼工程師既要懂傳統編碼,也要了解AI的相關知識。

 

目前端對端的AI+視頻編碼,雖然成果不斷湧現,但是短期內可能還很難大幅度超過VVC的性能。但基於傳統編碼框架,加入一些編碼效率更高的AI模塊(比如濾波、預測),是有可能在短期內提升壓縮率的。因此我看好基於傳統編碼框架+AI這條思路的技術進展。


LiveVideoStack: 我們前段時間做了一個程序員35歲的採訪,大家都提到音視頻領域人才稀少的情況。作爲一名大學教授,您能否從您的角度談談音視頻技術領域人才供給?


張昊:這幾年隨着4G普及而引發直播、短視頻大熱,導致企業對音視頻領域人才的需求增加。然而從事音視頻領域研究的老師較少,每年畢業的碩士博士也不多,因此目前音視頻人才是供不應求的。如何增加音視頻人才供給,我個人覺得可以從以下三個方面着手:一是可以從國外引進人才(目前其實已經有不少海歸加入國內企業或高校);二是跟高校音視頻領域的實驗室保持聯繫,爲這些實驗室的研究生提供實習機會;三是在企業內部培養人才,即對專業背景相關(比如圖像處理背景)的工程師進行培訓,從而緩解企業缺乏音視頻人才的問題。


LiveVideoStack: 對於未來想從事音視頻技術工作的同學,您有哪些建議? 對於想要入門音視頻技術的同學,您有哪些學習資料可以推薦?


張昊:未來想從事音視頻技術工作的同學,首先需要選擇細分方向。音頻和視頻方向區別是比較大的,視頻技術又可分成視頻傳輸、視頻編碼等方向。這些方向需要掌握的背景知識不同,我只能針對自己比較熟悉的視頻編碼方向推薦一些學習方法:首先可以找一本264/265/266的入門書籍,然後結合標準軟件JM/HM/VTM學習整個編碼流程和其中關鍵模塊。光看書和讀代碼顯然是不夠的,可以選擇自己感興趣的模塊,找2篇論文,自己在JM/HM/VTM軟件中實現文中算法,以加深對細節的理解。網上有大量博客對各模塊(比如模式選擇、運動估計、碼控)進行了詳細介紹,可以作爲學習中的參考資料。鑽研得比較深的同學也可以研究一下標準文檔。學習音視頻技術是一個循序漸進的過程,只能先了解整體架構,然後把1-2個模塊搞熟,再慢慢學習其他部分。祝同學們學習順利!




掃描圖中 二維碼 或點擊 閱讀原文
瞭解大會更多信息

喜歡我們的內容就點個“在看”吧!


本文分享自微信公衆號 - LiveVideoStack(livevideostack)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章