在 80% 的丟包環境下還能保障視頻流暢?背後的這羣技術人太拼了

“我們是全世界在行業裏面第一家真正把實時音視頻能力做成簡單易用的 API,開放給開發者和合作公司來使用,在很長時間裏也是唯一的一家。我們在這方面所做的努力,也在過去每一年的 RTC 大會裏逐步輻射給互聯網和實時互聯網行業的參與者,給大家提供更多的服務。”這是聲網 Agora CEO 趙斌在 10 月 24 日聲網品牌發佈會上的一句話。

而這句話的底氣正是來自整個聲網技術團隊對實時音視頻技術 6 年的堅持。RTC 大會的第五年圓滿落幕,隨着 AI、5G 等新技術的興起,有更多的未知和挑戰在觸動技術人的心絃。InfoQ 記者在 RTC 大會期間採訪到聲網首席科學家鐘聲,聽他講述實時音視頻技術背後的故事。

“實時交互是我們與生俱來的本能和需求”

鐘聲提到,RTC 的核心就是把用戶的體驗做到最好,其中最關鍵的是用先進的算法實現音視頻處理和傳輸不卡不糊不延時。所以,算法的先進性是核心競爭力。“聲網近一年來在研發下一代實時編碼傳輸技術,其中部分已經完成,一些客戶已經開始試用。下一代實時傳輸技術可以讓視頻在極端網絡條件下,甚至在 80% 丟包的情況下,還能實現低延時下比較流暢地傳輸,全面提升視頻傳輸在各種網絡條件下的魯棒性。”

隨着視頻業務的增長,越來越多的客戶或用戶在享用高清、甚至 4K 的內容和服務。這對網絡帶寬的壓力非常大,導致經常會出現擁堵的問題。那麼,如何在保證視頻質量的情況下,還可以取得額外 30% 甚至更多的壓縮?

鐘聲提到,在視頻編碼和傳輸的過程中,在低延時的情況下,有效對抗 80% 的網絡丟包率十分考驗公司的技術實力。“聲網新一代技術可以做到在 80% 的丟包環境下保障視頻流暢。在提升視頻圖像質量和編碼效率方面,利用人工智能的深度學習算法可以取得額外 30% 的編碼效率的提升,而不犧牲視頻質量。”

聲網 1.0——>聲網 2.0

鐘聲提到,“我是 2017 年年底來到聲網,主要任務就是把實時音視頻技術從 1.0 提升到 2.0。”以視頻技術爲例,當一個圖象採集進來之後,首先要做前處理,比如降噪、美顏、加貼紙、風格轉換等操作,這是第一步。接下來要做壓縮和編碼,就是將原始的視頻數據壓縮後上傳至網上。壓縮的訴求就是把數據壓得越小越好,同時還需要讓畫質的損失控制在人們可接受的程度,並且對傳輸友好。互聯網是有帶寬制約的,端到端各節點上也會出現不理想的條件,因此經常會出現擁堵或丟包的情況,這就要求編碼和傳輸的技術能對抗丟包,對抗網絡擁堵。要做到這一點,需要傳輸算法和編碼算法的結合。在數據傳輸到雲端的過程中,要找到一條路徑可以快速穩定地傳輸到另一方,這是基本訴求。在接收端接收到信息後,要做解碼和後處理,後處理就需要考慮到圖像質量的提升,以及一些丟包隱藏技術的使用,最終呈現出讓用戶感覺很舒適的視頻。

聲網的第一代算法相對比較樸素,搭建了一套從前端到後端的架構體系。“我加入後的第一個任務,就是識別各環節上的不足或者需要改進的和可以改進的地方,從而設計出使整體水平躍升一個臺階的關鍵技術。這個過程中,我們提出和設計出了一系列可感知、可衡量的具體改進方法,和團隊在前處理、編解碼、傳輸、後處理上都設計出了一些有效的新算法和新架構。其中,一些創新的深度學習和機器學習算法也帶來了可觀的效果。”

實際環境中的實時傳輸會出現各種狀況。鐘聲提到,而用戶對於音視頻體驗的優化需求是無止境的,出現任何問題,不要奢求用戶會理解或容忍,而是要主動想辦法去解決,把優質體驗率提升到 90%,再提升到 99%、99.9% 等,做無止境的努力。

5G 到來,RTC 會如何發展?

實時互動音視頻行業將有 40 多億美元的市場空間,整個行業的成長與發展空間都處於良好態勢。未來,在更多音視頻服務提供商的推動下,虛擬世界將與現實世界不斷融合,讓世界實時互動僅在毫秒間。

5G 是一個慢慢發展的過程,離真正普及還有一段距離,並且在很長時間裏,將是 5G、4G、甚至還有 3G、2G 並存的情況。鐘聲解釋:“在一定時間範圍內,5G 的新應用會帶來一些比較突出的問題,比如 5G/4G 切換不自然和擁塞。現在實時互動傳輸 720P 視頻,會覺得這已經是很高的質量了。等到 5G 之後,4K/8K 的內容會很多。這就導致帶寬會被快速地佔掉,進而會出現擁塞、延時、丟包等問題。”

在未來,RTC 服務的界限會變得越來越模糊,多種技術的結合也會變得越來越普遍。在 4G 時代,解決丟包問題是聲網在 RTC 領域擁有卓越表現的關鍵。隨着 5G 的到來,帶寬只是其中一個環節,數據傳輸依舊面臨與 4G 時代同樣的問題。聲網除了繼續優化傳輸質量之外,還將與 VR、AR、AI 技術相結合,拓寬使用場景,在 AI 教育、工業智能製造等領域持續發力。

5G 的傳輸速度對於 RTC 來說是特別必要的嗎?

鐘聲解釋,這裏面其實是用戶的內容消費趨勢和心理在起作用。當你體驗過更好質量的東西之後,你就很難退回到之前的狀態了。舉例來說,很多年前大家看 VCD 看得很開心,後來 DVD 來了,沒人看 VCD 了。再後來高清的設備出現後 ,沒有人看 DVD 了。現在屏幕上每秒 15 幀,仔細看其實是可以看的到視頻是抖動的,因爲不夠平滑。一些大型的直播或音樂會、體育賽事等,都是需要至少每秒 60 幀。“目前我們誇耀的音視頻質量,可能在下一代看來,是不可接受的。”

超分辨率等技術的發展空間

圖像超分辨率越來越成爲計算機視覺的一個熱點,之所以火起來是因爲深度神經網絡大大改進了圖像超分辨率的效果,實際應用希望超分辨率能成爲降低越來越高的圖像、視頻數據存儲和傳輸成本的新方向。

什麼是圖像的超分辨率技術?

簡單來說,就是將一張或多張分辨率較低的圖像,通過一定的技術手段,生成一張或多張分辨率高的圖像。舉例來說,在監控領域,通過監控畫面想看清嫌疑人的臉,這個放大的過程,其實沒有那麼簡單,需要通過超分辨率重建技術放大選定區域內的像素,形成清晰的圖像。

超分辨率是計算機視覺裏比較底層的一個問題,得益於深度學習的算法,尤其是近幾年生成對抗網絡的興起,能夠根據內容假想出一些東西來。比如說一片草坪,有可能生成一些草尖,這些草尖本來是沒有的,是根據人的視覺感受假想出來的。這就不是在原來的頻率上做一些調整,而是新增加了一些頻率。鐘聲提到,“這是很有挑戰的一件事。可能會有一些公司在服務端可以實現,比如做離線處理。但聲網追求的是實時處理,這個要求更高。” 聲網最新的 SDK 目前已經實現了在某些移動設備上 360P 到 720P 的實時超分算法。

另外,聲網目前已經利用深度學習技術做基於感知的壓縮算法,有力地提高了視頻的壓縮率。其最新的 SDK 也已經集成了這個算法。

2020 RTC 未完待續在接受採訪時,鐘聲提到:“作爲一家技術公司,只有先進的技術纔可以使得我們保持競爭力。在人工智能和 5G 來臨的時代,利用先進的技術讓實時交互的本能和需求在虛擬的世界得以保持。這是我們一直在追求的事情。”

2020 年,聲網的整個技術體系還會升級,在不卡不糊不延時方面將繼續優化。另外,AI 將是聲網另外一個重點發力方向,“我們已經用 AI 解決了很多問題,未來還會做視頻風格轉換,做分割,做情感計算或視頻理解;在音頻方面也會有風格轉換、帶寬拓展,做自然語言理解、翻譯,做數據挖掘等,使人機交互或人與人之間的交互更自然、更高效。比如可以提供自動翻譯不同語言的功能,這樣人與人之間就可以無障礙地溝通。如果能夠提供一個辦法讓機器理解人,那麼人機交互也會變得自然和有效。”

舉個例子,在教學的時候,老師可以通過 AI 臉部識別,及時瞭解學生是否專心聽講,通過學生的表情、狀態判斷其對於內容的感興趣程度。再比如,對於許許多多的留守兒童,也能遠程關愛孩子們,這也是教育大背景下的一種人文關懷。

5G 來了,帶來了很多的商業機會、商業模式,比如金融可以通過視頻實時處理來辦理業務,不需要再到營業廳去等候;比如保險定損,一個小事故通過視頻保安就定損了。未來類似這樣的應用會越來越多。聲網將會先主要解決在 5G 場景下可能存在的一些問題:因爲 5G 和 4G 是長期共存的,那麼它們之間的切換就會很頻繁,只爲 5G 打造的應用是沒有自適應的切換能力,即便是在純 5G 時代,5G 信號覆蓋很好的時候,實現類似於 360 度的 VR 也是比較有挑戰的,因爲它需要整個從端上,從邊緣到雲,到網絡的巨大升級,在算法層面也要求用更加聰明的算法,去降低成本,進而承載新業務。“而這些,都需要我們和業界同仁一起去攻克。”

正如鐘聲在採訪結束時提到的:“生逢 AI 和 5G 交疊的時代,有很多未知和挑戰,作爲技術人員,我們已經等不及要去創造更好的技術了。”

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章