人類視覺神經科學助力音視頻產業革命-弱網下的極限實時通信

原創

2021-05-01 17:04

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":4},"content":[{"type":"text","text":"一、什麼是弱網?","attrs":{}}]},{"type":"heading","attrs":{"align":null,"level":5},"content":[{"type":"text","text":"1.1、弱網概念","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"弱網從字面意思看就是網絡比較弱, 我們通稱爲信號差, 網速慢, 隨着移動互聯網火熱發展的這些年, 大量用戶會在地鐵, 隧道, 電梯和車庫等特殊場景下使用移動端APP 。這些場景下, 網絡會出現延遲、中斷、抖動、超時等情況。","attrs":{}}]},{"type":"heading","attrs":{"align":null,"level":5},"content":[{"type":"text","text":"1.2、網絡形態","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"網絡形態包含有線連接, 2G/3G/4G/5G/Edge/Wifi等多種網絡連接形式, 從測試的角度說, 也包含斷網, 網絡故障等情況, 對於弱網的數據定義, 不同的應用所界定的含義也是不一樣且不清晰的, 一般來說低於2G速率的都屬於弱網, 也可以將3G劃分爲弱網, 除此之外, 極低寬帶 < 50kbps, 弱信號的Wifi等也是弱網。","attrs":{}}]},{"type":"heading","attrs":{"align":null,"level":5},"content":[{"type":"text","text":"1.3、研究背景","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"有一些特殊場景, 例如 : 森林救災, 邊防監控, 等場景, 這些場景往往關乎國家安全與生命安全, 更加需要嚴苛的實時通信, 但是這些場景依賴的基站往往會受到自然因素的干擾, 例如地震等自然災害。","attrs":{}}]},{"type":"heading","attrs":{"align":null,"level":4},"content":[{"type":"text","text":"二、嘗試了哪些技術嘗試?","attrs":{}}]},{"type":"heading","attrs":{"align":null,"level":5},"content":[{"type":"text","text":"2.1、AI控制","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在觀看直播過程中聽到馬老師提出了一個新的概念, 人眼在感知圖像的時候, 處理大概是100B/s, 然後通過視網膜上的細胞進行分離之後, 大概壓縮了 100倍, 然後經過一系列的細胞處理, 最後只有大約40b/s, 並且人眼關注的區域分辨率相對高一點, 人眼不關注的區域相對分辨率就低一點. 並且人眼對於某些區域, 某些顏色特別的敏感, 叫做注意力機制。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"傳統的流控技術在進行音視頻編碼和傳輸的過程中往往無法根據具體的網絡環境選擇適合的算法和碼率控制, AI 控制模塊(相當於人腦)會收集視頻會話經驗(人眼關注的東西), 包括視頻編碼器、接收端的編碼狀態、網絡、播放狀態, 根據這些特徵, 對抗網絡波動, 作出編碼參數的設置決策。","attrs":{}}]},{"type":"heading","attrs":{"align":null,"level":5},"content":[{"type":"text","text":"2.2、強化網絡主動決策(壓縮和融合)","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"根據不同用戶, 也就是播放端進行一種個性化的丟幀, 但整體感觀並不會有大差異, 這項技術利用的是多幀視頻時空一致性原理, 基於人的細胞對於不同的圖像的特徵敏感度不一樣這一現象, 有些細胞對於顏色敏感, 有些細胞對於運動敏感, 有的細胞對於方向性比較敏感, 有些細胞對於紋理比較敏感, 所以人的大腦對所感知到的音視頻信息並不是像解碼器一樣一個bit, 一個bit來解碼的, 而是部分解碼的, 所以, 對於任何一個視頻輸入結構, 主要拆分成兩部分, 一部分用來存儲空間上紋理細節的保留, 另一部分對於運動的細節不是那麼敏感, 所以另外一路空間就可以不用佔用那麼高了。當然在融合和重建的過程中, 還需要智能學習進行補償和轉化。所以最後輸出的音視頻感覺纔不會有很大差異。","attrs":{}}]},{"type":"heading","attrs":{"align":null,"level":5},"content":[{"type":"text","text":"2.3、基於強化學習的視頻碼率自適應","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"根據視頻分類, 網絡分類進行在線學習模型訓練, 例如, 大部分男生喜歡遊戲類視頻, 大部分女生喜歡淘寶購物類視頻, 不同分類視頻所返回的視頻碼率和精度不同, 基於此提出, 能否對不同類型的視頻進行模型訓練, 用戶端在播放不同類型的視頻時會選擇不同的算法。基於在線學習平臺相對於離線模型效率有一定的提升。","attrs":{}}]},{"type":"heading","attrs":{"align":null,"level":4},"content":[{"type":"text","text":"三、個人感悟","attrs":{}}]},{"type":"heading","attrs":{"align":null,"level":5},"content":[{"type":"text","text":"3.1、有哪些具體的弱網環境應用落地場景(1藥網/重慶120急救)","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"1藥網是在疫情期間緊急開闢了面向武漢的免費線上問診通道, 並以將範圍擴展至湖北省全境, 視頻問診, 電子處方和遠程買藥功能採用了聲網Agora的實時音視頻技術,在視頻問診的場景中, 由於醫生與患者處於不同的網絡環境, 以上所說的弱網環境均有可能出現, 在這些環境下, 聲網Agora具備優秀的弱網傳輸和抗丟包算法, 依然可在60%的丟包情況下保障音視頻流暢, 70%的丟包網絡環境下保障語音的流暢。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"120急救則是通過視頻遠程指導+急救教學視頻指導, 真正做到了爲生命爭取機會和時間。但是同樣患者有可能處於弱網環境中, 如何保證音視頻傳輸質量, 依然尤爲重要。並且, 急救更講究爭分奪秒, 並且要保證連通率, 接通失敗則可能意味着耽誤急救, 根據官網數據資料顯示聲網在全球有超過200個數據中心, 基於此搭建的軟件定義實時網, 在網絡較差的環境下, 也能保證穩定可靠, 高質量的傳輸和99.9%的高連通率。","attrs":{}}]},{"type":"heading","attrs":{"align":null,"level":5},"content":[{"type":"text","text":"3.2、心得體會","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"業務形態在變, 技術必須跟上, 原本以爲, 隨着技術的不斷髮展與進步, 例如5G, GPU, 芯片等硬件設備的更新升級, 對於軟件研發人員來說, 可以忽略網絡抖動或者硬件環境的制約, 更加不會想到, 是否會有一天自己開發的軟件可能需要運行在一個比較苛刻的環境之中, 或者, 所提供的服務, 用戶用用的設備太老不兼容等情況, 所以, 平時很不注重代碼的健壯性, 能用就行, 湊合用着, 這些習慣竟然已經不知不覺潛移默化影響了我, 不知道有沒有同學是像我一樣, 有則改之, 無則加勉。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"之前對於音視頻的概念一直停留在比較傳統的編解碼, 直播拉流, 視頻點播等常見應用之中, 並沒有深思, 每一個用戶所在網絡環境的差異化; 所以說研究弱網下的極限視頻通信並非吹毛求疵, 其有很重要的現實意義, 大到國防安全, 小到人民生活的方方面面。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"人工智能風口下, 結合AI, 以及人類視覺神經科學, 音視頻領域也可借一把東風, 尋求技術的突破與革新。除此以外, 個人認爲, 如邊緣計算, 霧計算等概念的興起與應用, 縮短了用戶與服務之間的距離, 以前多在中心節點部署服務, 現在以微服務的方式部署會更加高效, 比如WebRTC的服務到邊緣節點。除此之外, 邊緣節點部署服務成本更低, 節省帶寬。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}}]}