用於360度視頻流的長時間域的視點預測

本文出自論文Very Long Term Field of View Prediction for 360-degree Video Streaming,用於提高360度視頻流中的視點預測。


本文提出基於兩種FoV表示的多個預測模型:一個使用FoV中心軌跡,另一個使用表示FoV中心分佈對的等矩陣熱度圖。在兩個流行數據集上的評估證實出所提出的模型可以顯著地超越基準模型,另外其他用戶的FoVs對於提高長時期預測也非常有用。


一、引言

  1. 我們將FoV預測問題作爲一個序列預測問題,並提出了兩組預測模型:trajectory-based 方法,heatmap-based 方法。
  2. 第一組中,我們預測未來幾秒內FoV中心的平均值和標準差,這個方法是爲基於視點流系統而開發的,客戶端可以基於預測的FoV平均值和標準差,來請求未來幾秒內的一個單一視點。我們提出一個LSTM序列到序列的模型,通過使用其他觀察者的視點軌跡來幫助特定用戶未來視點軌跡的預測。
  3. 在heatmap-based 方法中,我們將幾秒內所有幀的FoV分佈作爲一個熱度圖,這個方法是爲tile-based 流系統而開發的,客戶端基於所預測的熱度圖來請求未來幾秒內的多個tiles。我們提出一個卷積LSTM模型通過過去觀察者的熱度圖序列,來預測未來目標觀察者的熱度圖序列。我們進一步通過考慮使用其他用戶的熱度圖序列和來自視頻序列的顯著性映射,來幫助預測目標用戶的未來熱度圖。

二、相關工作

  1. FoV預測算法可以被分成兩類:trajectory based, content based。 一個最近的工作提出了兩個深度強化學習模型:一個離線模型被首次用於僅根據視覺特徵,來估計每一幀潛在FoV的熱度圖;一個在線模型接着被用於根據先前觀察的頭部位置和來自離線模型的熱度圖,來預測頭部移動。
  2. 先前研究使用了交叉用戶行爲而不是目標用戶的歷史軌跡,其結合了線性迴歸(LR)和KNN 聚類。FoV中心被首次使用一個線性迴歸模型來預測,然後前K個在LR結果周圍最近的其他用戶注視點被用來提高預測精度。
  3. 目前工作與先前的相關研究的一個關鍵不同爲:目前集中於預測一個更長時間範圍內的FoV,可以支持流系統提前數秒來預先存入未來視頻片段,並對於帶寬波動具有更強的魯棒性。

三、Trajectory-based 預測

  1. 基於用戶個人歷史記錄的預測:爲了適應不同輸入數據類型和分佈,我們採用神經機器翻譯結構 seq2seq 模型。我們使用一個LSTM來編碼歷史軌跡xtx_t,並使用最後一個隱藏狀態hTh_T和記憶狀態cTc_T來作爲歷史記錄表示。然後我們使用另一個LSTM(被hTcTh_T 和 c_T初始化)和一個初始輸入(μT,σT)(\mu_T,\sigma_T)xTx_T的平均值和標準差),來生成未來時間t內的隱藏和記憶狀態。最終的預測yty_t用一個投影層從隱藏狀態中得到。LSTM編碼器使用過去每秒內frame-level的軌跡來作爲輸入,LSTM解碼器使用所預測的平均值μt1\mu_{t-1}和標準差σt1\sigma_{t-1}來作爲時間t的輸入。編碼器和解碼器被一起訓練,來最小化未來L秒內的μ,σ\mu ,\sigma預測誤差。
  2. 基於其他用戶FoVs的預測:(1)MLP mixing: 使用seq2seq模型來預測FoV中心的平均值和標準差,接着將這個預測和其他用戶的FoV中心的平均值和標準差來結合起來,傳遞給最終的投影層來獲得最終預測。最後的投影層學習一個混合權重來將目標用戶的個人預測和其他用戶已知位置結合起來。(2)Attentive Mixture of Experts (AME): 別用於解碼器部分,一個來自每個專家的上下文向量cic_i從專家ii的觀察中生成,被用來組成一個總的上下文向量ctotal=iαicic_{total}=\sum_i\alpha_ic_i。通過ctotalc_{total},我們可以預測目標用戶的屬性。MLP mixing layer
  3. 推導上下文向量的兩種方法:(1)直接使用其他用戶FoV中心位置(平均值和標準差),來作爲上下文向量;(2)通過一個共享的LSTM來對每個用戶進行建模,並將隱藏狀態視爲上下文向量。注意,使用隱藏狀態來定義相似性,被解釋爲用戶i和目標用戶軌跡之間的相似性。

四、 使用2D等矩陣熱度圖表示的預測

  1. 針對基於軌跡模型的不同變體,我們使用兩種模型進行實驗:來自目標用戶個人熱度圖序列的未來熱度圖序列預測,和使用目標用戶先前的熱度圖序列以及其他用戶熱度圖序列的預測。我們進一步考慮了使用來自視頻內容的顯著性映射來幫助預測。
  2. 熱度圖表示:我們將所有的30 frame-level的熱度圖累加,來獲得second-level熱度圖(FPS=30)。一個FoV中心軌跡被一個熱度圖序列來描述。
  3. 基於用戶個人熱度圖的預測:使用一個seq2seq模型,其編碼器和解碼器分別使用一個convLSTM。所有的編碼器和解碼器包含3個層,單獨生成128,64,32個通道隱藏狀態feature maps。一個全卷積網絡接着被應用於來自所有層連接生成的隱藏態映射,從而生成一個預測的heatmap。
  4. 其他用戶熱度圖的利用:(1)使用一個convLSTM對其他用戶的平均熱度圖序列進行建模。在時間t+1,來自該convLSTM的隱藏態dt+1d_{t+1}和來自目標用戶解碼器的隱藏態ht+1h_{t+1}被連接,然後通過FCN被用於預測特定用戶t+1t+1的熱度圖yt+1y_{t+1}。(2)在時間t+1t+1直接連接目標用戶解碼器隱藏態和其他用戶的熱度圖,然後使用FCN來生成最終預測。others heatmap
  5. 來自視頻序列顯著性映射的利用:在時間t+1的顯著性映射被輸入到一個FCN中,然後FCN特徵與來自目標用戶convLSTM解碼器的隱藏態進行混淆。被結合的特徵通過另一個FCN被用於生成預測的熱度圖yt+1y_{t+1}saliency

五、實驗

  1. 評估準則:(1)Hit rate:對於1s內所有的幀來說,每一秒預測中viewport的hit rate是在實際幀FoV內的viewport覆蓋區域的平均百分比。(2)Mean Squared Error:所預測的FoV中心平均位置和實際真值座標之間的平方差。(3)Tile overlapping ratio:首先我們確定真實FoV熱度圖(1s內有非零值)中的bins數量NbingtNbin_{gt},然後我們在所預測的熱度圖中對每個bin的置信度分數進行排序,確定預測熱度圖最大binsNbingtNbin_{gt}和真實熱度圖之間的重疊率。
  2. 性能比較:在trajectory-based模型的hit rate曲線中,我們的模型可以基於和目標用戶的相似性,自動學習其他用戶不同的混合權重,從而獲得更好的性能。在hetamp-based模型的比較中,利用其他用戶熱度圖和顯著性特徵映射給出了最好的性能。trajectoory
    heatmap-based

六、結論

  1. 本文提出兩組FoV預測模型:trajectory-based 模型,heatmap-based 模型。分別適應於基於視點的流系統和基於tile的流媒體場景。對於每組模型,進一步考慮了模型:1)僅使用目標用戶的信息,2)同樣利用其他用戶的FoVs。另外對於heatmap-based 模型,我們也考慮利用視覺顯著性信息。
  2. 在trajectory-based 組中,MLP混合模型和專家注意力混合模型AME被用來自動學習其他用戶對於最終預測貢獻的權重。對於heatmap-based 模型,我們探索了幾種方法來混合來自用戶FoV熱度圖和視頻內容的特徵。實驗證明,所提出的模型在利用目標用戶先前信息時,可以在長時期預測中獲取更高的精度。另外,利用其他用戶信息的模型提供了比僅使用目標用戶信息更大的性能收益。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章