[論文筆記]Integrated Networking, Caching, and Computing for Connected Vehicles: A DRL Approach

目前大部分工作將網絡、緩存、計算分立研究並優化,但本文將這三者進行聯合優化,提出一個集成的動態管理架構。本文將此框架中的資源分配策略指定爲一個聯合優化問題,其綜合考慮了網絡、緩存、和計算的效用。對於系統的複雜性使用DRL的方法加以解決。

結論及未來工作

本文將網絡、緩存、計算資源聯合優化以提高車輛網絡性能。基於SDN的可編程控制原理和ICN的緩存原理,我們提出一個集成的網絡、緩存、計算資源的動態編排框架。通過深度強化學習方法加以解決,並給出了不同場景下算法的收斂性。未來將在該框架下考慮能效的提升。

介紹

近年來,互聯車輛被廣泛研究以服務生活。

互聯車輛的發展收到信息和通信技術推動,其中網絡、緩存、計算是發展較快的三個領域。對於網絡領域,SDN(軟件定義網絡)和NFV(網絡功能虛擬化)通過集中式控制提升了車輛網絡管理的效率和靈活性。對於緩存領域,in-networking caching作爲ICN(信息中心式組網)的關鍵特徵,可有效減少重複的網絡傳輸。對於計算領域,雲/霧/邊緣計算影響頗深。

但目前這三種重要技術都是在現有的車輛網絡中被分立研究,缺乏對這些技術的綜合考慮。本文特點如下:

  1. 基於SDN的可編程控制原理和ICN的緩存原理,提出網絡、緩存、計算資源聯合優化的框架
  2. 將資源分配問題建模爲聯合優化問題
  3. 對於系統複雜度高的問題,使用深度強化學習解決
  4. 給出不同系統參數下的仿真成果,驗證了方案有效性

系統描述

車輛網絡

車輛網絡通過移動通信網實現多種服務、內容和應用信息的互傳。在安全預警、娛樂、無人駕駛等方面可實現多種應用。

對應於不同的應用需求,車載通信基於兩種技術。若車僅依賴Internet的數據,則可使用蜂窩網絡進行通信;若僅需要在車與車之間交換信息和數據,則可使用DSRC。

軟件定義網絡和虛擬車聯網

SDN的許多特性(靈活性、可編程、集中控制管理等)都很適合車載網絡的通信。

無線網絡虛擬化被認爲是管理網絡架構和資源一種有效的方法。

下圖是一個將組網、緩存、計算集成起來的軟件定義的虛擬車聯網。

信息中心式車聯網

車聯網中,傳感器所產生的數據量很大,另外其鏈路質量和車輛移動也是個問題。這些對基於IP的數據傳輸帶來了挑戰。將ICN(信息中心式組網)擴展到車輛網絡可以解決這一問題。比如,ICN的一個子架構NDN(明明數據網絡)使用內容名來路由和檢索數據,並且通過對每個數據包進行·加密來講安全性集成到數據中。此外,網絡內緩存可以減少重複內容傳輸。

ICN的網內緩存可解決車聯網中移動性的問題,車聯網中信息優先級明確的特點也適合ICN。

移動邊緣計算與車聯網

雲計算對車聯網不太適用,MEC在靠近車輛的邊緣進行數據處理,適用於車輛網絡。

組網、緩存、計算的集成式車輛網絡架構

傳統工作將組網、緩存、計算分離研究,但這些因素是同時對資源分配產生影響的。分立研究會導致次佳性能。根據需求動態資源分配是個好方法。

本文提出一個集成式網絡架構,其結合SDN和ICN的思想,能動態編排網絡、緩存和計算資源。

圖2 本文提出的集成架構下的一個用例的流程
圖2 集成架構下傳輸視頻數據的流程

 圖2描述了該架構中的一個用例:車輛向與其連接的虛擬BS發出視頻內容清空。

  1. 虛擬BS根據視頻內容描述和車輛信息檢查相關聯的緩存是否有所需內容。
  2. 若有:高速緩存將檢查內容版本是否和車輛匹配;
    1. 若匹配:虛擬BS將內容發送給車輛
    2. 若不匹配:虛擬BS提取視頻內容和參數,將其傳入MEC進行轉換,將轉換後的內容發給車輛
  3. 若沒有:虛擬BS從Internet檢索內容並下載。

綜合考慮組網、緩存、計算的複雜性很高,用強化學習方法解決。

系統模型

網絡模型

考慮一個SDN車聯網,其中多個車輛請求視頻內容。物理層基礎設施包括:BSs、路測單元RSUs、MEC、內容緩存、車輛、路由器。

符號 含義
K_m BS的集合
K_s

RSU的集合

\mho=\{1,...,U\} 車輛的集合
M={1, ..., M} MEC服務器
C={1, ..., C} 緩存
m_k 與k號BS關聯的MEC
c_k 與k號BS關聯的緩存
S={1, .., S} SP(服務提供端)集合
U_s

s號SP管理下的車的集合

u_s s號SP管理下的一輛車
a_{u_s,k}(t) u_s號車和k號BS的連接關係(bool)

每個虛擬網絡都包含BS、RSU、MEC、緩存。不同的虛擬網絡所用的頻帶正交。由SP管理虛擬網絡,每輛車在指定時間只會所屬於一個SP,即金額能與一個BS or RSU相連。

通信模型

符號 含義
D=\{D_0, D_1, ..., D_{L-1}\} 馬爾科夫鏈的狀態空間,成員表示信噪比的數值(離散)
\Upsilon_{u}^{k} k號BS和u號車輛之間的接收SNR
\Upsilon_{i_{1}}^{k_{1}}(t) t時點的SNR
T 一整個通信最多存在T個時點
t 時點的序號
\psi_{g_{s}} h_{s}(t) 從狀態 g_s 跳轉到狀態 h_s 的轉移概率
B/B_k Hz 

頻譜總帶寬/分配給k號BS的帶寬

Z/Z_k bps  回程鏈路容量/分配給k號BS的回程容量
b_{u_s, k} k 號BS到 u_s 號車的頻譜帶寬爲
v_{u_s, k}(t) k 號BS到u_s號車的可達頻譜效率(基於香農限)

將車輛與連接的BS/RSU之間的信道建模爲有限狀態的馬爾科夫信道(FSMC)。

將車輛u_s和基站k之間的信噪比建模爲離散的隨機變量,共L個離散值。每個值對應FSMC的一種狀態,將狀態空間記作D。車輛u_s與基站 k 之間的信道轉移概率矩陣爲

設置BS所連的車的頻譜正交,因此連接到BS的鏈路間無干擾。車u_s的通信速率爲:

 BS k 相關聯的車輛的總速率受限於BS回程鏈路的容量,公式化爲:

 整個網絡中的總速率受限於總的回程鏈路容量,公式化爲:

計算模型

這部分的目標是構建計算任務Q_{u_s} = \{ o_u, q_{u_s}\}(s爲服務提供端SP,u_s爲SP所管理的車的集合),此任務由車us 相關聯的MEC m_k激活。第一個參數ou表示待傳視頻數據的大小,第二個參數表示所需CPU的週期。計算後 BS k 將轉換後的數據送回車輛us。 

f_{u_{s}}^{k} k號BS分配給us號車的計算容量(用每秒的CPU週期數度量)
\varepsilon ={\varepsilon_0,\varepsilon_1,..., \varepsilon_{N-1}} 計算容量的取值空間(離散)
F_{u_{s}}^{k}(t) 時點t的f_{u_{s}}^{k}的具體數值

虛擬車車聯網中,計算速度不同的MEC動態地分配給BS。此外,多個車輛可以同時訪問相同的BS和MEC,因此我們無法準確得知車輛在下個時點的計算容量。因此計算容量f可以被建模爲一個隨機變量,並離散化表示爲\varepsilon ={\varepsilon_0,\varepsilon_1,..., \varepsilon_{N-1}}。我們將計算容量在不同時點的變化建模爲一個馬爾科夫鏈,從k號BS到us號車的計算容量的轉移矩陣爲(其中l爲轉移概率):

 任務Q_{u_s}在k號BS的計算所需時間T_{u_{s}, k}=\frac{q_{u_{s}}}{F_{u_{s}}^{k}(t)},其計算速率(每秒的bit數)

 MEC計算容量有限,公式化爲(O_k爲 m_k號MEC的最大容量):

緩存模型

 假設在服務器中,同時存在 I 個內容數據,其標號爲 i (表示第i個最流行的內容),對於i號內容在時點t的平均請求速率爲:

 假設這些內容的到達服從泊松過程(速率爲\beta),請求內容的概率由Zipf 分佈決定,與i那次i號內容被選中的概率爲1 / \rho i^{\alpha},其中\rho = \sum_{i=1}^{I} 1 / i^{\alpha}\alpha爲Zipf斜率(0~1)。

在本文系統模型中通過,內容緩存定期存儲來自服務器的內容。車輛的情求內容i 是否在緩存中可視爲一個隨機變量\xi _i,i號內容的緩存狀態轉移矩陣爲:(\delta表示緩存狀態的轉移概率)

 對於緩存容量,考慮容量有限和無限兩種情況:緩存量無限時,僅當存儲時間超過到期時間時刪除。i號內容的壽命服從1/\mu的指數分佈,此時緩存狀態的轉移概率矩陣爲(由文獻[29]的馬爾可夫流矩陣獲得):

緩存容量有限時,轉移概率矩陣爲:

 

深度強化學習

以下是對RL的概述,略了。

強化學習

深度Q-Learning

其他DRL組件

問題建模

模型中有K個基站、M個MEC服務器和C個內容緩存,由MVNO(移動虛擬網絡運營商)管理。MEC服務器的計算額能力和緩存狀態動態變化。

MVNO從基站、MEC和內容緩存收集狀態,然後將構造好的狀態發給agent並獲取優化策略的反饋,此反饋是對某輛車的資源分配方案。得到動作後,MVNO通知車輛可以訪問哪個VN(虛擬網絡)。

Q網絡中,\theta是網絡的實時參數,\theta^,是參數的copy。

系統狀態

\Upsilon_{u_{s}}^{k}(t) u_s號車在時點t連接k號基站
\gamma_{u_{s}}^{k} u_s號車在時點t連接k號基站(隨機變量)
F^m_{u_s}(t) u_s號車在時點t連接m號MEC
f^m_{u_s} u_s號車在時點t連接m號MEC(隨機變量)
\Xi_{u_{s}}^{c}(t) u_s號車在時點t連接c號緩存
\xi_{c} u_s號車在時點t連接c號緩存(隨機變量)BOOLEN

狀態空間爲

 

系統動作

agent決定車輛與BS的連接、是否將內容存緩存在BS中,是否將計算任務卸載到MEC。

動作爲:

 其中a_{u_{s}}^{\mathrm{comm}}(t), a_{u_{s}}^{\mathrm{comp}}(t), a_{u_{s}} ^ { cache }(t)分別定義如下:

  1. 行向量a_{u_{s}}^{\mathrm{comm}}(t)=\left[a_{u_{s}, 1}^{\mathrm{comm}}(t), a_{u_{s}, 2}^{\mathrm{comm}}(t), \ldots\right.],表示k號基站在t與us號車建立通信連接。
  2. 同上,表示us號車在t將計算卸載到m號MEC。
  3. 同上,表示us號車在t將內容緩存到c號緩存。

獎勵函數

將MVNO的綜合收益作爲reward,MVNO從InPs獲得頻譜和回程帶塊分配給虛擬SP。MVNO租借頻譜時需要支付費用:\delta_k表示爲k號BS申請的每Hz的花費。計算資源:來自m號MEC的每Joule的成本爲\eta _m;緩存資源:來自c號緩存的每單元空間的成本爲:\xi _c

MVNO向接入VN的車收費:\tau_{u_s}每 bps。車在k號BS計算的費用爲\theta_{u_s}每bps,回程傳輸的成本爲k_{u_s}每bps。

系統獎勵是MVNO的收益,其是接入無線鏈路的接受信噪比、計算能力、緩存狀態的函數。對us號車的獎勵爲:

 累積回報記作

仿真結果與討論

仿真設置

TF0.12.1 with python2.7 on Ubantu 14.04LTS.

設置四個對照組:

  1. 靜態資源分配,聯合優化通信、計算和緩存
  2. 不使用虛擬化的本文算法:車只能連接一個SP、MEC、緩存
  3. 不使用MEC卸載的本文算法:車只能本地執行計算任務
  4. 不使用邊緣緩存的本文算法:車只能從遠端服務器下載內容

所有BS和車隨機分佈在MBS覆蓋範圍內,本文假設存在5個SP,5個BS,5個MEC服務器,車與BS之間的無線信道遵循馬爾菲弗模型。假設信道狀態有好有壞:頻譜效率v_{u_s,k} = 1(壞),3(好)。狀態轉移時0.7維持在原狀態。存在一個視頻數據,緩存狀態服從馬爾可夫模型,將維持同一狀態的概率設爲0.6。MEC服務器計算狀態服從馬爾可夫模型,假設MEC服務器的計算狀態爲:非常低、低、中、高、非常高,其轉移矩陣如下:

仿真結果

 

圖3可見不同方案的收斂性能及性能上限,可見閹掉哪個組件都會造成性能下降,其中去掉虛擬化下降最明顯。

圖4顯示了不同探索率的性能比較,一般將初始探索率設置較大、最終探索率設置較小。圖中可見探索率對系統總效用存在影響。一般來說探索率大總效用小,但是探索率小會導致陷入局部最優。下問將最終探索率設置爲0。

圖5顯示了內容大小對效用的影響,無MEC卸載的方案:效用隨內容尺寸增大而減小,這是因爲內容尺寸大時緩存費用變大,導致緩存效用的收益降低。MEC卸載方案的總效用隨內容增大而增大,因爲將內容卸載到MEC會導致計算效用增大

圖6展示了隨着VN費用變化的效用變化,隨着費用增大,有MEC(藍)和沒有MEC(粉)的差距變小,這是因爲MEC卸載會降低訪問VN的費用,隨着費用增加,虛擬化在整體收益中所佔比例越來越高,因此MEC卸載將會被更少激活。

 圖7展示了激活MEC的成本對效用的影響,可觀察到隨着該費用的增加,有無虛擬化的差距會變大,這是因爲隨着MEC成本的增加,執行MEC的收益會增加,導致虛擬化的收益下降。

 

 圖8顯示了連接緩存的成本對效用的影響,沒有MEC和虛擬化的方案隨着連接緩存成本的增加而增加,只說民緩存成本的增加對這兩個方案沒啥影響

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章