目前大部分工作將網絡、緩存、計算分立研究並優化，但本文將這三者進行聯合優化，提出一個集成的動態管理架構。本文將此框架中的資源分配策略指定爲一個聯合優化問題，其綜合考慮了網絡、緩存、和計算的效用。對於系統的複雜性使用DRL的方法加以解決。

結論及未來工作

本文將網絡、緩存、計算資源聯合優化以提高車輛網絡性能。基於SDN的可編程控制原理和ICN的緩存原理，我們提出一個集成的網絡、緩存、計算資源的動態編排框架。通過深度強化學習方法加以解決，並給出了不同場景下算法的收斂性。未來將在該框架下考慮能效的提升。

介紹

近年來，互聯車輛被廣泛研究以服務生活。

互聯車輛的發展收到信息和通信技術推動，其中網絡、緩存、計算是發展較快的三個領域。對於網絡領域，SDN（軟件定義網絡）和NFV（網絡功能虛擬化）通過集中式控制提升了車輛網絡管理的效率和靈活性。對於緩存領域，in-networking caching作爲ICN（信息中心式組網）的關鍵特徵，可有效減少重複的網絡傳輸。對於計算領域，雲/霧/邊緣計算影響頗深。

但目前這三種重要技術都是在現有的車輛網絡中被分立研究，缺乏對這些技術的綜合考慮。本文特點如下：

基於SDN的可編程控制原理和ICN的緩存原理，提出網絡、緩存、計算資源聯合優化的框架
將資源分配問題建模爲聯合優化問題
對於系統複雜度高的問題，使用深度強化學習解決
給出不同系統參數下的仿真成果，驗證了方案有效性

系統描述

車輛網絡

車輛網絡通過移動通信網實現多種服務、內容和應用信息的互傳。在安全預警、娛樂、無人駕駛等方面可實現多種應用。

對應於不同的應用需求，車載通信基於兩種技術。若車僅依賴Internet的數據，則可使用蜂窩網絡進行通信；若僅需要在車與車之間交換信息和數據，則可使用DSRC。

軟件定義網絡和虛擬車聯網

SDN的許多特性（靈活性、可編程、集中控制管理等）都很適合車載網絡的通信。

無線網絡虛擬化被認爲是管理網絡架構和資源一種有效的方法。

下圖是一個將組網、緩存、計算集成起來的軟件定義的虛擬車聯網。

信息中心式車聯網

車聯網中，傳感器所產生的數據量很大，另外其鏈路質量和車輛移動也是個問題。這些對基於IP的數據傳輸帶來了挑戰。將ICN（信息中心式組網）擴展到車輛網絡可以解決這一問題。比如，ICN的一個子架構NDN（明明數據網絡）使用內容名來路由和檢索數據，並且通過對每個數據包進行·加密來講安全性集成到數據中。此外，網絡內緩存可以減少重複內容傳輸。

ICN的網內緩存可解決車聯網中移動性的問題，車聯網中信息優先級明確的特點也適合ICN。

移動邊緣計算與車聯網

雲計算對車聯網不太適用，MEC在靠近車輛的邊緣進行數據處理，適用於車輛網絡。

組網、緩存、計算的集成式車輛網絡架構

傳統工作將組網、緩存、計算分離研究，但這些因素是同時對資源分配產生影響的。分立研究會導致次佳性能。根據需求動態資源分配是個好方法。

本文提出一個集成式網絡架構，其結合SDN和ICN的思想，能動態編排網絡、緩存和計算資源。

圖2 本文提出的集成架構下的一個用例的流程 — 圖2 集成架構下傳輸視頻數據的流程

圖2描述了該架構中的一個用例：車輛向與其連接的虛擬BS發出視頻內容清空。

虛擬BS根據視頻內容描述和車輛信息檢查相關聯的緩存是否有所需內容。
若有：高速緩存將檢查內容版本是否和車輛匹配；
1. 若匹配：虛擬BS將內容發送給車輛
2. 若不匹配：虛擬BS提取視頻內容和參數，將其傳入MEC進行轉換，將轉換後的內容發給車輛
若沒有：虛擬BS從Internet檢索內容並下載。

綜合考慮組網、緩存、計算的複雜性很高，用強化學習方法解決。

系統模型

網絡模型

考慮一個SDN車聯網，其中多個車輛請求視頻內容。物理層基礎設施包括：BSs、路測單元RSUs、MEC、內容緩存、車輛、路由器。

符號	含義
	BS的集合
	RSU的集合
$\mho=\{1,...,U\}$	車輛的集合
M={1, ..., M}	MEC服務器
C={1, ..., C}	緩存
	與k號BS關聯的MEC
	與k號BS關聯的緩存
S={1, .., S}	SP（服務提供端）集合
	s號SP管理下的車的集合
	s號SP管理下的一輛車
$a_{u_s,k}(t)$	號車和k號BS的連接關係（bool）

每個虛擬網絡都包含BS、RSU、MEC、緩存。不同的虛擬網絡所用的頻帶正交。由SP管理虛擬網絡，每輛車在指定時間只會所屬於一個SP，即金額能與一個BS or RSU相連。

通信模型

符號	含義
$D=\{D_0, D_1, ..., D_{L-1}\}$	馬爾科夫鏈的狀態空間，成員表示信噪比的數值（離散）
$\Upsilon_{u}^{k}$	k號BS和u號車輛之間的接收SNR
$\Upsilon_{i_{1}}^{k_{1}}(t)$	t時點的SNR
T	一整個通信最多存在T個時點
t	時點的序號
$\psi_{g_{s}} h_{s}(t)$	從狀態跳轉到狀態的轉移概率
Hz	頻譜總帶寬/分配給k號BS的帶寬
bps	回程鏈路容量/分配給k號BS的回程容量
$b_{u_s, k}$	k 號BS到 u_s 號車的頻譜帶寬爲
$v_{u_s, k}(t)$	k 號BS到u_s號車的可達頻譜效率（基於香農限）

將車輛與連接的BS/RSU之間的信道建模爲有限狀態的馬爾科夫信道（FSMC）。

將車輛和基站k之間的信噪比建模爲離散的隨機變量，共L個離散值。每個值對應FSMC的一種狀態，將狀態空間記作D。車輛與基站 k 之間的信道轉移概率矩陣爲

設置BS所連的車的頻譜正交，因此連接到BS的鏈路間無干擾。車u_s的通信速率爲：

BS k 相關聯的車輛的總速率受限於BS回程鏈路的容量，公式化爲：

整個網絡中的總速率受限於總的回程鏈路容量，公式化爲：

計算模型

這部分的目標是構建計算任務 $Q_{u_s} = \{ o_u, q_{u_s}\}$ （s爲服務提供端SP，u_s爲SP所管理的車的集合），此任務由車us 相關聯的MEC m_k激活。第一個參數ou表示待傳視頻數據的大小，第二個參數表示所需CPU的週期。計算後 BS k 將轉換後的數據送回車輛us。

$f_{u_{s}}^{k}$	k號BS分配給us號車的計算容量（用每秒的CPU週期數度量）
$\varepsilon ={\varepsilon_0,\varepsilon_1,..., \varepsilon_{N-1}}$	計算容量的取值空間（離散）
$F_{u_{s}}^{k}(t)$	時點t的 $f_{u_{s}}^{k}$ 的具體數值

虛擬車車聯網中，計算速度不同的MEC動態地分配給BS。此外，多個車輛可以同時訪問相同的BS和MEC，因此我們無法準確得知車輛在下個時點的計算容量。因此計算容量f可以被建模爲一個隨機變量，並離散化表示爲 $\varepsilon ={\varepsilon_0,\varepsilon_1,..., \varepsilon_{N-1}}$ 。我們將計算容量在不同時點的變化建模爲一個馬爾科夫鏈，從k號BS到us號車的計算容量的轉移矩陣爲（其中l爲轉移概率）：

任務 $Q_{u_s}$ 在k號BS的計算所需時間爲 $T_{u_{s}, k}=\frac{q_{u_{s}}}{F_{u_{s}}^{k}(t)}$ ，其計算速率（每秒的bit數）爲

MEC計算容量有限，公式化爲（O_k爲 m_k號MEC的最大容量）：

緩存模型

假設在服務器中，同時存在 I 個內容數據，其標號爲 i （表示第i個最流行的內容），對於i號內容在時點t的平均請求速率爲：

假設這些內容的到達服從泊松過程（速率爲 $\beta$ ），請求內容的概率由Zipf 分佈決定，與i那次i號內容被選中的概率爲 $1 / \rho i^{\alpha}$ ，其中 $\rho = \sum_{i=1}^{I} 1 / i^{\alpha}$ ， $\alpha$ 爲Zipf斜率（0~1）。

在本文系統模型中通過，內容緩存定期存儲來自服務器的內容。車輛的情求內容i 是否在緩存中可視爲一個隨機變量 $\xi _i$ ，i號內容的緩存狀態轉移矩陣爲：（ $\delta$ 表示緩存狀態的轉移概率）

對於緩存容量，考慮容量有限和無限兩種情況：緩存容量無限時，僅當存儲時間超過到期時間時刪除。i號內容的壽命服從 $1/\mu$ 的指數分佈，此時緩存狀態的轉移概率矩陣爲（由文獻[29]的馬爾可夫流矩陣獲得）：

緩存容量有限時，轉移概率矩陣爲：

深度強化學習

以下是對RL的概述，略了。

強化學習

深度Q-Learning

其他DRL組件

問題建模

模型中有K個基站、M個MEC服務器和C個內容緩存，由MVNO（移動虛擬網絡運營商）管理。MEC服務器的計算額能力和緩存狀態動態變化。

MVNO從基站、MEC和內容緩存收集狀態，然後將構造好的狀態發給agent並獲取優化策略的反饋，此反饋是對某輛車的資源分配方案。得到動作後，MVNO通知車輛可以訪問哪個VN（虛擬網絡）。

Q網絡中， $\theta$ 是網絡的實時參數， $\theta^,$ 是參數的copy。

系統狀態

$\Upsilon_{u_{s}}^{k}(t)$	號車在時點t連接k號基站
$\gamma_{u_{s}}^{k}$	號車在時點t連接k號基站（隨機變量）
$F^m_{u_s}(t)$	號車在時點t連接m號MEC
$f^m_{u_s}$	號車在時點t連接m號MEC（隨機變量）
$\Xi_{u_{s}}^{c}(t)$	號車在時點t連接c號緩存
$\xi_{c}$	號車在時點t連接c號緩存（隨機變量）BOOLEN

狀態空間爲

系統動作

agent決定車輛與BS的連接、是否將內容存緩存在BS中，是否將計算任務卸載到MEC。

動作爲：

其中 $a_{u_{s}}^{\mathrm{comm}}(t), a_{u_{s}}^{\mathrm{comp}}(t), a_{u_{s}} ^ { cache }(t)$ 分別定義如下：

行向量 $a_{u_{s}}^{\mathrm{comm}}(t)=\left[a_{u_{s}, 1}^{\mathrm{comm}}(t), a_{u_{s}, 2}^{\mathrm{comm}}(t), \ldots\right.]$ ，表示k號基站在t與us號車建立通信連接。
同上，表示us號車在t將計算卸載到m號MEC。
同上，表示us號車在t將內容緩存到c號緩存。

獎勵函數

將MVNO的綜合收益作爲reward，MVNO從InPs獲得頻譜和回程帶塊分配給虛擬SP。MVNO租借頻譜時需要支付費用： $\delta_k$ 表示爲k號BS申請的每Hz的花費。計算資源：來自m號MEC的每Joule的成本爲 $\eta _m$ ；緩存資源：來自c號緩存的每單元空間的成本爲： $\xi _c$ 。

MVNO向接入VN的車收費： $\tau_{u_s}$ 每 bps。車在k號BS計算的費用爲\theta_{u_s}每bps，回程傳輸的成本爲k_{u_s}每bps。

系統獎勵是MVNO的收益，其是接入無線鏈路的接受信噪比、計算能力、緩存狀態的函數。對us號車的獎勵爲：

累積回報記作

仿真結果與討論

仿真設置

TF0.12.1 with python2.7 on Ubantu 14.04LTS.

設置四個對照組：

靜態資源分配，聯合優化通信、計算和緩存
不使用虛擬化的本文算法：車只能連接一個SP、MEC、緩存
不使用MEC卸載的本文算法：車只能本地執行計算任務
不使用邊緣緩存的本文算法：車只能從遠端服務器下載內容

所有BS和車隨機分佈在MBS覆蓋範圍內，本文假設存在5個SP，5個BS，5個MEC服務器，車與BS之間的無線信道遵循馬爾菲弗模型。假設信道狀態有好有壞：頻譜效率v_{u_s,k} = 1（壞），3（好）。狀態轉移時0.7維持在原狀態。存在一個視頻數據，緩存狀態服從馬爾可夫模型，將維持同一狀態的概率設爲0.6。MEC服務器計算狀態服從馬爾可夫模型，假設MEC服務器的計算狀態爲：非常低、低、中、高、非常高，其轉移矩陣如下：

仿真結果

圖3可見不同方案的收斂性能及性能上限，可見閹掉哪個組件都會造成性能下降，其中去掉虛擬化下降最明顯。

圖4顯示了不同探索率的性能比較，一般將初始探索率設置較大、最終探索率設置較小。圖中可見探索率對系統總效用存在影響。一般來說探索率大總效用小，但是探索率小會導致陷入局部最優。下問將最終探索率設置爲0。

圖5顯示了內容大小對效用的影響，無MEC卸載的方案：效用隨內容尺寸增大而減小，這是因爲內容尺寸大時緩存費用變大，導致緩存效用的收益降低。MEC卸載方案的總效用隨內容增大而增大，因爲將內容卸載到MEC會導致計算效用增大

圖6展示了隨着VN費用變化的效用變化，隨着費用增大，有MEC（藍）和沒有MEC（粉）的差距變小，這是因爲MEC卸載會降低訪問VN的費用，隨着費用增加，虛擬化在整體收益中所佔比例越來越高，因此MEC卸載將會被更少激活。

圖7展示了激活MEC的成本對效用的影響，可觀察到隨着該費用的增加，有無虛擬化的差距會變大，這是因爲隨着MEC成本的增加，執行MEC的收益會增加，導致虛擬化的收益下降。

圖8顯示了連接緩存的成本對效用的影響，沒有MEC和虛擬化的方案隨着連接緩存成本的增加而增加，只說民緩存成本的增加對這兩個方案沒啥影響

[論文筆記]Integrated Networking, Caching, and Computing for Connected Vehicles: A DRL Approach