技術探祕:華爲雲瑤光何以定方向

作爲北斗第七星,瑤光自古就可用來判斷四季更迭、引向定時。而作爲全新發布的智能雲操作系統,瑤光智慧雲腦又是如何做到統領雲上各類資源、實現租戶需求與資源供應之間最佳匹配的呢?在華爲雲瑤光實驗室、華爲雲算法創新實驗室裏,我們找到了答案。

#初識資源調度# 雲OS:我太“南”了

依託虛擬化技術,我們得以將數據中心海量的計算、存儲資源以雲服務的形式對外提供。而隨着數據中心規模擴展、邊緣計算帶來的算力延伸,承擔着高效、精準資源調度的雲操作系統面臨着三大挑戰:

第一個挑戰是雲計算的資源消耗/售賣模式帶來的。雲計算的資源申請通常隨機到達、按需計費、用完即釋放,無法依據恆定指標構建目標函數求解;

第二個挑戰是華爲雲快速增長帶來的。根據Frost & Sullivan對於中國公有云市場的調查研究結果顯示,2019年Q3華爲雲IaaS市場份額排名上升至第三,成爲增速最快的Top廠商。高速增長使得用戶資源請求的分佈隨時間變化,而傳統的研究多是針對穩定的請求分佈來設計解決方案的;

第三個挑戰是服務器本身架構帶來的。不同服務器體系架構的不同組合方式會導致性能差異,所以這些不同架構設計就像裝箱問題中箱子之間加了很多不同隔板,使得放置資源的同時還要考慮性能約束。

#致敬經典# 傳統裝箱模型爲何行不通

裝箱問題最早可以追溯到1831年高斯(Gauss)開始研究的佈局問題,其本質與裝箱一樣,都是希望將儘可能多的貨物裝進箱中。雲端虛擬機的部署是把具有多種資源需求的虛擬機向物理機分配的過程,如下圖,雲操作系統時刻收到虛擬機的資源創建請求,它需要決策將資源部署到哪臺物理機上才能保證碎片率最低。

圖1 當裝箱算法遇到雲上資源調度

從過程中可以發現,相比經典裝箱問題,雲上資源調度有了新的約束:

1、實時雲環境下,虛擬機是動態、依次部署到物理機上的,事先虛擬機的創刪申請和資源需求信息具有不確定性;

2、過高的物理機資源利用率可能會導致業務負載發生波動,故資源調度時要充分考慮物理機的資源和性能約束,並處理可能出現的性能突發訴求;

3、根據業務不同的在線/離線屬性,調度過程也需考慮同物理機上不同虛擬機之間,因資源搶佔可能發生的“擾鄰”現象,並儘可能降低影響。

#成爲智慧雲腦# 瑤光的學習成長路徑

沿着經典裝箱問題思路,瑤光背後的專家們嘗試瞭如FirstFit、BestFit等運籌學方法,以一臺物理機爲例,通過比對“請求資源量”和“可用資源量”的匹配程度,即其向量的餘弦夾角值來判斷對可用資源量的利用情況,如下圖所示。

圖2 利用餘弦夾角方法求解調度

而站在資源池全局的角度看,當發生隨機請求與資源池擴縮容時,目標函數也會隨即改變。此時,瑤光引入了具有強大搜索能力的強化學習算法,通過預模擬來嘗試各種策略,並反覆強化最終收益最大的方案。強化學習以數據爲基礎,其思路我們可以通過迷宮遊戲來理解:

圖3 通過強化學習算法模擬求解最優調度

熊貓在尋找出口處竹子的過程中,“上下左右”每一步決策都可能“碰壁”、“通過”或“吃到竹子”,這些都算是不同經驗值的“獎勵”。通過反覆的模擬,嘗試在不同位置(即“狀態”)選取不同行動(即“決策”)所分得的獎勵,此時“狀態State”與“獎勵Reward”的關係就是資源池選擇哪臺機器來滿足請求的決策依據

更進一步,不同體系架構的雲服務器、不同租戶間的QoS要求,意味着強化學習算法應對的環境在不停變化,就像上圖不斷複雜變換的迷宮。而強化學習訓練用的歷史數據不具有概括性與對抗性,這時瑤光開始基於歷史數據完成自學習與進化,以應對快速規模發展下的資源調度問題。

 

 

圖4 基於瑤光調度算法實現自學習調度策略調優

 

爲了驗證方案的可行性,瑤光實驗室基於隨機請求序列(基於華爲雲現網數據隨機打散生成)對專家經驗與模型數據雙驅動的“瑤光資源調度算法”進行了仿真測試:

表1 仿真測試場景一

資源池規模

10000

主機規格

88U304G

232U896G

實例規格

華爲雲C6,S6和M6全系列flavor

請求序列

隨機生成

實例生命週期

隨機生成

結束條件

資源耗盡

表2 仿真測試場景二

主機規格

88U304G

實例規格

華爲雲C6,S6和M6全系列flavor

請求序列

隨機生成

實例數量

100000

實例生命週期

隨機生成

結束條件

請求序列發放完成

測試結果表明,採用瑤光資源調度算法後平均碎片率優化效果提升30%、同一仿真序列下節省服務器數量約6%、資源池碎片整理觸發週期延長約50%

#瑤光TechTalk# 大咖齊聚,暢享前沿技術乾貨

華爲雲設立瑤光實驗室的初衷就是解決雲基礎服務在創新過程中遇到的痛點,爲客戶打造“極優、極簡”的雲上操作體驗,而計算資源碎片的優化就是其中重要的技術專項。從本月起,華爲雲將打造全新“瑤光TechTalk”系列技術專題,帶你走進瑤光實驗室,聽業界大咖分享雲計算背後的技術乾貨!本期直播將聚焦“流量洪峯與彈性擴容背後,華爲雲瑤光資源調度與智能算法”,2月26日(週三)19:00-20:00 華爲雲“瑤光TechTalk”直播間,敬請期待!
戳→報名

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章