Metis: Robustly Tuning Tail Latencies of Cloud Systems調節雲系統的尾延遲

Metis受到利用BO訓練GP迴歸模型的啓發,同時提高了優化系統定製的穩健性。

摘要:

  1. 調整參數三大問題:工作負載多、系統規模大、參數空間維度大。
  2. 尾延遲等性能指標對非平凡噪聲敏感。雖然將目標系統視爲黑匣子可以提高適用性,但增加了平衡開發和得到的目標複雜化。
  3. 自動調參的動機:
    1. 動態變化的工作負載。
    2. 系統的規模增加,參數增多。
    3. 人工調參成本太高。
  4. Metis是一項自動調整服務,實現了特定的貝葉斯優化並進行自動調整。
    1. 診斷模型,用於查找重新採樣的潛在數據異常值。
    2. 採集功能的混合,以平衡採樣,勘探和重新採樣。

介紹:

 

  1. 雖然尾延遲似乎很少,但在端到端系統中用戶請求遇到尾延遲的可能性很高,特別是採用多級架構大多數Web級應用程序。 
  2. 與平均延遲相比,尾部延遲可以高出10倍以上。 
  3. 具有高斯過程(GP)的貝葉斯優化(BO)已經成爲用於系統定製的強大的黑盒優化框架。通過迴歸已經收集的數據點(即基準測試的系統配置)來模擬配置與性能空間,可得到全局最優或最佳性能的系統配置。BO提供了一種提出建議系統配置進行基準測試來實現建立訓練數據的方法,其目標是最大限度地提高迴歸模型的準確性。

提升Metis系統定製的穩健型需要解決以下問題:

 

  1. 我們應該避免不必要地過度採樣空間,因爲系統基準測試可能是資源密集型和耗時的。在每次迭代時,BO將下一個系統配置選擇爲基準的策略應該平衡利用(即,包含最優的概率很高的區域)和勘探(即,包含最優的高不確定性的區域)。

總結:

  1. 使用Bing Ads鍵值存儲集羣作爲運行示例,與人工進行數週的手動調整相比。實驗結果顯示Metis將整體調整時間縮短了98.41%,同時將99%的延遲減少了另外3.43% 。 
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章