摘要:其實對於節能,傳統技術也是做了“十二分”的努力。但是在技術不斷演進的情況下,傳統節能技術還是存在問題,如何破?
本文分享自華爲雲社區《數據中心節能?來試試華爲NAIE數據中心節能技術!》,原文作者:啓明 。
一、3 年電費消耗,可再建造一個數據中心!
1.1 科技驅動,推動數據中心市場持續高速發展
國際慣例,先介(bai)紹(du)一(bai)下(ke)“數據中心”:數據中心是全球協作的特定設備網絡,用來在 internet 網絡基礎設施上傳遞、加速、展示、計算、存儲數據信息。一個數據中心的主要目的是運行應用來處理商業和運作的組織的數據。
現如今,我們已經處在一個全聯接的世界。從 2015 年到 2025 年,根據華爲 GIV 的數據預測,全球智能終端聯接數將從 70 億激增到 400 億,全球聯接數也將從 200 億激增到 1000 億。而在硬件數和聯接數激增的背後,是數據流量的爆發式增長:年數據流量將從 9ZB 以 20 倍的速度湧至 180ZB(見圖 1)。
圖 1:數據來源於 HW GIV
數據流量的極速增長,加上政府對各新興產業的大力扶持,數據中心的發展建設將迎來高速發展時期,根據 MarketsAndMarkets 的數據統計預估,全球數據中心的價值將從 2017 年的 130.7 億美元增長到 2022 年 465.0 億美元(見圖 2),這其中的 CAGR(Compound Annual GrowthRate,複合年均增長率)高達 28.9%。其市場規模及市場價值,不言而喻。
圖 2:數據來源於 MarketsAndMarkets
1.2 高電力消耗,數據中心產業“背後的陰影”
“陽光背後總有陰影”。高產業價值的背後,是高電力消耗。作爲“數據中心”,可以想象:一個大型機房,裏面密密麻麻地佈滿了各式各樣的機櫃、服務器等。數據中心的前期基礎建設和投資,將會是一筆鉅額數字。而一旦啓動使用,這其中的電費,又將是一個天文數字。我們可以用一個大型數據中心 10 年的運營成本情況來看看這其中的電力使用情況:
從上面的表格可以看到,該數據中心每年電費將近 3600 萬,其中有 70%都用於電費,而 70%的電費中,又有 19%用於製冷上。且據 2017 年統計,全球數據中心用電量佔全球用電量的 3%,年增長率超過 6%,相當於 30 個核電站;僅中國的數據中心用電量每年就有 1200 億千瓦時,超過三峽電站 2017 年全年發電量(1000 億千瓦時)。計算下來,數據中心 3 年的電費可以再造一個數據中心!
1.3 外部政策+運營挑戰,數據中心產業節能成必然趨勢
數據中心背後的電費數據如此觸目驚心,以至於在國家層面都有相關的政策對能效指標提出了嚴格的要求:如,工業和信息化部在《綠色數據中心指導意見》中要求新建的數據中心的 PUE 要小於 1.4;對於北京、上海、深圳等地也對 PUE 有規劃的要求,特別是深圳市發改委鼓勵新建的數據中心的 PUE 要小於 1.25,這其實是一個很有挑戰的數字。當然,歐盟和美國對 PUE 也有相應的自己的規範。畢竟,節能,就意味着降低成本,進而增加利潤。
要解決能耗問題,我們需要先把能耗問題列成一個公式,進而通過降低或增加公式的某個值來達到降低能耗的目的。這個公式就是我們前面說的 PUE 的計算方法。
PUE,即 Power UsageEffectiveness,電能使用效率。PUE=數據中心總能耗/IT 設備能耗,其中數據中心總能耗包括 IT 設備能耗和製冷、配電等系統的能耗。PUE 的值,必然是大於 1 的。舉個例子,如果 PUE=2,那就意味着,IT 設備每消耗 1 瓦特的電量,就需要額外再消耗 1 瓦特的電量對它進行配電和冷卻。當然,如果在理想情況下,如果所有的電力全都消耗在 IT 設備上,也就是說所有的電力全用於生產,那麼這時候的 PUE 就是等於 1。
下圖爲一個數據中心的能耗單元詳情:
可以看到,一個數據中心的能耗單元包括冷水機組,水泵,IT 設備,風扇,新風照明等等,這些單元的能耗處於分子的位置。PUE 越接近 1,則使用效能越高,越省電,越省錢。那麼要節電,很自然的,我們會從分子入手,即非 IT 能耗(主要爲製冷功能)。
1.4 找到原理,數據中心如何製冷
在想解決辦法之前,我們先看看數據中心的製冷原理(下圖爲製冷簡圖)。
整個系統可以分爲冷凍站和末端機房兩部分,這邊虛線的左側是冷凍站,它包括冷卻塔,製冷機組,各種功能的水泵以及儲存冷水使用的蓄冷罐;虛線右側則是我們的 IT 設備機房,裏面除了服務器機櫃外,還要用來吹出冷風的空調。空調的冷源即來自於左側的冷凍站。
簡單來說,整個系統製冷系統就是把 IT 設備裏服務器散發出來的熱量給搬移到室外去,製冷系統的耗電單元也很直觀,就是圖上的冷卻塔,冷卻泵,冷機以及空調等。
當然,上圖只是一個簡單的原理圖,實際中的製冷圖會遠比上圖複雜的多。那麼複雜的系統我們該如何節能呢?
1.5 技術演進下,傳統節能技術的侷限
其實對於節能,傳統技術也是做了“十二分”的努力。但是在技術不斷演進的情況下,傳統節能技術還是存在以下問題:
- 產品級節能技術應用已接近天花板;
- 系統複雜、設備多、各設備間能耗影響關係錯綜複雜,難以用傳統工程學公式模擬,傳統控制方式各自爲政,專家經驗作用已達極限;
- 每個數據中心都是獨特的環境和架構,雖然許多工程實踐和經驗法則可以全面應用,但一個系統運行的定製模型並不能保證另一個系統的成功。
二、NAIE 數據中心節能技術如何助力節能
2.1 業界共識,AI 助力數據中心節能
如前面所說,傳統節能技術已經無法滿足數據中心節能的需求。大家開始尋求新的方式。
現如今,業界的共識是使用 AI 來調節整個製冷系統,讓各個設備運行狀態相互匹配,從而達到最佳狀態。根據 Gartner 的用戶調研顯示,截止 2020 年,30%未做好人工智能準備的數據中心,其業務將不再具有經濟性。同時,調研還列舉了人工智能改善數據中心日常運營的三種方式:
- 利用預測分析優化工作負載分配,實施優化存儲和計算負載平衡;
- 機器學習算法以最佳方式處理事務,用人工智能來優化數據中心能耗;
- 人工智能可緩解人員短缺,自動執行系統更新、安全補丁。
“使用 AI 來調節制冷系統”,最有名的是 Jim Gao 和 DeepMind 團隊的合作。他們使用神經網絡分別預測了 PUE、數據中心的溫度、負載壓力,來控制大概 120 個數據中心的變量,從而實現 PUE 的降低。
業界對於 AI 技術進行數據中心節能已經有非常成功的應用,接下來,我們看看 NAIE 數據中心是如何助力節能的吧!
2.2 華爲 NAIE 數據中心節能技術
就“節能”而言,其實是一個非常大的話題,而 NAIE 數據中心節能,也是包含了很多方面,我們今天的介紹,以“製冷系統節能”爲主。針對“製冷系統節能”,NAIE 數據中心節能有以下 4 個“手段”:
2.2.1 原始數據特徵工程
對於數據中心的製冷系統,一般都有着複雜的管路佈局、安裝的製冷機組(水泵,水塔等設備),並且除了這些設備之外,還有數不清的傳感器。同時,不同的數據中心,根據選址的不同也會有各方面的差異,最終導致管路和設備都是不一樣的。
針對這些數據差異,我們可以通過 AI 算法屏蔽:通過特徵工程去處理一些複雜的結構,比如說單管、母管、環管等;根據不同的管制,我們想辦法提取統一的特徵,然後針對不同的設備,如冷塔、冷機、熱交換機、水泵、空調等,綜合提取比較接近的特徵;最後,對數據進行校驗,對缺失的數據給予補齊,對錯誤的數據機進行糾正,對異常的樣本進行刪除。
因此,通過特徵工程,我們可以將局點採集到的數據加工成一個比較統一的形式,提供給後面的 AI 算法。
2.2.2 能耗預測和安全保障模型
要節能,首先需要有一個能耗預測模型。建立一個好的模型,是預測如何調節制冷系統節能的一個良好開端。但面向工業控制領域的預測模型,與預測股票走勢,或者是地鐵人流量的模型有一個比較大的區別:對安全的控制。畢竟安全生產是第一位的,省電省錢纔是第二位的。
所以 NAIE 數據中心節能預測模型不是一個簡單的、獨立的模型,而是一套模型:不僅要預測在調節之後的能耗,還要預測各個智能系統的狀態。要保證在所有系統狀態正常的基礎上,再去節能。
2.2.3 控制參數尋優
前面兩個“手段”的介紹,已經爲節能算法打下了良好的基礎。到了第三個“手段”,就要出“成績”了。我們搜索到的控制參數是不是“優秀”,完全是由第三個“手段”的質量來決定的。“能耗預測和安全保證模型”提供了一個很好的能耗和狀態預測的模型,可以把這個模型想象成一個超曲面圖形(如下圖)。當然,它的形狀是畫不出來也很難想象的,因爲我們解決的是一個高維空間的問題,並且在這個超曲面上還有很多的空洞,這些空洞表示不安全的控制參數。那麼我們第三個“手段”的目的就是爲了又快又好的找到其中更優或者最優的控制參數,下發給設備來執行。
2.2.4 NAIE 雲地協同
雲地協同,即是打通了雲端和地端,實現數據採集上雲,模型日常評估,重(chóng)訓練,模型更新全流程的自動化的服務。
簡單說明一下:數據採集,即新的樣本;模型的日常評估,即決定什麼時候更新;重訓練,即重新訓練的流程,最後達到模型更新全自動化的目的。(具體框架圖見下)
NAIE 的雲地協同,在雲上有 NAIE 的數據湖、數據中心 PUE 優化模型生成服務,以及 AI 市場(AI 市場用來管理生成的模型包);在客戶網絡的地端,有網絡 AI 框架(運行模型生成服務生成的模型的平臺)。地端的網絡 AI 框架負責樣本採集及管理,同時還負責運用新的樣本不斷地對生成的模型進行評估。如果發現採集的樣本的分佈發生了明顯的變化,或者說是模型精度老是不達標的時候,就會觸發去重建模型。
同時,網絡 AI 框架通過華爲的 Cloud Opera Neteco 系統與數據中心的實際控制系統進行了對接。如此一來,由模型生成的控制參數可以直接下發到實際的羣控系統裏面。
2.3NAIE 助力數據中心節能,所向披靡
華爲的某數據中心,在 NAIE 的加持下,全年的 PUE 經過優化之後,對比使用 AI 前,PUE 降低了 0.12,換算成電力,也就是每個採樣週期可以降低 328.6 千瓦的耗電。這樣算下來,一年可以省掉 580 萬元的電費,一個相當可觀的數字。
- NAIE 模型生成服務
不同的數據中心,在製冷模式(水冷、風冷、AHU 等)、管路類型(母管、單管、混合管)等方面很可能存在差異,我們該如何入手呢?
這裏就要用到我們前面說的“特徵工程”。如我們前面所說,“特徵工程”的用處就是能夠屏蔽 AI 算法的諸多差異,能夠儘量形成統一的特徵。
普通的建模(如下圖),針對開發人員:從節能建模到模型應用,需要開發人員 4 個,歷時 6 個月。
而 NAIE 在“特徵工程”與“老專家”的技術加持下,已經爲大家準備好了前序條件,我們來看看 NAIE 的幾大亮點與優勢:
1. 零編碼高效建模:基於華爲的數據中心拓撲模板、AI 模型訓練平臺和 PUE 特徵/算法庫,能源工程師只需提供基礎設施運行數據和製冷設備工藝參數,無需任何編碼,即可在線得到匹配其數據中心的 AI 模型,模型開發時間從 8 人*6 月降低到 1 人*1 月,整個模型的開發投入降低 95%以上;
2. 參數配置靈活可視:基於華爲在數據中心領域可視化的參數配置,通過調整參數,即可生成不同拓撲模板下數據中心的 PUE 模型;
3. 控制策略全面:通過導入數據中心基礎設施 PUE 相關全量參數,模型能推理出全套製冷設備的控制策略,如冷水機組、冷卻泵、冷卻塔、冷凍泵、板換等,幫助能源工程師靈活精準地調控制冷系統,以達到最佳能耗狀態;
4. 優化效果好:通過專業的特徵識別及處理,模型擬合效果好。 在數量質量保證前提下,PUE 預測準確率達到 95%。
通過數據中心 PUE 優化模型生成服務官網(https://console.huaweicloud.com/naie/products/dpo),可以快速體驗服務:點擊“功能演示”:
進入服務介紹頁面,根據指導一步步往下走,即快速便捷體驗數據中心 PUE 優化模型生成服務。
數據中心 PUE 優化模型生成服務結合 AI 技術與數據中心工程經驗,提供自動化建模工具(如數據中心拓撲模板、PUE 特徵/算法庫、模型訓練平臺),幫助數據中心領域工程師 0 基礎 0 編碼,只需輸入數據中心基礎設施的運行數據,即可在線得到有效的 PUE 優化模型,一起來試試?