騰訊朱華:數據中心下一個風向的探索

導讀:朱華,騰訊數據中心技術發展中心總監,中國工程建設標準化協會數據中心技術委員會副主任委員,中國通信標準化協會開放數據中心委員會數據中心工作組組長,榮獲中國工程建設標準化協會頒發的2018數據中心青年科技人才獎。11月30日,朱華在2018數據中心年度峯會上發表了演講,以下爲演講內容。


v2-ef473474840908d4b25390c9f11d9f6d_hd.jpg



談起數據中心下一個風向的探索,我想借此回顧過往這十年,騰訊數據中心對技術發展的探索歷史。


一.騰訊數據中心十年技術探索史

1.一石多鳥的高壓直流

2008年到2010年,爲了解決電力轉換效能的問題,我們在鹽城電信趙老師實驗室的基礎上,發起了240V高壓直流替代UPS的技術架構改造項目。這是一個重構低壓配電架構的過程。起初我們步履維艱,而如今BAT已經有數百萬服務器運行在這個配電架構上了。

有意思的是,原本我們意在節能,結果獲得更大收益的是運維的便利性和運行的可靠性。縱觀整個行業,所有使用這個配電架構的數據中心,從未因高壓直流出現嚴重問題而影響業務,反觀UPS配電架構,故障頻出,經常導致業務損失慘重。

2.初嘗標準化和產品化的甜頭——微模塊

2011年到2012年,我們完善微模塊的架構,解決了IT模塊內的標準化和部分結構產品化問題。微模塊改變了原先IT模塊內的工程做法,顛覆了以往數據中心的建設分工界面和模式,甚至打破了產業原先的格局。到如今,每年微模塊的產量爲約爲5000套。

3.萬法歸宗的諾曼底模型

到了2013年,騰訊的在青浦和深汕開展大規模數據中心建設,需要規範大型(10-15萬服務器規模)數據中心規劃設計的方法論。因此我們發起了一個代號“諾曼底模型”的探索項目。這個方法論,就是一套邏輯算法。它解決了一個最重要的問題——解釋每個數據中心建設需求的邏輯,讓需求提得明白,讓設計院畫圖畫得明白,讓總包建設得明白,讓運營方接管得明白。所有項目從建築到機電建設都是一個統一標準。這樣也就讓甲方、設計院、總包、驗收方等所有相關方理解一致,方向一致,把數據中心當成一個標準的工業品而不是一個獨特的藝術孤品。

4.製冷設備要去水化、去工程化、產品化,更要本土化

早期騰訊在天津嘗試了airside freecooling的技術,這個技術在美國較爲成熟,但是到了中國卻表現出水土不服:空氣中的有害物質直接進入機房,損耗了IT設備。怎樣才能既充分利用外界的冷量,同時又不讓IT設備直接暴露在外?2015年我們在貴陽實驗室引進了中國第一套來自德國GEA的空空換熱的製冷設備,並對其做了適應中國的技術改造,從而大獲成功。這種技術交換熱量而非交換物質——它通過工程高分子材料或者金屬材料,使內部空氣和外部空氣進行熱量交換,但是氣體卻是隔離的。如今,這種設備已經完全可由中國製造,在效率上不輸於進口產品,成本卻是完全折半的。行業已經大規模應用,整個產業鏈也已興起。這種技術的探索成功,收穫遠不止節能本身。由於這種間接製冷的方式是去水化、去工程化的,所以它放棄了大型的水冷機組,也就是去掉了錯綜複雜管路工程。我們的製冷設備終於走上產品化的道路!

5.數據中心整體標準化和產品化的產物:T-block

實現製冷設備的產品化,讓我們有機會探索數據中心整體產品化。2016年我們推出了T-block技術,設計了製冷方倉、IT方倉、電力方倉、中壓方倉,整個產業鏈也隨之跟進。至此,數據中心能夠以完全產品化的方式進行建設和交付。

6.諾曼底模型再進化—— Tbase模型

2018年,爲配合全國的拿地大規模自建,我們將“諾曼底模型”方法論進化爲新的大型和超大型園區的建設方法論——“Tbase模型”,以應對30萬服務器及以上規模的數據中心規劃和設計。


v2-cfcbacc4b9c5fed13e8f8f09316e84ef_hd.jpg



這十年的探索,我們一直堅持走模塊化、標準化、產品化的道路。這是一個漸進的過程,也伴隨着產業鏈的跟進和培養。重構傳統的架構、顛覆傳統的建設方式的路上充滿着不爲人道的艱辛。 


二.騰訊數據中心技術發展未來探索方向

1.人工智能時代對數據存儲、計算、運輸的更高要求

至此,在硬件層面,我們似乎已經到了一個自我突破的瓶頸和天花板,其實不然。數據中心作爲基礎服務工業,會面臨一個新的發展時期——萬物互聯的人工智能時代。以往這些年,熱度極高的雲計算、大數據、物聯網的發展,其實都是爲了這個萬物互聯的人工智能時代做了嫁衣,爲這個時代的橫空出世奠定了基礎。

人工智能的實現,依存於幾個基礎條件:①海量的存儲能力②更先進的算法③大容量、大帶寬的通信信道。大數據作爲人工智能的原始依據,雲計算進行高能計算和存儲,物聯網提供無所不在的數據採集場景,5G以極低時延的進行高速傳送。

2.春江水暖鴨先知——互聯網巨頭迎戰新時代

最近阿里和騰訊的組織架構調整,從名字上都能看出端倪:阿里新成立的BG名字後面加了”智能”。而騰訊雲調整後,BG名字加上了“智慧產業”。自此雲不再是獨立的存在,而是帶着應用場景的存在。應用場景是做增量,而過往我們大部分是做存量。存量意味着對原有IT的關停並轉,伴隨着大量改造和遷移的艱難困苦。過程量終究是過程量,成敗之關鍵在落地的產業。

3.數據中心管理軟件發展的階段:從門面、輔助管理轉向生產管理

面臨新的機遇,數據中心作爲一個行業的分支,實現萬物互聯的人工智能數據中心,需要軟硬兩手。硬件已經準備得七七八八了,那麼軟件呢?數據中心,我們真正的需要什麼樣的智能大腦?無人值守和人工智能的平臺,需要具備哪些先決條件以及能夠落地的場景?這是我們需要探索和實踐的下一個方向。

在這裏,先回顧一下以往的發展情況。我羅列了數據中心管理軟件平臺發展的三個階段,總結來看,過往發展得很艱苦。


第一個階段是在2000-2010年,這時候的典型代表產品,就是動環以及機房3D呈現,市場的總價值在1-10個億。我們的甲方也沒有重視這一塊,從常用的招投標模式就可以看出,這通常是放在總包裏一帶而過。廠商們更注重以酷炫的3D視覺效果去掙得甲方的眼球,並無實用。這段時期,我歸納爲“門面系統階段”。


第二個階段,2011-至今,這個時期的典型代表產品,就比較豐富。DCOM、DCIM、DCSM、DCRM開始從設備、人、流程的角度去把控信息,並且以數據和報表呈現,去進行設備健康管理、資產管理、簡單的成本和容量管理。市場的總價值在10-50億。甲方也開始獨立地準備技術規格書,獨立分包和招投標。這段時期,我歸納爲“輔助管理系統階段”。


第三個階段,就是我們大家需要一起去探索和努力達到的,結合數據中心的硬件產品,它的市場的價值或可超過1000億。這個時期,我把它歸納爲“生產管理系統階段“。它將再一次顛覆運維的大部分模式、習慣以及組織分工界面。少人值守、無人值守、人工智能將數據中心的運維管理系統提升到生產管理系統,其重要性不可同日而語。


v2-ae92170f38d59f4b69cf70a226473be2_hd.jpg



4.整裝待發的產業鏈

產業鏈對於新時代到來的準備充分嗎?首先我們來看各種傳感器的準備情況:這個時代,我們需要大量的便於部署的傳感器,來當我們的眼睛和耳朵,我們需要無線且無源的,大家看,從測溫、測速、測噪音、測定位、測污染以及熱成像,甚至各種控制器、執行機構都應有盡有,產業已經張開懷抱迎接我們的探索和革新了。

5.無人值守的應用場景:安保、巡檢、設備的監與控

① 安保:

這裏我們簡單列舉幾個人工智能無人值守的應用場景:我們從人力比較密集的安保人員開始,向科技要人力,減少安防人員眼看、手摸、跑腿等工作。事前,我們使用安防安保機器人,大量部署高清視頻攝像頭,通過主動監控防禦,提前劃定監控區域,界定重要物品監控列表,對火災重點防範區域進行布控。事中,我們通過算法對人的行爲進行預判,對可疑人員、可疑物資進行預警。事後,我們可以快速分析和提取數據。有着人工智能的機器人,比人更可靠,比人更吃苦耐勞而不知疲倦和躲懶。這一個場景的應用,我們的目標是在超大型園區減少一半的安保人員配備。


v2-51a3a33488a95ad7c975b0c612e33628_hd.jpg



② 巡檢:除安保外,人工智能的應用可以取代部分日常巡檢的工作,這些帶着各種傳感能力的機器人可以在日常巡檢中實時傳遞視頻、聲音、味道,這些信息傳輸到後臺與基礎設施原先的採集數據進行比對和有益補充。這個場景的應用,我們的目標是減配基礎設施巡檢人員近三成。


③ 設備的監與控:實現無人值守,需要大量的自動化執行機構,這是我們重點強化的區域。最近,我考察了很多的設備廠家,對於電力的自控,我們現在可以使用電操,操控列頭櫃的開關,使其能夠按照我們的指令執行機櫃的開關電。在演練或者大面積故障時,從中壓側一直到低壓側,從柴油發電機到機櫃都可以做到遠程自動執行。

實現無人值守和人工智能,有一個特別切題的應用場景,這就是製冷自動控制場景。在間接製冷產品化後,空調去水了,從原先異常複雜繁多的控制器件,簡化到數十個控制器件,大大降低了自控和智能的門檻。我們可以根據不同地域、不同場地,優化我們的算法,實現精細化管理,把製冷的狀況調整的最優,實現節能和穩定的運維環境。這是一個重點,同時也是我們探索的關鍵。


針對設備監控管理,我這裏列舉一個電池健康管理的案例。衆所周知,數據中心裏所有的設備可以分爲三個大類,一個是化學類,一個是電子類,一個是機械類。化學類的是最容易也是最快進入故障高發階段的,而且化學類的設備一旦出現故障是最要命的。而對電池的設備健康管理是最典型的對“化學類”設備的管理。我們採集電池的電壓、內阻、溫度三個狀態量,20秒一次,一天就是一萬多條數據,一年就是差不多5百萬條數據。一條數據是個點,一系列數據就是線,我們現在監測近10萬個電池,那就是一個異常龐大的數據立面。這個時候,我們可以不用人爲的經驗來判斷,可以顛覆原先的因果關係,直接憑藉這個立體的海量數據來判斷這個電池是否存在異常,是否要更換。平臺可以直接發出處理的指令,防患於未然。


《黃帝內經》說道:“是故聖人不治已病治未病,不治已亂治未亂。”面對海量巨型複雜的數據中心,現在的人類的科學人工智能的方式,正是體現了這種事前管理,消除隱患於未然的古人思想之精髓。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章