百分百發揮AI算力,華爲發出最關鍵的一擊

百分百發揮AI算力,華爲發出最關鍵的一擊
進入2019年,人們已經不再懷疑AI人工智能的重要性。Granter在2018年發佈的預測認爲,2022年人工智能驅動的商業價值將高達3.9萬億美元。此外,Gartner還認爲2018年是人工智能技術爆發的一年,其增長曲線非常陡峭,到2020年之後的增長曲線將趨於平坦。這也就是說,2019年將是人工智能發揮作用的關鍵之年。

人工智能在企業中的落地,主要是基於企業的數據中心;而在計算、存儲與網絡這數據中心的三大難關中,網絡是最後也是最難的難關。因爲不論是計算還是存儲,都主要通過X86服務器及軟件的方式實現,業界已經在這兩個領域取得了階段性進展。但網絡作爲CT技術,並不是很多IT企業的長項,而網絡的性能又嚴重製約着人工智能算力的發揮。

2019年1月9日,華爲發佈了業界首款面向AI時代的數據中心交換機CloudEngine 16800。華爲網絡產品線總裁胡克文表示:“萬物互聯的智能世界正加速到來,數據中心正成爲5G、人工智能等新型基礎設施的核心。華爲率先將AI技術引入數據中心交換機,引領數據中心網絡從雲時代邁入AI時代。”

網絡性能制約AI算力

爲什麼說網絡性能制約着AI算力的百分之百發揮?這是因爲網絡是所有企業IT和數據中心的基礎,而到了雲與人工智能時代的軟件定義網絡基礎架構時代,網絡將起到更加關鍵性的作用。在Gartner的2019十大基礎設施和運營的趨勢預測中,也專門提到了網絡的重要性。Gartner強調2019年及以後必須關注如何讓網絡更快,人工智能、邊緣計算、5G等新業務都需要網絡的敏捷性,而2019年將是打造網絡敏捷性的關鍵一年。

胡克文在談到AI受到數據中心網絡的影響時,認爲有三大挑戰:丟包率、帶寬以及故障定位。首先是丟包率,傳統的以太網丟包率爲0.1%,這意味着算力只能發揮50%,這是華爲通過實際測試發現的問題。也就是說爲了百分百發揮AI算力,AI時代的數據中心網絡應該達到零丟包。

其次是大帶寬,因爲即使做到零丟包但網絡帶寬也在制約AI算力的發揮。未來的五年將出現數字洪流,而隨着互聯網流量的增長,將導致AI數據的集中以及更大規模的數據中心。這就要求更高的帶寬,特別是服務器與服務器間的互訪將更頻繁。而數據中心服務器支持的帶寬也已經從10G到25G再到100G,以超乎想象的速度發展,但即便是100G的數據中心網絡也將無法支撐即將到來的數字洪流挑戰。

第三是今天的數據中心中,計算網絡、存儲網絡和數據網絡已經三網合一了,這帶來了極大的運維挑戰。當遇到故障時,可能數據中心的技術人員花幾天幾夜都無法定位問題源。而當業務部門發現問題後,再找到網絡技術人員時,留給網絡技術人員解決問題的時間已經所剩無幾。如果還要花費幾天時間才能解決問題,那麼網管的運維壓力之大可想而知。

上述三個問題,是面向AI時代的數據中心網絡核心挑戰。胡克文表示,他過去一年見過很多客戶,普遍的反饋是大家過去三年的關注都在雲上,而當雲的建設初具規模後卻突然發現搞不定網絡,特別是面對AI等新興計算任務。“這個時候,我們在想未來的數據中心網絡應該是什麼樣?”

數據中心網絡邁入AI時代

華爲發佈的AI數據中心交換機CloudEngine 16800作爲華爲AI發展戰略以及全棧全場景AI解決方案的一個重要組成部分,是業界首款內嵌AI芯片的數據中心交換機,支持高密400G接口、滿足AI時代5倍的流量增長,還將支撐秒級故障識別和分鐘級故障自動定位、使能自動駕駛網絡。

首先是內嵌AI芯片。高性能數據中心集羣對網絡丟包異常敏感,華爲CloudEngine 16800搭載了高能效AI芯片,通過實時學習訓練能力和獨創的iLossless智能無損交換算法,爲以太網實現了無丟包機制以及流量模型的自適應自優化,從而構建一個零丟包、低時延的數據中心網絡,讓AI算力充分發揮,加速人工智能應用創新。

近兩年,深度學習算法取得重大突破,數據處理效率隨後就成爲了人工智能規模商用的新瓶頸。爲了不斷提升AI的運行效率,業界已經把存儲介質推進到了閃存盤且大幅降低了時延,並通過GPU甚至專用的AI芯片則將處理數據的能力提升了100倍以上。爲了進一步降低網絡傳輸中服務器端數據處理的時延,數據中心的網絡協議由TCP/IP推進到了RDMA遠程直接數據存取,也就是網絡層和傳輸層處理都由服務器上的網卡硬件實現,而無須像TCP/IP協議那樣佔用CPU的處理資源。那麼,當這些都解決了之後,網絡通信時延就將成爲短板。

在數據中心裏,TCP/IP是唯一的通信協議,但當TCP/IP網絡遇到RDMA網卡,就需要在轉發設備本地引入智能處理,實現零丟包、低時延、高吞吐的無損數據中心網絡。華爲主要採取了單流局部調優和整網全局調優兩種方式,用內嵌AI芯片的華爲數據中心交換機對網絡狀態實時檢測。基於AI芯片的iLossless智能無損交換算法,可對全網流量進行實時的學習訓練,並根據不同業務流量模型的特點動態設置最優的網絡參數、更精準地控制流量,實現百萬流和基於應用的隊列自適應不同場景的全局網絡自優化能力,保證數據中心網絡在傳輸無丟包基礎上達到最高的吞吐量。

第二是業界最高密度單槽位48 x 400GE。華爲CloudEngine 16800,支持從10G到40G到100G再到400G端口的平滑演進,能夠提供業界最高密度的單槽48個或整機768個400GE端口,交換容量是業界的五倍,可以極大的減少核心層設備的數量,簡化網絡的同時提升管理效率。衆所周知,400GE接口標準化工作於2015年啓動,目前針對數據中心應用已經完成標準化,400G時代已經來臨。

爲了支持超高密度及其演進,華爲CloudEngine 16800在PCB板材、工藝、散熱,供電等多方面都進行了重大技術改進和創新。在PCB板材工藝方面,華爲採用新型亞微米無損材料及高分子鍵合技術的製作工藝,將PCB板的電信號傳輸效率提升30%,滿足100G到400G甚至未來800G的兼容和能力演進。而在供電方面,華爲提出業界首個雙路輸入智能切換的電源模塊,採用磁吹滅弧和大勵磁技術實現ms級快速切換,21個電源模塊就可以實現原來40個模塊所達到的供電能力和可靠性,電源空間節省50%;線路板上採用矩陣磁和高頻磁技術,可在兩個拇指大小的空間內提供1600W供電能力,使得單位空間的供電效率提升90%。

在散熱方面,華爲CloudEngine 16800提供單板級和系統級散熱。其中,CloudEngine 16800採用獨有的碳納米導熱墊和VC相變散熱技術,單板散熱效率較業界提升4倍,整機可靠性提升20%。此外,華爲採用了業界首創的混流風扇,可以使得整機散熱效率達到最佳,平均每bit數據的功耗降低50%,相當於每臺每年節省32萬度電、約合26萬元電費,減少碳排放250餘噸;加上獨有的磁導率馬達,靜音導流環噪音降低6dB,真正做到綠色節能。

第三是網絡的智能運維和自動駕駛。華爲CloudEngine 16800基於內置的AI芯片,可大幅度提升“網絡邊緣”即設備級的智能化水平,使得交換機具備本地推理和實時快速決策的能力。通過FabricInsight網絡分析器提供分佈式AI運維架構,可實現秒級故障識別和分鐘級故障自動定位,加速自動駕駛網絡的到來。而基於分佈式的AI運維架構,也可大幅提升網絡運維繫統的靈活性和可部署性。

華爲自2012年進入數據中心網絡市場以來,已服務於全球6400+個用戶,幫助全球各地的互聯網、金融、政府、製造、能源、大企業等多個行業的客戶實現了數字化轉型。2018年,華爲輪值董事長徐直軍宣佈,華爲將人工智能定位爲新的通用技術併發布了人工智能發展戰略,全面將人工智能技術引入到智能終端、雲和網絡等各個領域。CloudEngine 16800就是華爲普惠AI戰略的進一步發展,也是華爲在數據中心網絡市場的最新成果。

2017年7月,華爲進入了Gartner數據中心網絡魔力象限的挑戰者象限,華爲CloudFabric雲數據中心網絡解決方案已成爲全球企業構建雲數據中心網絡的首選方案之一。華爲CloudFabric解決方案提供基於標準API的接口,可與第三方雲平臺、控制器、VAS設備、自動化管理工具等協同工作,聯合VMware 、Red Hat、Mirantis、EasyStack、F5、Ansible等20多家合作伙伴共同構建多層次SDN生態鏈,提供成熟的集成部署能力。

隨着CloudEngine 16800的推出再加上CloudFabric解決方案,華爲可幫助企業構建更爲智能的網絡、自主響應應用的策略以及網絡的自我優化,特別是把AI廣泛應用於數據中心網絡的規劃、部署、運維到調優等各環節,實現網絡管理和運維的自動化和智能化,打造應用驅動的數據中心網絡,實現網絡敏捷性。2019年,CloudEngine 16800將重新定義數據中心網絡的代際切換,幫助企業使能和加速AI商用進程,引領數據中心進入AI時代。(文/寧川)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章