雲上AI怎麼搞?不如來個大漢堡

這是第篇神扯:扯扯人工智能

當我們說起雲上的人工智能應用時,確切講,通常都是指AI on Cloud。

說白了,就是雲服務商把AI能力做成按需服務的資源,提供給客戶使用。

然而,對於大多數客戶來說,他們需要的不是散裝能力,而是套餐能力。

可是,這個套餐可不可口,還是很有學問的,因爲配料很多。

通常的AI套餐,一般有6層配料,每層都不好料理。

配料多了,食材的選擇和搭配就考驗“大廚”們的水平,每種“食材”必須都要發揮到極致,味道纔會可口,否則往往就會“難以下嚥”。

那麼最合理的搭配應該是什麼樣呢?

一代“名廚”英特爾給出了標準菜譜——

英特爾是這樣幫助雲服務商打造“AI套餐”的,每種食材,都經過了他的親手精心烹製。

首先看,最下面一層,採用第二代英特爾®️至強®️可擴展處理器,強勁算力輸出。


在這一代處理器上,英特爾內置了一個針對深度學習加速的黑科技,叫做英特爾DL Boost,它採用矢量神經網絡指令(VNNI),可將推理工作負載的速度提升高達14倍1

這個VNNI矢量神經網絡指令,牛在哪兒呢,通俗點講,同樣處理深度學習的卷積運算,別人需要三個單獨指令,而VNNI只需要一條指令就搞定,省時省力!

不僅是處理器方面的提升,如果碰到以內存爲中心的應用,比如機器學習推理,還可以採用英特爾®️傲騰™持久內存,性能逼近DIMM內存,成本卻大幅降低,這樣,雲服務商就能爲客戶交付更具性價比的AI基礎設施。


我們再看函數庫這一層,人工智能本質上是“數學”問題,離不開各種數學例程、函數的支持。

這些函數,相當於一些子程序,供上層的AI框架調用,來完成一些基礎計算和變換,比如傅里葉變換、矢量統計等等。

雲服務商在準備AI“配菜”的時候,這部分配菜可選擇公開的標準庫,也可以選擇英特爾優化過的英特爾®️數學核心函數庫(Intel®️ MKL)。

這套數據核心函數庫,主要包含了4大類工具,被英特爾針對自家處理器,進行了專門優化,性能改善顯著,遠遠超出了標準函數庫。


接下來看機器學習框架這一層,所謂框架,其實是一系列流程或者套路,來完成某項機器學習的任務。

主流的框架有TensorFlow、Caffe、MXNet等,都有開源通用版本,但是,在這個地方,我們還是推薦採用英特爾優化過的版本。

就拿流行度很高的TensorFlow來說吧,這個框架是谷歌創建的,英特爾和谷歌兩大巨頭攜手合作,充分利用英特爾®️至強®️可擴展處理器平臺的優勢,對20多種拓撲進行了優化。

這些拓撲,幾乎涵蓋了AI應用的主流場景。它們都可以利用英特爾®️高級矢量擴展512(英特爾®️AVX-512)等CPU特性,來提升性能。

“AVX”是英特爾的矢量指令集,而英特爾®️AVX-512支持的數據寬度更大,非常適用於深度學習這類計算密集型的場景。

英特爾不僅優化了TensorFlow,對其它流行的框架比如Caffe、MXNet都進行了優化,以便能把包括英特爾®️AVX-512在內的特性都發揮到極致。

這種優化的效果,是顯而易見的,再拿MXNet舉個例子,經過英特爾的一番騷操作,MXNet的潛能也被提升了很多超多:

使用 Inception v3 拓撲將圖像分類性能提速高達 24 倍2; 

使用 GNMT2 將文本翻譯提速高達 4 倍2; 

使用 SSD-VGG162 將物體檢測提速高達 22 倍2

使用 DCGAN 將生成式對抗網絡提速高達 35 倍2


最後,來到最上面一層,是資源編排層,作用就是如何按照深度學習框架的要求,快速滴把基礎資源(容器/虛機)安排好,並調度運轉起來。

最常用的編排工具就是K8S,當然也可以用其他的,比如OpenStack。

不管採用何種編排工具,英特爾都做到了“未雨綢繆”,新一代至強可擴展處理器針對工作負載進行優化,充分發揮AVX-512的矢量計算優勢。

同時,英特爾攜手合作夥伴在K8S環境下提供這些技術:①節點特性發現②針對容器化負載的CPU鎖定與隔離③大內存頁面支持。

這些,都讓英特爾®️至強®️可擴展處理器,在K8S環境下,如魚得水。


從處理器、持久內存,到函數庫、機器學習框架,再到編排工具,硬件+軟件,英特爾進行了全面的調優。

最終,呈現雲服務商呈現給用戶的,就是一個完美的AIaaS套餐,每一層都優化到了極致。

當然,英特爾不僅僅滿足爲AI on Cloud的方案賦能,在AI in Cloud領域,同樣煞費苦心。

什麼又是AI in Cloud的呢?

其實就是雲服務利用AI的能力,提高自家數據中心的智能化程度、可運維性,降低運營、運維成本等等。

舉個例子吧,英特爾現在提供一種“遙測”技術,利用英特爾®️至強®️可擴展處理器內置的傳感器,來測量每臺服務器的功率。

再結合服務器機架上的溫度傳感器、英特爾®️至強®️可擴展處理器配備的出口/入口及氣流傳感器,可以獲得精確的散熱數據。

所有的“遙測”數據,再輔以人工智能的方法,進行分析、處理和展現,從而優化性能、利用率和功率。

最終的目標,就像雲服務商管理人員所希望的那樣:優化PUE指標,降低TCO,提高資源利用率。


參考註釋

1 基準配置:測試結果基於英特爾截至 2017 年 7 月 11 日進行的測試,雙路英特爾® 至強® 鉑金 8180 CPU @ 2.50 GHz(28 個內核),未啓用英特爾® 超線程技術,未啓用英特爾® 睿頻加速技術;測試配置:測試結果基於英特爾截至 2019 年 2 月 20 日進行的測試,雙路英特爾® 至強® 鉑金 8280 處理器(28 個內核),啓用英特爾® 超線程技術,啓用英特爾® 睿頻加速技術;

2 性能測試中使用的軟件和工作負荷可能僅在英特爾微處理器上進行了性能優化。諸如 SYSmark 和 MobileMark 等測試均系基於特定計算機系統、硬件、軟件、操作系統及功能。上述任何要素的變動都有可能導致測試結果的變化。請參考其他信息及性能測試(包括結合其他產品使用時的運行性能)以對目標產品進行全面評估。如需瞭解更多信息,請訪問:http://www.intel.cn/performance。性能測試結果基於 2018 年 12 月 6 日進行的測試,且可能並未反映所有公開可用的安全更新。詳情請參閱配置信息披露。沒有產品是絕對安全的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章