國產化硬件適配能力再升級 實現多種邊緣AI算力遠程監控和調度


伴隨 AI+IoT 技術的發展,其應用場景在不斷細化,對 AI 芯片及硬件產品的個性化需求也在增加,這讓衆多邊緣硬件廠商看到了新的機遇。一時間湧現衆多邊緣硬件廠商,進一步衍生出種類繁多的 AI 芯片及硬件產品線,與此同時豐富的硬件滿足了用戶的多樣化需求,但也給硬件適配增加了難度。


面對多元化的芯片和硬件市場,百度天工 AIoT 智能邊緣(下文簡稱“天工智能邊緣”)在硬件適配上持續發力,通過對天工智能邊緣的不斷迭代,進一步擴大其對邊緣 AI 硬件的適配範圍,實現多種邊緣 AI 算力的監控和調度。


此次迭代給正在使用天工智能邊緣的用戶帶來了更多選擇,尤其是針對國產化的邊緣盒子,增加了可供選擇的邊緣硬件範圍。同時在邊緣 AI 場景的使用中,通過直接監控和調度邊緣算力使用情況,方便用戶更好的安排邊緣硬件資源的使用。


01.升級亮點


擴大對硬件的適配範圍:此次升級,天工智能邊緣完成了與國產化邊緣硬件的適配,包含寒武紀 MLU270、華爲昇騰310、比特大陸 SE5/SC5、百度崑崙 AI 處理器,進一步擴大了天工智能邊緣對邊緣 AI 硬件的適配範圍。


實現多種邊緣 AI 算力的監控和調度:升級之後,用戶可以在雲端直接查看寒武紀 MLU270、華爲昇騰310、比特大陸 SE5/SC5、百度崑崙 AI 處理器邊緣加速卡的狀態信息與資源使用。並且雲端提供加速卡的 device-plugin 安裝,用戶在安裝後可在雲端直接調度算力資源。


02. 天工智能邊緣2.0持續迭代 

 助力邊緣硬件靈活配置 


邊緣硬件市場的發展正如火如荼地進行着,然而與之矛盾的是邊緣計算目前尚沒有一套成熟的技術體系,其中邊緣設備異構嚴重,缺乏統一的標準和規範。升級後的天工智能邊緣秉持着開放性強,可兼容性強的原則,支持節點容器化、模塊化配置模式,允許用戶自定義功能模塊鏡像以打造獨有的邊緣計算,支持邊緣硬件靈活配置。


作爲最近幾年發展勢頭正盛的技術之一,容器技術以 docker 和 k3s/k8s 爲底座,可以在具有主流架構(arm/amd)和標準 linux 操作系統的硬件上安裝。它很好的解決了邊緣設備異構的問題。相比物理機和虛擬機,容器技術非常輕量級,並且具有部署簡單、支持多環境、啓動時間更短、易擴容、易遷移等特點。


當前已經適配的國產智能邊緣硬件包括但不限於:


  • 寒武紀思元220邊緣服務器(CONTEC CONPRO-i6040)

  • 華爲 Atlas 800 推理服務器(型號:3010)

  • 比特大陸 SE5

  • 大疆無人機妙算2

  • EdgeBoard 邊緣 AI 計算盒(FZ5)

  • 華爲 Atlas

  • 華爲 Atlas 800 推理服務器(型號:3000)

  • 華爲 Atlas 200


針對非標 linux 系統,如華爲 Atlas 200DK,或硬件較弱的邊緣盒子,節點也可通過進程模式的方式運行,更適合物聯網場景。


03.助力實現加速卡算力遠程監控 

提升加速卡資源分配效率 


用戶在使用國產化邊緣硬件時通常會遇到兩個問題,一是無法在雲端直接看到邊緣 AI 加速卡的硬件狀態和使用情況,原本雲端能監控到的邊緣資源使用情況,僅限於內存,CPU,GPU 等;另一個是多卡資源調度的問題,用戶需遠程登錄邊緣設備來進行應用的加速卡資源分配,操作便捷性有待提升。


迭代升級後的天工智能邊緣將完美解決上述兩個問題,實現加速卡算力雲端監控並提升卡資源分配效率。目前天工智能邊緣支持 AI 加速卡包含:NVIDIA GPU, NVIDIA Jetson 系列,寒武紀 MLU270、華爲昇騰310、比特大陸 SE5/SC5、百度崑崙 AI 處理器。


加速卡算力雲端監控


當邊緣盒子用於邊緣推斷時,算力的使用情況是用戶最關心的內容之一。天工智能邊緣針對上述提到的國產智能邊緣硬件分別做了適配,支持用戶在雲端獲取加速卡的硬件信息,如芯片個數等,並監控加速卡的硬件狀態和算力使用情況,如板卡狀態,溫度,能耗,內存使用率,算力使用率等。


以 atlas300 爲例子,來詳細介紹天工智能邊緣如何納管 atlas300,並實現 atlas 300 的 NPU 資源監控。


更多操作可以參考產品官方文檔中操作指南> AI 加速卡章節:

https://cloud.baidu.com/doc/BIE/s/jkxju6kh4


1.創建 AI 加速卡爲華爲昇騰310的邊緣節點,如下圖所示:


安裝節點,節點安裝好後會出現 baetyl-accelerator-metrics 的 pod,由它負責採集 atlas300 的 NPU 資源使用率等信息。



2.進入節點詳情,選擇 AI 加速卡頁面,可以查看加速卡監控信息與算力使用情況。



與端上資源使用做比較, 結果一致。



提升加速卡算力調度效率


除算力監控外,算力資源的調度管理也是使用過程中很重要的一環。天工智能邊緣此次升級,集成了國產智能邊緣硬件的 device-plugin 插件。安裝插件後,用戶可以在雲端通過資源限制功能動態調度顯卡資源。


以昇騰310爲例,Ascend Device Plugin 是華爲基於 Kubernetes 設備插件機制,增加昇騰處理器的設備發現、設備分配、設備健康狀態上報功能,使得 Kubernetes 可以管理昇騰處理器資源。此次升級將 Ascend Device Plugin 集成到天工智能邊緣中。


首先在創建節點時選擇 AI 加速卡爲華爲昇騰310,進入節點 AI 加速卡界面選擇配置資源分配,安裝資源分配應用。這一步會將指定加速卡的 device-plugin 安裝到邊緣側。



應用安裝完畢後,用戶只需在創建容器應用時,選擇相應的資源限制,即可指定容器所需要的芯片類型和個數。



天工智能邊緣的此次迭代升級,提高了國產硬件的可適配性,也爲國產邊緣 AI 系硬件打開了新的可能,當然這只是天工智能邊緣與國產化 AI 硬件適配融合的第一步。未來,天工智能邊緣將持續擴大邊緣硬件生態,加深與國產化硬件的合作,助力邊緣市場蓬勃發展和人工智能行業多場景落地。


推薦閱讀:

全面公測 | 百度智能雲CCE在離線混部功能

AI+電商 | UGC海量數據識別應用方案解析

百度工程師教你快速提升研發效率小技巧

本文分享自微信公衆號 - 百度開發者中心(baidudev)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章