超越英偉達的,不會是另一款GPU!中國公司發佈首款數據流AI芯片

2020年6月23日,鯤雲科技在深圳舉行產品發佈會,發佈全球首款數據流AI芯片CAISA,定位於高性能AI推理,已完成量產。鯤雲通過自主研發的數據流技術在芯片實測算力上實現了技術突破,較同類產品在芯片利用率上提升了最高11.6倍。第三方測試數據顯示僅用1/3的峯值算力,CAISA芯片可以實現英偉達T4最高3.91倍的實測性能。

鯤雲科技創始人和CEO牛昕宇博士表示,超越英偉達的,不會是另一款GPU,而鯤雲定製數據流技術不依靠更大的芯片面積和製程工藝,通過數據流動控制計算順序來提升實測性能,爲用戶提供了更高的算力性價比。

超高芯片利用率,定製數據流芯片架構完成3.0升級

此次發佈的CAISA芯片採用鯤雲自研的定製數據流芯片架構CAISA 3.0,相較於上一代芯片架構,CAISA 3.0在架構效率和實測性能方面有了大幅的提升,並在算子支持上更加通用,支持絕大多數神經網絡模型快速實現檢測、分類和語義分割部署。

CAISA3.0在多引擎支持上提供了4倍更高的並行度選擇,架構的可拓展性大大提高,在AI芯片內,每一個CAISA都可以同時處理AI工作負載,進一步提升了CAISA架構的性能,在峯值算力提升6倍的同時保持了高達95.4%的芯片利用率,實測性能線性提升。同時新一代CAISA架構對編譯器RainBuilder的支持更加友好,軟硬件協作進一步優化,在系統級別上爲用戶提供更好的端到端性能。

CAISA 3.0架構圖

CAISA 3.0架構繼續保持在數據流技術路線的領先地位,指令集架構採用馮諾依曼計算方式,通過指令執行次序控制計算順序,並通過分離數據搬運與數據計算提供計算通用性。CAISA架構依託數據流流動次序控制計算次序,採用計算流和數據流重疊運行方式消除空閒計算單元,並採用動態配置方式保證對於人工智能算法的通用支持,突破指令集技術對於芯片算力的限制。此次升級,CAISA架構解決了數據流架構作爲人工智能計算平臺的三大核心挑戰:

1. 高算力性價比:在保持計算正確前提下,通過不斷壓縮每個空閒時鐘推高芯片實測性能以接近芯片物理極限,讓芯片內的每個時鐘、每個計算單元都在執行有效計算;

2. 高架構通用性:在保證每個算法在CAISA上運行能夠實現高芯片利用率的同時,CAISA 3.0架構通用支持所有主流CNN算法;

3. 高軟件易用性:通過專爲CAISA定製的編譯工具鏈實現算法端到端自動部署,用戶無需底層數據流架構背景知識,簡單兩步即可實現算法遷移和部署,降低使用門檻。

具體來講,鯤雲CAISA 3.0架構的三大技術突破主要通過以下的技術方式實現:

1. 高算力性價比:時鐘級準確的計算

CAISA 3.0架構由數據流來驅動計算過程,無指令操作,可以實現時鐘級準確的計算,最大限度的減少硬件計算資源的空閒時間。CAISA 3.0架構通過數據計算與數據流動的重疊,壓縮計算資源的每一個空閒時鐘;通過算力資源的動態平衡,消除流水線的性能瓶頸;通過數據流的時空映射,最大化複用芯片內的數據流帶寬,減少對外部存儲帶寬的需求。上述設計使CNN算法的計算數據在CAISA 3.0內可以實現不間斷的持續運算,最高可實現95.4%的芯片利用率,在同等峯值算力條件下,可獲得相對於GPU 3倍以上的實測算力,從而爲用戶提供更高的算力性價比。

2. 高架構通用性:流水線動態重組

CAISA 3.0架構可以通過流水線動態重組實現對不同深度學習算法的高性能支持。通過CAISA架構層的數據流引擎、全局數據流網、全局數據流緩存,以及數據流引擎內部的人工智能算子模塊、局部數據流網、局部數據流緩存的分層設計,在數據流配置器控制下,CAISA架構中的數據流連接關係和運行狀態都可以被自動化動態配置,從而生成面向不同AI算法的高性能定製化流水線。在保證高性能的前提下,支持用戶使用基於CAISA 3.0架構的計算平臺實現如目標檢測、分類及語義分割等廣泛的人工智能算法應用。

3. 高軟件易用性:算法端到端自動化部署

RainBuilder架構圖

專爲CAISA 3.0架構配備的RainBuilder編譯工具鏈支持從算法到芯片的端到端自動化部署,用戶和開發者無需瞭解架構的底層硬件配置,簡單兩步即可實現算法快速遷移和部署。RainBuilder編譯器可自動提取主流AI開發框架(TensorFlow,Caffe,Pytorch,ONNX等)中開發的深度學習算法的網絡結構和參數信息,並面向CAISA結構進行優化;工具鏈中的運行時(Runtime)和驅動(Driver)模塊負責硬件管理併爲用戶提供標準的API接口,運行時可以基於精確的CAISA性能模型,實現算法向CAISA架構的自動化映射,同時提供可以被高級語言直接調用的API接口;最底層的驅動可以實現對用戶透明的硬件控制。RainBuilder工具鏈使用簡單,部署方便,通用性強,可以讓用戶快速和低成本的部署和遷移已有算法到CAISA硬件平臺上。

首款量產數據流AI芯片,CAISA帶來AI芯片研發新方向

CAISA芯片

作爲全球首款採用數據流技術的AI芯片,CAISA搭載了四個CAISA 3.0引擎,具有超過1.6萬個MAC(乘累加)單元,峯值性能可達10.9TOPs。該芯片採用28nm工藝,通過PCIe 3.0×4接口與主處理器通信,同時具有雙DDR通道,可爲每個CAISA引擎提供超過340Gbps的帶寬。

CAISA芯片架構圖

作爲一款面向邊緣和雲端推理的人工智能芯片,CAISA可實現最高95.4%的芯片利用率,爲客戶提供更高的算力性價比。CAISA芯片具有良好的通用性,可支持所有常用AI算子,通過數據流網絡中算子的不同配置和組合,CAISA芯片可支持絕大多數的CNN算法。針對CAISA芯片,鯤雲提供RainBuilder 3.0工具鏈,可實現推理模型在芯片上的端到端部署,使軟件工程師可以方便的完成CAISA芯片在AI應用系統中的集成。

鯤雲科技創始人牛昕宇發佈全球首款數據流AI芯片

 

高算力性價比的AI計算平臺星空加速卡系列產品發佈

星空加速卡系列產品圖

發佈會上,鯤雲科技創始人和CEO牛昕宇博士還發布了基於CAISA芯片的星空系列邊緣和數據中心計算平臺,X3加速卡和X9加速卡,並公佈了由人工智能產業技術聯盟(AIIA)測試的包括ResNet-50, YOLO v3等在內的主流深度學習網絡的實測性能。

星空X3加速卡發佈

星空X3加速卡是搭載單顆CAISA 芯片的數據流架構深度學習推斷計算平臺,爲工業級半高半長單槽規格的PCIe板卡。得益於其輕量化的規格特點,X3加速卡可以與不同類型的計算機設備進行適配,包括個人電腦、工業計算機、網絡視頻錄像機、工作站、服務器等,滿足邊緣和高性能場景中的AI計算需求。相較於英偉達邊緣端旗艦產品Xavier,X3可實現1.48-4.12倍的實測性能提升。

*模型參考:https://github.com/pushyami/yolov3-caffe/blob/master/deploy.prototxt

X3 vs Xavier 芯片利用率對比圖

 

X3 vs Xavier 性能對比圖

 

X3 vs Xavier 延時對比圖

 

星空X9加速卡發佈

 

星空X9加速卡爲搭載4顆CAISA 芯片的深度學習推斷板卡,峯值性能43.6TOPS,主要滿足高性能場景下的AI計算需求。同英偉達旗艦產品T4相對,X9在ResNet-50, YOLO v3等模型上的芯片利用率提升2.84-11.64倍。在實測性能方面,X9在ResNet50可達5240FPS,與T4性能接近,在YOLO v3、UNet Industrial等檢測分割網絡,實測性能相較T4有1.83-3.91倍性能提升。在達到最優實測性能下,X9處理延時相比於T4降低1.83-32倍。實測性能以及處理延時的大幅領先,讓數據流架構爲AI芯片的發展提供了提升峯值性能之外的另一條技術路線。

*模型參考:https://github.com/pushyami/yolov3-caffe/blob/master/deploy.prototxt

X9 vs T4 芯片利用率對比圖

 

X9 vs T4 性能對比圖

 

X9 vs T4 延時對比圖

 

鯤雲科技通過CAISA數據流架構提高芯片利用率,同樣的實測性能,對芯片峯值算力的要求可大幅降低3-10倍,從而降低芯片的製造成本,爲客戶提供更高的算力性價比。目前星空X3加速卡已經實現量產,星空X9加速卡將於今年8月推出市場。鯤雲科技成爲國內首家在發佈會現場披露Benchmark的AI芯片公司。

對標芯片數據來源:

T4性能數據來源:https://developer.nvidia.com/deep-learning-performance-training-inference#resnet50-latency

Xavier性能數據來源:https://developer.nvidia.com/embedded/jetson-agx-xavier-dl-inference-benchmarks

ResNet50,ResNet152算法網絡來源:https://github.com/tensorflow/models/tree/master/research/slim

YOLO算法網絡來源:

[官方] https://pjreddie.com/darknet/yolo/

[其他] https://github.com/pushyami/yolov3-caffe/

SSD-ResNet50算法網絡來源:https://ngc.nvidia.com/catalog/models/nvidia:ssdtf_fp16

UNet Industrial算法網絡來源:https://ngc.nvidia.com/catalog/models/nvidia:unetindtf_fp16

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章