RISC-V AI芯片Celerity史上最詳細解讀(上)(附開源地址)

RISC-V AI芯片Celerity史上最詳細解讀(上)(附開源地址)

(本文包括Celerity中二值化神經網絡的介紹)
TensorChip

作者 陳巍,資深芯片專家,人工智能算法-硬件協同設計專家。

在Hot Chips 29大會上,基於RISC-V核心的AI芯片Celerity一亮相便引起開源社區的關注。

Celerity的設計展現了兩個特點:

1) 設計了基於RISC-V核心的多級(Tier)異構AI加速結構,兼顧計算中靈活性和能耗的要求,在硬件層面直接支持AI計算,實現了更好的功能和更高的能效。

2) 採用了HLS+Chipsel+開源IP的敏捷設計方法提升芯片的設計速度,明顯縮短芯片的研發週期到幾個月。

該芯片由Michigan大學, Cornell 大學,和 Bespoke Silicon Group(目前屬於Washington大學)共同完成。並且該項目受到了DARPA(美國國防高級研究計劃局)的資助。Celerity的設計源碼已經可以下載。(文末)

Celerity的多級架構

Celerity多級結構組成。(圖1)它們分別爲通用級(General-Purpose Tier)衆核級(Manycore Tier)專用級( Specialization Tier)。三級之間兩兩互連。

在這裏插入圖片描述
圖1 Celerity的多級架構

與FSB和主板連接的是由5個高性能RISC-V Rocket核心組成的通用級。通用級具備完整的計算功能,可以執行各類計算操作以及與內存、I/O和板載芯片的通信。通用級也可用於承載操作系統。通用級的功能多樣,能效較低,可運行在625MHz。

通用級後面的衆核級由496個低功耗RISC -V Vanilla -5標量處理核心陣列(16x31)組成,負責粗粒度與細粒度的並行計算。這些Vanilla -5處理核心由80Gbps的全雙工片上網絡(NoC)連接在一起。衆核級的功能與能效相對摺中。

專用級則由專門用於AI計算的**二值神經網絡(Binarized Neural Network,BNN)**核心組成。該BNN核心可直接支持13.4M大小的9層模型(包括一層定點卷積層,6層二值卷積層與2層全連接層)。專用級功能單一,卻具有最高的能效。

Manycore Tier與NoC

在這裏插入圖片描述

圖2 衆核級的Vanilla -5標量處理核心陣列

如圖2所示,衆核級採用了496(16x31)個Vanilla-5版本的RISC-V核心。Vanilla結構簡潔易用,可以很高效的執行C語言代碼而不用對編譯器進行修改。它採用了RV32IM指令集,5級流水線,有序發射。

衆核級內部核心通過網格網絡(Mesh Network,圖7)互聯。網格網絡的每個節點都是緩衝路由(Buffered Router),按照所在位置確定X/Y座標編號,並通過前向包與反向包進行全雙工連接。緩衝路由間通過特定的連接協議進行通信與數據傳輸。其中前向連接爲80bit位寬,反向連接爲10bit位寬。

在這裏插入圖片描述
圖3 Vanilla-5核心間的網格網絡

二值化神經網絡(BNN)

Celerity專用級(圖1最右側)集成了二值化神經網絡(BNN)加速器。

在這裏插入圖片描述
圖4 二值化神經網絡計算流示意

這一神經網絡由1層定點卷積層、6層二值化卷積層和2層全連接層組成。根據文獻,這一結構的神經網絡在CIFAR-10數據集上可以達到89.8%的精度。可支持13.4M個權值。

在這裏插入圖片描述

(a)BNN核心的架構 (b) 二值化卷積模塊

圖5 BNN架構與二值化卷積模塊

在二值化卷積的計算過程中,每兩個特徵圖(feature map)分別與3卷積核進行卷積計算,生成累加後的3組下一級特徵圖。

BNN結構,既可以看作是Celerity芯片的亮點,也可以看作是Celerity不足之處。

Celerity的BNN爲什麼難以用於實際應用

Celerity的多級結構瓶頸在哪裏

衆核級的問題與應用難點在什麼地方?

答案都在本文的下篇之中。

如果你對本文的下篇內容感興趣,想學習AI芯片的實戰知識,並瞭解Celerity不足在哪裏,歡迎加入TensorChip的AI芯片學習陣營。

附錄:

Celerity開源地址:http://opencelerity.org/

衆核級開源地址: https://bitbucket.org/taylor-bsg/bsg_manycore/src/master/

BNN開源地址: https://github.com/cornell-zhang/bnn-fpga

TensorChip(千芯科技)將聯合芯勢力科技推出人工智能FPGA開發系列課程,採用線下實訓及線上課程方式,爲有志於從事人工智能及FPGA開發領域就業及提升的人員提供了學習先進技術的機會,大家可以在這裏學習和實踐業界最新最先進,同時也是人工智能和芯片開發領域最急需的技術,爲自己工作能力打下堅實基礎,同時芯勢力科技承諾推薦就業。
課程包括:

機器學習及深度學習課程和項目實訓

芯算一體的人工智能算法優化技術及實訓

異構人工智能芯片和加速芯片設計課程及實訓

用Chisel設計RISC-V芯片課程及實訓

Verilog設計及FPGA開發課程及實訓

歡迎有興趣的相關專業學生、相關領域開發人員、有定製課程需要的公司或單位,聯繫芯勢力科技,瞭解課程及詳細安排。

在這裏插入圖片描述
關注TensorChip AI芯片與加速技術信息

關於TensorChip

TensorChip(千芯科技)的研發核心團隊由來自北美AI巨頭、瑞薩與國內的芯片及人工智能領域資深專家組成,致力於國際領先的AI算法-芯片協同設計(算芯協同),聚焦AI算法及芯片系統在應用領域的落地。合作方包括兆易創新、深圳清華大學研究院、新鬆機器人、四維圖新等國內頂尖的技術領跑者。

TensorChip目前正通過定製化合作,協助客戶將自有算法在FPGA平臺、RISC-V架構、及x86架構產品落地。合作伙伴包括AI芯片企業與AI算法企業。未來,TensorChip會與合作伙伴一起,推出可重構的存算一體芯片方案和對應的算法編譯平臺,在人工智能批量投產時代提供最具市場競爭力的芯片平臺方案。

www.tensorchip.com

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章