RISC-V AI芯片Celerity史上最詳細解讀（上）（附開源地址）

(本文包括Celerity中二值化神經網絡的介紹)

作者陳巍，資深芯片專家，人工智能算法-硬件協同設計專家。

在Hot Chips 29大會上，基於RISC-V核心的AI芯片Celerity一亮相便引起開源社區的關注。

Celerity的設計展現了兩個特點：

1）設計了基於RISC-V核心的多級（Tier）異構AI加速結構，兼顧計算中靈活性和能耗的要求，在硬件層面直接支持AI計算，實現了更好的功能和更高的能效。

2）採用了HLS+Chipsel+開源IP的敏捷設計方法提升芯片的設計速度，明顯縮短芯片的研發週期到幾個月。

該芯片由Michigan大學， Cornell 大學，和 Bespoke Silicon Group（目前屬於Washington大學）共同完成。並且該項目受到了DARPA（美國國防高級研究計劃局）的資助。Celerity的設計源碼已經可以下載。（文末）

Celerity的多級架構

Celerity多級結構組成。（圖1）它們分別爲通用級（General-Purpose Tier），衆核級（Manycore Tier）和專用級（ Specialization Tier）。三級之間兩兩互連。

圖1 Celerity的多級架構

與FSB和主板連接的是由5個高性能RISC-V Rocket核心組成的通用級。通用級具備完整的計算功能，可以執行各類計算操作以及與內存、I/O和板載芯片的通信。通用級也可用於承載操作系統。通用級的功能多樣，能效較低，可運行在625MHz。

通用級後面的衆核級由496個低功耗RISC -V Vanilla -5標量處理核心陣列（16x31）組成，負責粗粒度與細粒度的並行計算。這些Vanilla -5處理核心由80Gbps的全雙工片上網絡（NoC）連接在一起。衆核級的功能與能效相對摺中。

專用級則由專門用於AI計算的**二值神經網絡（Binarized Neural Network，BNN）**核心組成。該BNN核心可直接支持13.4M大小的9層模型（包括一層定點卷積層，6層二值卷積層與2層全連接層）。專用級功能單一，卻具有最高的能效。

Manycore Tier與NoC

圖2 衆核級的Vanilla -5標量處理核心陣列

如圖2所示，衆核級採用了496（16x31）個Vanilla-5版本的RISC-V核心。Vanilla結構簡潔易用，可以很高效的執行C語言代碼而不用對編譯器進行修改。它採用了RV32IM指令集，5級流水線，有序發射。

衆核級內部核心通過網格網絡（Mesh Network，圖7）互聯。網格網絡的每個節點都是緩衝路由（Buffered Router）,按照所在位置確定X/Y座標編號，並通過前向包與反向包進行全雙工連接。緩衝路由間通過特定的連接協議進行通信與數據傳輸。其中前向連接爲80bit位寬，反向連接爲10bit位寬。

圖3 Vanilla-5核心間的網格網絡

二值化神經網絡（BNN）

Celerity專用級（圖1最右側）集成了二值化神經網絡（BNN）加速器。

圖4 二值化神經網絡計算流示意

這一神經網絡由1層定點卷積層、6層二值化卷積層和2層全連接層組成。根據文獻，這一結構的神經網絡在CIFAR-10數據集上可以達到89.8%的精度。可支持13.4M個權值。

（a）BNN核心的架構 (b) 二值化卷積模塊

圖5 BNN架構與二值化卷積模塊

在二值化卷積的計算過程中，每兩個特徵圖（feature map）分別與3卷積核進行卷積計算，生成累加後的3組下一級特徵圖。

BNN結構，既可以看作是Celerity芯片的亮點，也可以看作是Celerity不足之處。

Celerity的BNN爲什麼難以用於實際應用？

Celerity的多級結構瓶頸在哪裏？

衆核級的問題與應用難點在什麼地方？

答案都在本文的下篇之中。

如果你對本文的下篇內容感興趣，想學習AI芯片的實戰知識，並瞭解Celerity不足在哪裏，歡迎加入TensorChip的AI芯片學習陣營。

附錄：

Celerity開源地址：http://opencelerity.org/

衆核級開源地址： https://bitbucket.org/taylor-bsg/bsg_manycore/src/master/

BNN開源地址： https://github.com/cornell-zhang/bnn-fpga

TensorChip（千芯科技）將聯合芯勢力科技推出人工智能FPGA開發系列課程，採用線下實訓及線上課程方式，爲有志於從事人工智能及FPGA開發領域就業及提升的人員提供了學習先進技術的機會，大家可以在這裏學習和實踐業界最新最先進，同時也是人工智能和芯片開發領域最急需的技術，爲自己工作能力打下堅實基礎，同時芯勢力科技承諾推薦就業。
課程包括：

機器學習及深度學習課程和項目實訓

芯算一體的人工智能算法優化技術及實訓

異構人工智能芯片和加速芯片設計課程及實訓

用Chisel設計RISC-V芯片課程及實訓

Verilog設計及FPGA開發課程及實訓

歡迎有興趣的相關專業學生、相關領域開發人員、有定製課程需要的公司或單位，聯繫芯勢力科技，瞭解課程及詳細安排。

關注TensorChip AI芯片與加速技術信息

關於TensorChip

TensorChip（千芯科技）的研發核心團隊由來自北美AI巨頭、瑞薩與國內的芯片及人工智能領域資深專家組成，致力於國際領先的AI算法-芯片協同設計（算芯協同），聚焦AI算法及芯片系統在應用領域的落地。合作方包括兆易創新、深圳清華大學研究院、新鬆機器人、四維圖新等國內頂尖的技術領跑者。

TensorChip目前正通過定製化合作，協助客戶將自有算法在FPGA平臺、RISC-V架構、及x86架構產品落地。合作伙伴包括AI芯片企業與AI算法企業。未來，TensorChip會與合作伙伴一起，推出可重構的存算一體芯片方案和對應的算法編譯平臺，在人工智能批量投產時代提供最具市場競爭力的芯片平臺方案。

RISC-V AI芯片Celerity史上最詳細解讀（上）（附開源地址）

RISC-V AI芯片Celerity史上最詳細解讀（上）（附開源地址）

Celerity的多級架構

Manycore Tier與NoC

二值化神經網絡（BNN）

關於TensorChip

RISC-V AI芯片Celerity史上最詳細解讀（上）（附開源地址）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結