中科院計算所寒武紀團隊DianNao系列論文導讀

更詳細的文檔總結歡迎訪問github博客: https://deepshuai.github.io/

  中科院計算所的這幾篇DianNao系列論文引發了專用深度學習加速器研究和應用的熱潮,後續的博客將會讀每一篇論文進行閱讀和分析,在每一篇的論文閱讀之前,我們先梳理一下寒武紀芯片DianNao的整體項目。

1、DianNao項目之前:

  2010年,Temam教授在ISCA的主題報告上提到,機器學習硬件加速器是處理器微結構領域極有吸引力的一個發展方向,是處理器技術、應用和機器學習發展的大勢所趨。在2012年的ISCA上,Temam教授提出了第一個機器學習加速器設計,表明在以神經網絡爲基礎的一大類應用上是可以以很小的面積和功耗獲得高性能的。但此工作的主要侷限性在於其內存帶寬。

2、DianNao項目:

  DianNao學術項目的目標是面向機器學習研究加速器架構。本項目是中科院計算所的陳雲霽教授和法國Inria的Olivier Temam間的一個學術合作項目,雙方爲此設立了聯合實驗室。

  Temam教授和陳教授的合作始於第一個加速器,名爲DianNao(這也是DianNao家族的第一個成員)。DianNao在ISCA-2012加速器的基礎上增加了局部存儲,使其可以捕捉深度神經網路的數據局部性並由此克服內存帶寬的限制。DianNao加速器的設計發表於ASPLOS-2014,獲得了該會議的最佳論文獎。

  DianNao家族的第二個加速器是DianNao的多片版本,有兩個主要的設計目標:一是揭示神經網絡層的可分特性使得加速器可具備極好的可擴展性,二是聚集足夠多的片上存儲來將整個機器學習模型都放在片上,從而克服內存帶寬的限制。這個被稱爲DaDianNao的設計發表在MICRO-2014上,獲得了該會議的最佳論文獎。

  作爲克服嵌入式應用中內存帶寬限制的另一種方法,我們揭示可以通過加速器和傳感器的直連來繞過內存。我們將此思想應用於視覺傳感器,從而提出了DianNao家族的第三個加速器ShiDianNao,發表於2015年的ISCA上。

  最後,我們也揭示這類加速器的應用領域可以被拓展至多種機器學習算法,因爲這些算法多具有類似的運算操作。相應的加速器設計稱爲PuDianNao(DianNao家族的第四個以及最後一個成員),發表於ASPLOS-2015。

3、DianNao項目之後

  陳雲霽教授和他的中科院計算所團隊爲一大類神經網絡加速器設計了一套名爲Cambricon的指令集。該指令集發表於ISCA-2016,在該會議的同行評議中獲得了最高分。

  同時針對深度學習模型中的稀疏化特點,又提出了一種對稀疏權重的矩陣運算加速的架構Cambricon-X

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章