發展強勁，未來可期一文AI芯片的過去和未來

轉載自：https://baijiahao.baidu.com/s?id=1615807139822920830&wfr=spider&for=pc

相信你一定還記得擊敗了李世石和柯潔的谷歌“阿爾法狗”（Alpha Go），那你知道驅動Alpha Go的是什麼嗎？

如果你覺得Alpha Go和人相似，只不過是把人腦換成了芯片，那麼你就大錯特錯了。擊敗李世石的Alpha Go裝有48個谷歌的AI芯片，而這48個芯片不是安裝在Alpha Go身體裏，而是在雲端。所以，真正驅動Alpha Go的裝置，看上去是這樣的：

因此李世石和柯潔不是輸給了“機器人”，而是輸給了裝有AI芯片的雲工作站。

然而近幾年，AI技術的應用場景開始向移動設備轉移，比如汽車上的自動駕駛、手機上的人臉識別等。產業的需求促成了技術的進步，而AI芯片作爲產業的根基，必須達到更強的性能、更高的效率、更小的體積，才能完成AI技術從雲端到終端的轉移。

目前，AI芯片的研發方向主要分兩種：一是基於傳統馮·諾依曼架構的FPGA（現場可編程門陣列）和ASIC（專用集成電路）芯片，二是模仿人腦神經元結構設計的類腦芯片。其中FPGA和ASIC芯片不管是研發還是應用，都已經形成一定規模；而類腦芯片雖然還處於研發初期，但具備很大潛力，可能在未來成爲行業內的主流。

這兩條發展路線的主要區別在於，前者沿用馮·諾依曼架構，後者採用類腦架構。你看到的每一臺電腦，採用的都是馮·諾依曼架構。它的核心思路就是處理器和存儲器要分開，所以纔有了CPU（中央處理器）和內存。而類腦架構，顧名思義，模仿人腦神經元結構，因此CPU、內存和通信部件都集成在一起。

接下來小探將爲讀者分別介紹兩種架構的簡要發展史、技術特點和代表性產品。

從GPU，到FPGA和ASIC芯片

2007年以前，受限於當時算法和數據等因素，AI對芯片還沒有特別強烈的需求，通用的CPU芯片即可提供足夠的計算能力。比如現在在讀這篇文章的你，手機或電腦裏就有CPU芯片。

之後由於高清視頻和遊戲產業的快速發展，GPU （圖形處理器）芯片取得迅速的發展。因爲 GPU 有更多的邏輯運算單元用於處理數據，屬於高並行結構，在處理圖形數據和複雜算法方面比 CPU 更有優勢，又因爲AI深度學習的模型參數多、數據規模大、計算量大，此後一段時間內 GPU 代替了 CPU，成爲當時 AI 芯片的主流。

GPU 比 CPU 有更多的邏輯運算單元（ALU）

然而 GPU 畢竟只是圖形處理器，不是專門用於 AI 深度學習的芯片，自然存在不足，比如在執行AI 應用時，其並行結構的性能無法充分發揮，導致能耗高。

與此同時，AI技術的應用日益增長，在教育、醫療、無人駕駛等領域都能看到 AI 的身影。然而GPU 芯片過高的能耗無法滿足產業的需求，因此取而代之的是 FPGA 芯片，和 ASIC 芯片。

那麼這兩種芯片的技術特點分別是什麼呢？又有什麼代表性的產品呢？

“萬能芯片” FPGA

FPGA（FIELD-PROGRAMMABLE GATE ARRAY），即 “現場可編程門陣列”，是在 PAL、GAL、CPLD 等可編程器件的基礎上進一步發展的產物。

FPGA 可以被理解爲“萬能芯片”。用戶通過燒入 FPGA 配置文件，來定義這些門電路以及存儲器之間的連線，用硬件描述語言（HDL）對 FPGA 的硬件電路進行設計。每完成一次燒錄，FPGA內部的硬件電路就有了確定的連接方式，具有了一定的功能，輸入的數據只需要依次經過各個門電路，就可以得到輸出結果。

用大白話說，“萬能芯片” 就是你需要它有哪些功能、它就能有哪些功能的芯片。

儘管叫“萬能芯片”，FPGA也不是沒有缺陷。正因爲 FPGA 的結構具有較高靈活性，量產中單塊芯片的成本也比 ASIC 芯片高，並且在性能上，FPGA 芯片的速度和能耗相比 ASIC 芯片也做出了妥協。

也就是說，“萬能芯片” 雖然是個 “多面手”，但它的性能比不上 ASIC 芯片，價格也比 ASIC 芯片更高。

但是在芯片需求還未成規模、深度學習算法需要不斷迭代改進的情況下，具備可重構特性的FPGA芯片適應性更強。因此用FPGA來實現半定製人工智能芯片，毫無疑問是保險的選擇。

目前，FPGA 芯片市場被美國廠商 Xilinx 和 Altera 瓜分。據國外媒體 Marketwatch 的統計，前者佔全球市場份額 50%、後者佔 35%左右，兩家廠商霸佔了 85% 的市場份額，專利達到 6000 多項，毫無疑問是行業裏的兩座大山。

Xilinx 的 FPGA 芯片從低端到高端，分爲四個系列，分別是 Spartan、Artix、Kintex、Vertex，芯片工藝也從 45 到 16 納米不等。芯片工藝水平越高，芯片越小。其中 Spartan 和 Artix 主要針對民用市場，應用包括無人駕駛、智能家居等；Kintex 和 Vertex 主要針對軍用市場，應用包括國防、航空航天等。

Xilinx 的 Spartan 系列 FPGA 芯片

我們再說說 Xilinx 的老對手 Altera。Altera 的主流 FPGA 芯片分爲兩大類，一種側重低成本應用，容量中等，性能可以滿足一般的應用需求，如 Cyclone 和 MAX 系列；還有一種側重於高性能應用，容量大，性能能滿足各類高端應用，如Startix和Arria系列。Altera的FPGA芯片主要應用在消費電子、無線通信、軍事航空等領域。

專用集成電路 ASIC

在 AI 產業應用大規模興起之前，使用 FPGA 這類適合並行計算的通用芯片來實現加速，可以避免研發 ASIC 這種定製芯片的高投入和風險。

但就像我們剛纔說到的，由於通用芯片的設計初衷並非專門針對深度學習，因此 FPGA 難免存在性能、功耗等方面的瓶頸。隨着人工智能應用規模的擴大，這類問題將日益突出。換句話說，我們對人工智能所有的美好設想，都需要芯片追上人工智能迅速發展的步伐。如果芯片跟不上，就會成爲人工智能發展的瓶頸。

所以，隨着近幾年人工智能算法和應用領域的快速發展，以及研發上的成果和工藝上的逐漸成熟，ASIC 芯片正在成爲人工智能計算芯片發展的主流。

ASIC 芯片是針對特定需求而定製的專用芯片。雖然犧牲了通用性，但 ASIC 無論是在性能、功耗還是體積上，都比 FPGA 和 GPU 芯片有優勢，特別是在需要芯片同時具備高性能、低功耗、小體積的移動端設備上，比如我們手上的手機。

但是，因爲其通用性低，ASIC 芯片的高研發成本也可能會帶來高風險。然而如果考慮市場因素，ASIC芯片其實是行業的發展大趨勢。

爲什麼這麼說呢？因爲從服務器、計算機到無人駕駛汽車、無人機，再到智能家居的各類家電，海量的設備需要引入人工智能計算能力和感知交互能力。出於對實時性的要求，以及訓練數據隱私等考慮，這些能力不可能完全依賴雲端，必須要有本地的軟硬件基礎平臺支撐。而 ASIC 芯片高性能、低功耗、小體積的特點恰好能滿足這些需求。

ASIC 芯片市場百家爭鳴

2016 年，英偉達發佈了專門用於加速 AI 計算的 Tesla P100 芯片，並且在 2017 年升級爲 Tesla V100。在訓練超大型神經網絡模型時，Tesla V100 可以爲深度學習相關的模型訓練和推斷應用提供高達 125 萬億次每秒的張量計算（張量計算是AI深度學習中最經常用到的計算）。然而在最高性能模式下，Tesla V100的功耗達到了300W，雖然性能強勁，但也毫無疑問是顆“核彈”，因爲太費電了。

英偉達 Tesla V100 芯片

同樣在 2016 年，谷歌發佈了加速深度學習的 TPU（Tensor Processing Unit）芯片，並且之後升級爲 TPU 2.0 和 TPU 3.0。與英偉達的芯片不同，谷歌的 TPU 芯片設置在雲端，就像文章在Alpha Go 的例子中說的一樣，並且“只租不賣“，服務按小時收費。不過谷歌 TPU 的性能也十分強大，算力達到 180 萬億次每秒，並且功耗只有200w。

谷歌 TPU 芯片

關於各自 AI 芯片的性能，谷歌 CEO Sundar Pichai 和英偉達 CEO 黃仁勳之前還在網上產生過爭論。別看兩位大佬爲自家產品撐腰，爭得不可開交，實際上不少網友指出，這兩款產品沒必要“硬做比較”，因爲一個是在雲端，一個是在終端。

除了大公司，初創企業也在激烈競爭 ASIC 芯片市場。那麼初創企業在行業中該如何生存呢？對此，AI 芯片初創企業 Novumind 的中國區 CEO 周斌告訴小探：創新是初創企業的核心競爭力。

2017 年，NovuMind 推出了第一款自主設計的AI芯片：NovuTensor。這款芯片使用原生張量處理器（Native Tensor Processor）作爲內核構架，這種內核架構由 NovuMind 自主研發，並在短短一年內獲得美國專利。除此之外，NovuTensor 芯片採用不同的異構計算模式來應對不同 AI 應用領域的三維張量計算。2018年下半年，Novumind 剛推出了新一代 NovuTensor 芯片，這款芯片在做到 15 萬億次計算每秒的同時，全芯片功耗控制在 15W 左右，效率極高。

Novumind 的 NovuTensor 芯片

儘管 NovuTensor 芯片的紙面算力不如英偉達的芯片，但是其計算延遲和功耗卻低得多，因此適合邊緣端 AI計算，也就是服務於物聯網。雖然大家都在追求高算力，但實際上不是所有芯片都需要高算力的。比如用在手機、智能眼鏡上的芯片，雖然也對算力有一定要求，但更需要的是低能耗，否則你的手機、智能眼鏡等產品，用幾下就沒電了，也是很麻煩的一件事情。並且據 EE Times 的報道，在運行 ResNet-18、ResNet-34、ResNet70、VGG16 等業界標準神經網絡推理時，NovuTensor 芯片的吞吐量和延遲都要優於英偉達的另一款高端芯片 Xavier。

結合Novumind現階段的成功，我們不難看出：在雲端市場目前被英偉達、谷歌等巨頭公司霸佔，終端應用芯片羣雄逐鹿的情形下，專注技術創新，在關鍵指標上大幅領先所有競爭對手，或許是AI芯片初創企業的生存之道。

類腦芯片

如文章開頭所說，目前所有電腦，包括以上談到的所有芯片，都基於馮·諾依曼架構。

然而這種架構並非十全十美。將 CPU 與內存分開的設計，反而會導致所謂的馮·諾伊曼瓶頸（von Neumann bottleneck）：CPU 與內存之間的資料傳輸率，與內存的容量和CPU的工作效率相比都非常小，因此當 CPU 需要在巨大的資料上執行一些簡單指令時，資料傳輸率就成了整體效率非常嚴重的限制。

既然要研製人工智能芯片，那麼有的專家就回歸問題本身，開始模仿人腦的結構。

人腦內有上千億個神經元，而且每個神經元都通過成千上萬個突觸與其他神經元相連，形成超級龐大的神經元迴路，以分佈式和併發式的方式傳導信號，相當於超大規模的並行計算，因此算力極強。人腦的另一個特點是，不是大腦的每個部分都一直在工作，從而整體能耗很低。

神經元結構

這種類腦芯片跟傳統的馮·諾依曼架構不同，它的內存、CPU 和通信部件是完全集成在一起，把數字處理器當作神經元，把內存作爲突觸。除此之外，在類腦芯片上，信息的處理完全在本地進行，而且由於本地處理的數據量並不大，傳統計算機內存與 CPU 之間的瓶頸不復存在了。同時，神經元只要接收到其他神經元發過來的脈衝，這些神經元就會同時做動作，因此神經元之間可以方便快捷地相互溝通。

在類腦芯片的研發上，IBM 是行業內的先行者。2014 年 IBM 發佈了 TrueNorth 類腦芯片，這款芯片在直徑只有幾釐米的方寸的空間裏，集成了 4096 個內核、100 萬個“神經元”和 2.56 億個“突觸”，能耗只有不到 70 毫瓦，可謂是高集成、低功耗的完美演繹。

裝有16個TrueNorth芯片的DARPA SyNAPSE主板

那麼這款芯片的實戰表現如何呢？IBM 研究小組曾經利用做過 DARPA 的 NeoVision2 Tower 數據集做過演示。它能以 30 幀每秒速度，實時識別出街景視頻中的人、自行車、公交車、卡車等，準確率達到了 80%。相比之下，一臺筆記本編程完成同樣的任務用時要慢 100 倍，能耗卻是 IBM 芯片的 1 萬倍。

然而目前類腦芯片研製的挑戰之一，是在硬件層面上模仿人腦中的神經突觸，換而言之就是設計完美的人造突觸。

在現有的類腦芯片中，通常用施加電壓的方式來模擬神經元中的信息傳輸。但存在的問題是，由於大多數由非晶材料製成的人造突觸中，離子通過的路徑有無限種可能，難以預測離子究竟走哪一條路，造成不同神經元電流輸出的差異。

針對這個問題，今年麻省理工的研究團隊製造了一種類腦芯片，其中的人造突觸由硅鍺製成，每個突觸約 25 納米。對每個突觸施加電壓時，所有突觸都表現出幾乎相同的離子流，突觸之間的差異約爲 4%。與無定形材料製成的突觸相比，其性能更爲一致。

即便如此，類腦芯片距離人腦也還有相當大的距離，畢竟人腦裏的神經元個數有上千億個，而現在最先進的類腦芯片中的神經元也只有幾百萬個，連人腦的萬分之一都不到。因此這類芯片的研究，離成爲市場上可以大規模廣泛使用的成熟技術，還有很長的路要走，但是長期來看類腦芯片有可能會帶來計算體系的革命。

發展強勁，未來可期一文AI芯片的過去和未來

更多參考：

Android啓動過程-萬字長文(Android14)

【SQL進階】CASE語句的使用

這種嵌套字典類型的數據，我想把它讀取到df裏，如何操作？

微調真的能讓LLM學到新東西嗎:引入新知識可能讓模型產生更多的幻覺

iNeuOS工業互聯網操作系統，增加電力IEC104協議

微服務實踐k8s&dapr開發部署實驗（3）訂閱發佈

kbgressdb之數據結構V0.2

python的動態綁定

【個人整理】faster-RCNN的關鍵點(區域推薦網絡RPN)詳解

數學中的全微分(方程)，全導數(公式)，偏微分(方程)，梯度，斜率，導數，方向導數等

如何檢索國外的博士論文

面向SNN模擬的Github項目集合

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

發展強勁，未來可期 一文AI芯片的過去和未來

更多參考：

發展強勁，未來可期一文AI芯片的過去和未來