矩陣計算與AI革命:可將計算性能提高150倍的異構計算

 

本文翻譯自Wikibon矩陣計算與AI革命系列研究文章。

如今異構計算(Heterogeneous Compute,HC)已經部署在消費類移動設備中,與傳統架構相比可以將矩陣工作負載的性能提高50倍。同時,這也將性價比和功耗節省提高了150倍以上。企業HC可能會使用與消費HC相同的技術。因此,異構計算的改進將大幅提升實時矩陣工作負載的價值,尤其是那些AI推理工作負載的子集。

更具戰略意義的前提是,雖然異構計算可以將處理數據的成本降低五十倍,但存儲和移動數據的成本將高出50倍。如果矩陣工作負載使用傳統的數據中心流程,非處理器組件的成本將佔主導地位。但是,通過使用數據主導的運營架構(Data-led Operational Architecture,DLOA),可以使存儲和網絡成本與計算成本保持一致。這兩個基本體系結構改變的結果是,允許實時矩陣工作負載在與傳統企業計算相同的成本範圍內,處理兩個數量級以上的數據。用異構計算運行矩陣工作負載,這是數據導向型企業的重要技術。

Wikibon的研究員表示,上述前提與假設的觀點非常激進。如果其他研究人員發現錯誤,遺漏或不合適的數字,Wikibon也願意更新研究結果。注意:AI訓練工作負載不是矩陣工作負載,因爲它不是實時的。訓練工作負載通常是分批的,這將顯著提高GPU吞吐量。目前,訓練在AI計算能力中佔比很高,但在這十年中,推理將更加重要。

 

執行摘要

對於矩陣工作負載,異構計算的性能優於傳統的x86

蘋果和谷歌首先在消費類應用中採用了神經網絡技術。2017年,Apple的iPhone X內置了早期的異構計算架構,該架構具有集成的GPU、處理器和神經網絡單元(NPU)。這款智能手機讓移動用戶可以使用軟件而不是硬件來拍攝更好的照片,並通過面部識別技術改善隱私性。Google在其Pixel智能手機中隨附了一個獨立的NPU,以增強攝影和音頻功能,還提供了依靠大型水冷TPU(Tensor Processing Unit)的雲服務來支撐在手機上發展機器學習(ML)。

Wikibon將“異構計算體系結構”定義爲CPU、加速器、NPU、ASIC、GPU和FPGA的組合。它們以非常低的延遲和高帶寬彼此直接互連,這比DRAM的運行速度快得多。在本研究中,代表性的異構計算系統是基於Arm的iPhone 11。傳統體系結構的代表是基於最新的Intel i7-1065G7技術的x86 PC系統。下面的圖1總結了本研究的性能和性價比部分的結論。

 

圖1:對比傳統和矩陣工作負載下異構計算與傳統x86的性能和性價比

來源:©Wikibon,2020年

 

圖1中的y軸是基於Arm的異構計算架構(iPhone 11 Pro Max)和傳統x86架構(Intel i7-1065G7 PC)之間的比值。對於傳統的工作負載,這兩種設備的性能大致相同。

第一組相鄰的列表示性能比率,以Y軸顯示。藍色的列顯示了傳統的工作負載性能,這表明異構計算的性能比x86略慢(0.95:1)。紅色的列則顯示了在異構計算體系結構上運行的矩陣工作負載性能是x86的50倍。

第二組相鄰的列展示了性價比比率,以Y軸顯示。藍柱表明傳統工作負載下HC性價比是x86的3.6倍。紅柱展示了矩陣工作負載下HC的性價比高出x86超過150倍。

數據主導的運營架構(DLOA)

支持矩陣工作負載的異構計算系統將需要截然不同的部署策略。傳統的IT組織思維方式是降低計算成本。對於矩陣工作負載,其思路是需要關注數據存儲和移動數據的成本最小化。而處理方式也將轉向在數據創建處攔截數據,並實時從數據中提取最大價值。數據的創建可以在邊緣、移動邊緣、集中式數據中心,也可以是在互聯網POP等集中式站點。提取的數據中的一小部分子集可以相鄰地存儲,從而允許來自其它系統的額外處理請求。這些子集還將允許數據通過現代的混合多雲網絡移動到其它系統。

圖2說明了傳統工作負載操作流程與矩陣工作負載操作流程之間的區別。圖2的上半部分顯示了常規數據源,該數據源將數據發送到實時操作系統,然後將所有原始數據和提取的數據,存儲在數據倉庫和數據湖中。

 

圖2:傳統的IT工作流程vs以數據爲主導的運營架構工作流程

來源:Wikibon©2020

 

圖2的下半部分顯示瞭解決問題的另一種方式,更接近人工的操作方式。數據(通常來自越來越多的傳感器或數據流)是實時處理的。一般情況下,應用是一個分佈式推理AI模塊,異構計算架構提供了處理數據所需的巨大計算能力。每個步驟的輸出在緩衝區中保存很短的一段時間(10分鐘左右),以便將上下文保留在未來的結果中。例如,如果幾分鐘後發生異常,則可以將緩衝區中的所有剩餘數據保存並集中發送,以便進行遵從性和技術審查。緩衝區中的數據會不斷被覆蓋。

還可以處理分析和其他數據的需求。例如,來自特定的罕見情況的數據可以被保存下來,以幫助開發在微調或擴展AI推理代碼。異構計算可以更新以處理短期實時分析的請求。保留的數據小於原始數據的1%,通常遠小於1%。該數據包含被提煉過的,有價值的信息。在可能的情況下,工作流設計人員將把計算資源放在靠近主數據的位置,並避免數據移動。必要時,多雲網絡將保護最終數據並將其傳輸到需要的地方。在以數據爲主導的企業中,這些其它地點將爲轉移過程付費。

降低異構計算成本的結果(圖1)和DLOA部署架構的變化(圖2)導致運行矩陣工作負載的成本降低了兩個數量級。

異構計算供應商

異構計算領域的領先者目前主要是以消費者爲主導的廠商,他們利用Arm公司的設計授權。特斯拉還使用Arm組件和自己的NPU設計來構建其HW3 HC系統。唯一的HC供應商是早期先驅者MobilEye,該公司於2017年被英特爾收購。

目前,Arm主導的系統性能已經等同或超過傳統x86系統。Wikibon預計,未來十年,Arm主導的硬件、框架和軟件將在異構計算領域佔據主導地位,無論是分佈式&邊緣計算,還是大型集中式雲計算。假設x86供應商繼續其當前的設計和製造策略,Wikibon研究結論是,到2020年代末,企業服務器支出的72%將用於基於Arm的服務器。

 

以數據爲主導的策略

人類是在源頭過濾大量數據的專家。他們專注於從一系列的視覺、聽覺、嗅覺、味覺和觸覺傳感器中過濾出必不可少的東西,這些數據轟炸着我們。人類的大腦通過大腦的神經結構在幾毫秒內得出結論。人們也在不斷學習改進這種過濾過程。它們將重要事件保留爲記憶,並丟棄其餘數據。

企業正在努力成爲以數據爲主導的組織,但問題的一部分是數據太多。移動數據費時費錢,並且會刪除相關的上下文。理想的做法是在創建數據的時間點和地點處進行過濾,用它來自動化本地流程,併爲遠程流程提供信息。問題在於,當前的計算機體系結構不能處理這些帶有大量數據的實時工作負載。我們需要更像人腦一樣運作的設計,並在源頭過濾數據。

在前面的研究中,Wikibon將這些工作負載稱爲矩陣工作負載。本次研究的重點是異構計算(HC)架構,該架構可以在相同的成本範圍內實時處理比傳統設計多2個數量級的數據。矩陣工作負載的示例包括智能系統、實時分析、人工智能推理、隨機樹林、機器人技術、自動駕駛汽車等。Wikibon預測,到2020年代末,矩陣計算收入的增長將佔到全球企業計算的42%,此預測假定x86供應商策略沒有重大變化。

異構計算架構的戰略重要性是作爲數據主導型企業的重要工具。當然還需要許多其它工具。例如,數據流的管理和合規性需要DataOps工具。而且,爲了更快更安全地傳輸較小數量的數據,混合多雲網絡是必要的。總而言之,數據主導型企業的核心是能夠在數據產生的地方實時從數據中提取價值,並實現自動化。

 

定義異構計算架構

爲什麼需要新架構

傳統的架構注重以CPU爲主要部件,並把重點放在提供更多的核心、更多的CPU、更快的CPU以及DRAM上。有時會添加GPU,PCIe網絡提供帶寬,中間的存儲是DRAM。這種架構無法以所需的延遲或合理的成本處理實時矩陣工作負載。

異構計算架構(HC)允許採用更靈活的方法,提供廣泛的處理器類型,並在這些處理器之間提供靈活的、極低延遲的連接。帶寬和中間存儲由SRAM提供,SRAM比PCIe的延遲更低,帶寬更高。並行性和低延遲高帶寬使得大多數矩陣工作負載的處理速度至少快一個數量級,而成本卻低兩個數量級。

異構計算(HC)架構的定義

Wikibon將HC定義爲CPU、加速器、NPU、GPU和其它組件(如ASIC),以及與靈活的、極低延遲的高帶寬連接和不同元素之間的中間存儲的組合。由操作系統管理資源的使用,以滿足矩陣工作負載的處理、帶寬和延遲要求。

異構計算體系結構的主要組件如下:

CPU

在矩陣工作負載中,標量處理非常重要。並非矩陣工作負載中的所有算法都能利用GPU或NPU。一般來說,這些工作負載中的算法有大量的標量整數和浮點運算,而這些算法不能從機器學習中獲益。

加速器

將某些高開銷功能卸載分擔給加速器可以改善CPU的標量處理能力。一個例子是加速加密的加速器。對於矩陣工作負載,算術加速器至關重要。例如,Apple A13 AMX加速器將浮點算法提高了六倍。複雜的處理器組合,可以適應特定的矩陣工作負載。

X86在體系結構中添加了大量的專用指令,這些指令提供了大量的加速器。X86方法的區別在於,每個處理器都具有這些加速器,並且它提供了處理器優先的通用計算。HC的方法在將設計與工作負載進行匹配方面提供了更大的靈活性。

GPU(圖形處理器單元)

圖3:GPU和CPU架構的比較

來源:Wikibon 2020(根據Jill Reese和Sarah Zaranek改編  )

 

圖3顯示了GPU與CPU的不同之處。GPU具有數百個簡單的算術單元。如果某個應用是計算密集型的,並將計算任務分解成數百個獨立的工作元素,GPU就可以卸載分擔這些計算或加速該應用。

GPU的主要任務是將圖像、動畫、視頻和視頻遊戲渲染到PC、智能手機和遊戲機的屏幕上。2D和3D圖形利用的是多邊形。多邊形變換計算需要快速的浮點運算。圖3所示的GPU AU陣列提供了這種能力。

一些非圖形應用也可以使用GPU的原始能力。然而,GPU架構對於大多數矩陣工作負載來說並不理想。大多數矩陣不使用多邊形,因此不使用很多浮點運算。整數運算比浮點運算快得多,耗電量也少得多。

當GPU加載完計算工作負載後再進行處理時,對非圖形應用的效果最好,批量處理可以實現這一點。當批處理量較大時,如256個,GPU的工作效果最好。

然而,矩陣工作負載的實時元素將重點從批處理吞吐量轉變爲低延遲任務完成。合適的批次大小僅爲1。新的瓶頸是移動、加載和卸載GPU中數據的進出。因此,矩陣工作負載的GPU瓶頸是系統內存和GPU內存之間的內存到內存通信,如圖3所示。如果IT運營部門試圖增加額外的GPU,就會導致擴展性差,降低GPU的利用率。

多年來,智能手機和iPad使用神經處理單元(NPU)來運行消費者級的矩陣工作負載。下一部分將介紹NPU,以及爲什麼在大多數矩陣工作負載中NPU比GPU更高效。

神經處理器單元(NPU)

神經網絡(通常稱爲人工神經網絡)是反映人腦結構的計算系統。神經網絡單元(NPU)是計算架構的最新成員,旨在更加高效地運行矩陣工作負載。

Google員工爲神經網絡理論和硬件開發做出了重要貢獻。例如Google的Ng和Dean創建了一個突破性的神經網絡,該網絡可以“自我學習”,以識別未標記圖像中的高級概念。

 

圖4:簡單的神經網絡

來源:©Wikibon 2020

 

圖4顯示了一個簡單的神經網絡。紅色的輸入節點從軟件或連接的設備接收初始輸入。兩個藍色隱藏層和綠色輸出層中的每個節點或神經元都從左側的神經元接收數據。

在圖4的簡單示例中,這些輸入會與權重相乘,權重由兩個神經元之間的連接深度來描繪。每個神經元將從左邊的神經元收到的所有數據加起來。如果總和超過閾值,神經元就會觸發與其連接的神經元(圖4中右側的神經元)。幾乎所有的計算都是乘法/加法運算,並且從左到右進行。

在第一個週期中,輸入神經元將數據發送到下一層後,一個連續過程處理爲下一個週期加載數據和權重。在每個週期中,系統都會加載一小塊數據和權重作爲輸入,短的數據塊會從輸出端卸載。以企業爲例,Tesla FSD HW3系統具有96 x 96的輸入陣列,並以2GHz的頻率運行。兩個NPU的總操作吞吐量爲96×96×2個操作×2GHz(2個10^9)×2個NPU =〜73 TOPS。TOPS爲每秒操作萬億次。

神經網絡節點和連接數通常比圖4中的要大得多。整數乘/加操作通常佔代碼的99.5%以上。此外,整數運算比浮點運算更快、功耗更低。使用32位整數乘法和8位整數僅需要0.2皮焦耳的功率。與浮點GPU相比,功耗和空間需求減少了三倍以上。整數數學的精度,足以滿足大多數神經網絡應用的需求。

爲什麼NPU需要SRAM

企業級Tesla HW3系統中兩個NPU的數據輸入和輸出總數約爲0.5KB×2GHz(10^9)x 2 NPU = 2TB/秒。帶寬要求至少爲4TB/秒,工作在大約64 GB /秒範圍內的DRAM無法處理。因此,系統部署了64MB的SRAM。同時,SRAM移動32KB的數據只需要消耗20pj的能量,而使用DRAM則需要100倍的能量(2000pj)。

64MB的SRAM足以容納神經網絡程序、輸入、權重和輸出。SoC的設計可以在裸片上包含SRAM。

SRAM的缺點是它的成本比DRAM高得多,而且密度低1/3左右。SRAM在帶寬和功耗上都比DRAM至少高一個數量級。蘋果、MobilEye和Tesla都在NPU和HC上部署了大量的SRAM。

即使下一代處理器(例如IBM POWER系統和AMD服務器)具有PCIe Gen4接口,並且帶寬是PCIe Gen3的兩倍,但這仍然不足以支撐NPU。還必須考慮到,大量的下一代計算機將會以10-100 TB /秒的算力實現增長,並增長到PB /秒。

HC架構可以使用更小、更快的NPU,在大多數矩陣工作負載下,它們的擴展性都比GPU好得多。

訓練NPU

神經網絡的訓練方法主要有三種,有監督、無監督和強化。最常見的是監督式訓練,對結果的正確與否進行反饋。這種訓練需要大量的標記數據。

反向傳播是一套輔助神經網絡訓練的算法,用來識別事件或對象。該系統將實際輸出與神經網絡的預期輸出進行比較,然後修改權重(圖4中線條的粗細)以減小差異。網絡從輸出單元反向工作,通過隱藏神經元層到輸入神經元。隨着時間的推移,反向傳播允許系統進行學習,使差異越來越小,最終達到精確的匹配。此時,神經網絡已經“學習”了正確的輸出,併爲推理測試做好準備。這個訓練過程是應用開發過程的一部分,需要大量的標籤數據,而且幾乎都是中心化的功能。

AI開發輸出的是推理代碼,在應用程序的生命週期中,推理代碼通常佔總計算量的99%。而推理代碼不會學習。如果推理代碼接收到相同的輸入,它每次都會產生相同的結果,這對於合規性來說至關重要。Tesla利用這一事實,通過將所有的輸入分別發送到兩個處理器,並確保結果相同的方式,來自我檢查硬件是否正確運行。

雖然NPU是新事物,但NPU的設計者和供應商數量衆多。這些包括阿里巴巴、亞馬遜、AmLogic、蘋果、Arm、Flex Logic、谷歌、Graphcore、微軟、NPX、高通、NationalChip、三星、RockChip、特斯拉等。

其它異構計算組件

這些包括DPU(數據處理單元)、DisplayPU(顯示處理單元)、ASIC和FPGA。未來還有很大的發展空間。

DPU從CPU中分擔以數據爲中心的任務,包括數據傳輸、數據減少(壓縮和重複數據刪除)、安全和加密、隨時間檢查數據完整性、分析和自動化。Pensando等公司正在開發DPU解決方案。

DisplayPU專注於從GPU那裏分擔圖形管理功能。DisplayPU在虛擬現實(VR)應用程序中特別有用,這是一種非常具有挑戰性的實時矩陣工作負載。

蘋果A13異構計算架構

在本項研究中,將蘋果A13 SoC作爲異構計算架構的早期例子進行了深入的關注。在相鄰的研究中,Wikibon詳細研究了企業級的Tesla FSD,這是一個先進的企業級HCA。

下圖5是異構計算SoC Apple A13的芯片佈局。該系統的組件是六個處理器,其中包括加速器,這些處理器佔用了SoC面積的30%。其中還有一個GPU,佔41%。將SoC變成異構計算體系結構的組件是NPU(面積佔10%)、系統級緩存、以及48 MB的SRAM(面積佔19%)。

 

圖5:異構計算SoC的芯片佈局,基於Arm的Apple A13

來源:Wikichip Wikibon於3/14/2020下載基於Apple Arm的A13芯片佈局。Wikibon 2020。

 

正如在上面的“神經處理器單元(NPU)”小節中瞭解到的,在推理模式下,神經網絡中最常見的運算是乘法/加法運算,佔總數的99.5%。

Apple A13中的SRAM總量爲48MB,批量購買成本約爲30美元。SRAM允許組件之間的帶寬大於5TB /秒,而正常情況下主內存和組件之間的帶寬約爲64 GB/秒。NPU中最常見的運算是乘法/加法運算,它在1個週期內完成。程序、權重、輸入和輸出都可以在SRAM中共享。NPU和CPU一直處於忙碌狀態。假設不使用GPU,以保持功率低於6.2瓦。

這種架構極大地提高了處理的數據量。如果沒有NPU、加速器、系統級緩存和SRAM,Apple A13 CPU將以12 GHz或0.012 TOPS的速度運行(請參見 下面腳註2表3中的第17行)。使用異構計算組件,矩陣工作負載的總吞吐量(請參見 下面腳註2表3中的第24和25行)爲6(NPU)+ 1(CPU +加速器)= 7 TOPS。與非HCA Apple架構相比,增幅爲7÷0.012=>500倍。同樣,NPU是矩陣工作負載性能提升的原因。

總結:定義異構計算體系結構

  1. Wikibon將HCA定義爲CPU、加速器、NPU、GPU和ASIC等其他組件的組合,以及靈活的、非常低延遲的高帶寬存儲和不同元素之間的互連。
  2. 異構計算體系結構可以支持具有NPU、加速器的矩陣工作負載,並改進所有其它組件與 SRAM 和一致的系統級緩存的集成。SRAM提供了存儲空間、帶寬和低功耗,可以驅動NPU 進行高效利用,並與其它組件互連。
  3. 通過在基於Apple Arm的移動和平板設備中增加NPU,Apple引領了異構計算體系結構的快速採用。蘋果正在推出消費級掃描激光雷達(光檢測和測距),並使用 NPU來驅動消費級的3D AR 矩陣工作負載。
  4. 蘋果和谷歌現在正在使用NPU來從根本上改善面部識別、消費級攝影、視頻、音頻和虛擬現實服務的消費者軟件功能。越來越多的ioS和Android開發人員正在快速開發矩陣應用程序,包括遊戲應用程序。
  5. 具有異構計算架構特性的蘋果 A13處理器的性能比沒有 HCA 特性的 A13處理器的性能提高了500倍。
  6. 使用NPU的矩陣工作負載性能的提升要比GPU大得多,對SoC上真實空間的使用要少得多。可以很容易地增加多個NPU處理器,這對GPU來說是不行的。
  7. 至少在一段時間內,用於向屏幕輸出圖形的GPU將主要繼續保持不變。許多基準都在使用一個公認的指標,即幀/秒(FPS)。更多的FPS意味着更好的用戶體驗。對於遊戲應用來說,如果幀/秒更快,遊戲就會更流暢。隨着新算法的發展,NPU的圖形輸出用途可能會隨着時間的推移而發展。

 

HCA與x86的性能和性價比

本節是對蘋果iPhone 11 Pro Max的異構計算架構與傳統的英特爾i7-1065G7第十代最新Ice Lake PC架構的性能和性價比進行的詳細技術對比。

方法

這裏的做法是將傳統x86架構與異構計算架構的性能和性價比進行比較。這些比較是針對傳統工作負載和實時矩陣(推理)工作負載進行分析的。估計和測量性能是一門科學也是門藝術。特別是要對來自不同系統架構的CPU、GPU和NPU,並運行不同的工作負載時進行對比,這一點尤其棘手。

這些比較的結果是幫助得出一個合理的估計,即在異構計算與傳統x86架構上運行的傳統工作負載和矩陣工作負載的性能和性價比。如果差異很大,則將支持這樣的論點,即系統架構將發生根本性的轉變。系統軟件和應用程序的更改等因素將產生大量阻力,並延長髮生這些根本性轉變的時間。但是,收益越大、消除阻力的業務案例就越好,並且開發更高級的系統和應用軟件的速度就越快。

選擇的工作負載是使用Apple TrueDepth技術的面部識別系統。Apple目前沒有此技術的可用版本。可以在下面的腳註部分的腳註3中找到這套矩陣工作負載的完整詳細信息。在本實驗中,作爲地點位置管理者,您有責任選擇運行該系統的平臺。選擇平臺所需的部分信息是所選平臺的性能和性價比。

架構比較

下圖6的左側展示了傳統x86 Intel 17-1065G7處理器的處理器管芯佈局。右邊是基於Arm異構計算架構的Apple A13處理器的芯片佈局。這顆芯片類似於上面“異構計算架構示例”小節中圖5的分析。

英特爾i7-1065G7處理器SoC是傳統的x86架構,主要用於從入門級到中型體積的移動PC。Gen 11 GPU與上一代GPU相比從24個執行單元增加到64個執行單元。這些組件與4個Sunny Cove CPU一起,通過系統級緩存、環形互連和8MB L3 last-level SRAM緩存(LLC)相互互連。SRAM的總數爲17 MB。SoC和DRAM之間的通信具有大約64 GB /秒的內存帶寬。

 

圖6:英特爾i7-1065G7 Ice Lake SoC和基於Arm的Apple A13 SoC芯片佈局。

來源:Wikibon於2020年3月14日由Wikichip Intel i7-1065G7 Die Layout下載。Wikibon於2020年3月14日下載基於 Wikichip Apple Arm的A13模具佈局。Wikibon 2020。

 

圖6的右側是具有異構計算架構的基於Arm的Apple A13 SoC。有一個GPU、兩個高速的Lightning CPU和四個緩速的Thunder CPU,還有一個NPU。它們都通過一個大的系統級緩存與大量的SLC SRAM相互連接。A13 SoC上的SLC SRAM總量爲48MB,遠高於傳統的x86架構。因此,所有異構計算元件之間可以達到5 TB /秒的帶寬,這比傳統x86 Intel處理器快約100倍。

下面列出了通過比較上面圖6中的兩種體系結構得出的最重要的結論。

  • GPU佔用大量空間。英特爾GPU佔據了處理器空間的57%,蘋果GPU佔據了41%。空間意味着面積、晶體管數量和耗電量。因此將額外的GPU添加到SoC以執行矩陣計算不是一個可行的選擇。
  • 關於芯片上的處理器專用空間,Apple需要45 mm^2、小於Intel 的72 mm^2。Apple A13裸片製造採用7nm與EUV(Extreme UltraViolet)工藝,比英特爾先進了兩代。因此,蘋果的晶體管密度更高,爲1.16億個/ mm^2。英特爾最早的宏偉目標是在其10nm晶圓上實現1.08億個/ mm^2的密度,但由於生產良率和質量問題,不得不削減到6700萬個/ mm^2(估計)。兩種架構的處理器晶體管數量大致相同,這意味着兩種CPU架構對於傳統計算工作負載的預期性能很可能相似。 
  • A13的功率要求爲6.2瓦,而英特爾處理器的功率爲25瓦。在iPhone上,蘋果公司重點使用了先進的7nm EUV製造工藝來降低功耗。蘋果已做出大致聲明,表示與以前的A12處理器相比,A13的性能提高了20%,功耗節省了35%。芯片上有足夠的空間來爲iPad添加更多功能,這些功能可以以最高15瓦的功率運行。可能針對Mac會出現更高性能,更高功率的基於Arm的SoC!
  • 以上七個部分得出的總體結論是,像蘋果A13這樣的基於Arm的處理器對於傳統工作負載的性能應該和英特爾x86處理器差不多。
  • 對於矩陣工作負載的總體結論是,採用NPU的蘋果A13的異構計算架構有可能比英特爾x86處理器快得多。

有關本節中的任何分析,請參見下面腳註1中的注意事項。

比較蘋果和x86的性能和性價比

下表1是以下腳註 2中表3的摘要。它比較了傳統x86架構和基於Arm的Apple異構計算架構的性能和性價比。工作負載性能分別有傳統(顯示爲黃色行)和矩陣(顯示爲紫色行)。

 

表1:彙總表——比較在基於Arm的Apple異構計算和傳統x86架構上運行的矩陣工作負載和傳統工作負載的性能和性價比

來源:©Wikibon,2020年。有關其他行和解釋,請參見腳註2中的表3 ,數據源,假設和計算的詳細信息。

 

基於Arm的Apple異構計算體系結構的詳細信息在表1的第二行和第三行中,在左側以綠色表示。該產品是消費級的iPhone 11 Pro Max。搭載英特爾x86架構的Ice Lake i7-1065G7第十代CPU PC系統的詳細信息在另一側,以藍色顯示。

表1中的第21行展現了綠色數字表示的Apple HCA iPhone和藍色數字表示的x86(設置爲1)之間的性能比。工作負載設爲傳統時,其比值爲0.95:1。這個比值是依據腳註2中表3的第19行和第20行,來自2019年Geekbench單核和多核成績,並在表3後面的註釋中描述。這個結果並不意外,因爲基於Arm的系統的性能已經趕上了英特爾,並且在一些數據中心的領域超過了它。

表1中的第22行展示了傳統工作負載的性價比對比。它們基於下面的表3第2-10行。英特爾x86系統的價格估計爲1825美元(表3的第10行),基於iPhone 11技術的系統價格估計爲505美元(根據實際價格(表3第10行)482美元÷表1第22行的0.95計算)。如第22行最後一列所示,性價比對蘋果有利,爲3.6:1。

表1中的第27行展現了綠色數字表示的Apple HCA iPhone與藍色數字表示的x86(設置爲1)的性能比爲50:1。工作負載設置爲矩陣,第23行最後一列的比值爲50:1。這種計算很複雜,在下面的腳註表3之後的“矩陣工作負載的TOPS計算:第23-27行”小節中的註釋中有詳細說明。TOPS指的是每秒萬億次操作,是GPU營銷中最常用的噱頭數字。該表中的GPU聲明已修改,以反映現實世界中實時矩陣工作負載的性能。表1第26行的TOPS等級是GPU + CPU + NPU的總和。對於Apple HCA,這個值是0 + 1 + 6 = 7,對於x86,這個值是0.11 + 0.03 + 0 = 0.14。比率是7÷0.14 = 50。差距如此之大的原因是,與實時矩陣工作負載中的GPU相比,帶有SRAM的NPU的效率更高。 

表1中的第28行顯示了矩陣工作負載的性價比對比。它是由第22行÷第27行計算得出的。最後一列的性價比比值是190:1,並且具有NPU的基於Arm 的Apple系統比傳統的x86平臺便宜兩個數量級。

表1中的第29行顯示了4年期運行矩陣工作負載的不同體系結構的電力成本。計算結果包括電源成本、每千瓦時0.12美元的電費,以及比率爲2的PUE(電源使用效率)。這兩種架構之間的比值爲179倍,Arm同樣比傳統x86平臺的功耗低兩個數量級以上。

其它異構計算平臺

神經網絡處理器單元(NPU)的其它供應商包括阿里巴巴、亞馬遜、AmLogic、蘋果、Arm、Flex Logic、谷歌、Graphcore、微軟、NPX、高通、NationalChip、三星、RockChip、特斯拉等。這些廠商中的絕大多數都與Arm有着緊密的關係,是Arm的授權商。

Nvidia是該列表中的一個例外。Wikibon希望Nvidia將在18個月內填補這一空白,並將NPU納入其CUDA軟件框架。Nvidia其實也是Arm的授權方,與Arm長期合作。

總結:HCA與x86性能和性價比

 

表2:執行摘要表–適用於傳統和矩陣工作負載的Arm主導的Apple異構計算和傳統x86體系結構的性能與性價比之間的比較

來源:©Wikibon,2020年。請參見腳註中的表3和數據說明,以獲取詳細信息來源,假設和計算。

 

表2總結了基於Arm的Apple異構計算和傳統x86架構之間的性能和性價比。傳統工作負載顯示在黃色行上,而矩陣工作負載顯示在紫色行上。表2是上文“執行摘要”中圖1的來源。

主要結論是:

  1. 對於傳統工作負載,基於Arm的A13性能比x86(0.95:1)稍慢。性價比是後者的3.6倍。
  2. 對於矩陣工作負載,基於Arm的異構計算性能比x86快50倍。性價比超過150倍。
  3. 矩陣工作負載的電源成本和電源需求成本比傳統x86架構節省了兩個數量級。

 

Arm設計的重要性

分離處理器設計與製造

許多供應商表示,“企業級”計算比“消費級”設備需要更高級別的健壯性和恢復能力。這是事實,然而這些廠商忽略了處理器行業的根本變化。傳統的處理器設計和生產的垂直整合已經發生了變化。現在處理器的製造和生產由臺積電和三星等公司主導,處理器的設計由日本軟銀旗下的Arm主導。

Arm公司擁有一套合格的標準功能處理器組件設計組合。這些也是由合格的晶圓廠製造的。處理器廠商,如蘋果、AWS、富士通、高通、微軟、英偉達、三星、特斯拉等,可以專注於(可能)一兩個組件的創新,其餘的則採取標準組件。Arm公司已經推出了NPU。Arm公司已經將針對傳統工作負載的Neoverse E1和N1服務器引入其設計組合中。AWS、富士通、微軟、Nvidia、Tesla等公司已經在企業的高性能高可用性環境中使用基於Arm的處理器。

分離的好處

設計和製造分離的結果是,大幅縮短了處理器創新的週期。50:1的性能變化是一場設計革命,而不是進化。基於Arm的設計模型在處理器的組件級別就擁有了體積優勢,而不是在更大的SoC級別。與x86相比,基於Arm的處理器已經佔全球晶圓廠晶圓數量的10倍。這一數量降低了基於Arm的組件和SoC的成本。因此,纔有了前面分析的性價比差異。

相比於傳統的5年以上的集成處理器週期,這種分離對於消費類和企業級計算來說,是一個更高效的創新引擎。不同的實時矩陣工作負載將受益於運行在爲該特定類型矩陣工作負載優化的架構上。Wikibon認爲,由此產生的創新將從根本上改變這2020年代的服務器和系統架構,以及企業的計算分配策略。

分離的結果——推理服務器

 

圖7:Arm NPU的技術細節

來源:Arm Ltd. 2020,數據由Wikibon編譯

 

推理NPU現已投入量產。通過查看Arm的NPU設計範圍可以說明NPU的引入速度。圖7顯示了Arm公司目前的NPU設計範圍。Arm在2019年推出了其第一款NPU設計,即Ethos-N77。

Arm在2020年初推出了Ethos-U55。U55是一款適合小外形尺寸的微型NPU設計。

Arm Ethos-N78於2020年5月推出,規格有了顯著改進。它現在支持臺積電的6nm EUV技術。

目前Arm NPU設計的弱點是還不能支持較大數量的SRAM。當前,每個NPU限制爲4MB。特斯拉每個NPU有32MB SRAM,與蘋果處理器中的數量差不多。Wikibon希望在將來的設計版本中可以解決此問題。

目前,異構計算領域的領先者是消費級主導的開發專業技術和Arm主導的硬件系統。Arm主導的系統性能現在等於或超過傳統的x86系統。Wikibon期望Arm主導的硬件、框架和軟件在未來十年內將主導企業異構計算市場。

Wikibon預計,未來十年,AI推理系統將增長到AI系統支出的99%。開發訓練部分將減少到1%左右。在早前的研究中,Wikibon預測到2020年代末,矩陣工作負載將增長到企業計算收入的42%。

分離結果——x86規模的分擔和替換

大約20%的處理專用於管理存儲和網絡。這是相對容易分擔的工作,特別是對於大型雲數據中心來說。一個例子是AWS Nitro系統,它是EC2實例的基礎平臺,使AWS可以卸載存儲和網絡服務。此外,Nitro還可以幫助AWS改善這些服務的性能和安全性。另一個例子是最近被Nvidia收購的Mellanox,他們在ConnectX SmartNIC上用基於Arm的處理器卸載存儲網絡。諸如NVMe over Fabrics(NVMe-oF)存儲的RDMA加速和高速視頻傳輸等功能可以從通用CPU上卸載下來,性能更快,安全性更高。在基於Arm的專用服務器上可以更高效地處理特定工作負載的卸載將繼續增長。

隨着部分工作負載從x86遷移到基於Arm的服務器,基於Arm的服務器還將對雲數據中心產生越來越大的影響。AWS和Microsoft Azure很好地完成了此過程。在re:invent 2019上,AWS宣佈了AWS Graviton2處理器,該處理器由Amazon Web Services使用64位Arm Neoverse內核定製構建。這些內核可爲AWS M6g、C6g和R6g EC2實例降低40%的成本,並提供同等或更好的性能。

此外,Arm還推出了Neoverse N1和E1高性能架構,作爲x86處理器的高性能和低功耗直接替代品。Ampere現在正在發售Ampere Altra,這是一種基於Arm Neoverse N1平臺的具有80個內核的64位Arm處理器。功耗僅爲211瓦。

分離結果——市場影響

下圖8顯示了低成本和高性能的基於Arm的處理器將對企業服務器市場產生的影響。2019年企業服務器市場總額爲760億美元,Wikibon預計到本十年末它將增長到1130億美元。從存儲和網絡功能遷移轉到基於Arm的處理器的收入以藍色顯示。引入用於傳統工作負載的Arm處理器的收入以綠色顯示。最後,灰色顯示了矩陣工作負載的引入,這將需要異構計算體系結構。

 

圖8:按工作量細分的基於Arm的Enterprise Server增長

來源:Wikibon,2020年。此預測假定x86供應商的設計和生產策略不會發生重大變化。

 

Wikibon預測,到本十年末,企業服務器市場的72%將是基於Arm的服務器。這種遷移速度的根本原因是量產帶來的成本降低,爲特定工作負載而構建的服務器創新速度加快,因而能更好地利用晶圓廠,以及因爲阿里巴巴、亞馬遜、谷歌和微軟等大規模雲提供商而減少了來自軟件相互不兼容而產生的障礙。需要強調的是,圖8中的Wikibon預測假設x86廠商的設計和生產策略不會發生重大變化。

最後一點是,Arm Ltd.是軟銀在日本以外擁有的英國公司。許多歐洲和遠東國家正悄悄地希望減少對美國處理器技術的依賴。

總結:Arm設計的重要性

  1. 處理器設計和製造的分離爲消費級和企業級帶來了更快的創新週期。蘋果和特斯拉等公司可以通過對系統的其餘部分使用基於Arm的標準設計來發展NPU創新。因此,創新時間減縮短了一半或更多。這會帶來更多的設計和更高的產量,從而導致成本降低。
  2. 最大的雲提供商正帶頭遷移到基於Arm的服務器,因爲它們具有進行相應軟件變更的規模效應。Arm的第一種用途是分擔存儲和網絡壓力,第二種是將Arm處理器用於特定的工作負載,第三種是使用基於Arm的異構體系結構。Wikibon預測,到本十年末,約有72%的服務器支出將用於更多種類的基於Arm的服務器。

 

全文結論

分離設計和製造,使得業界其它廠商在這兩個領域的創新速度比x86廠商更快。領先的處理器晶圓廠使用7nm與EVA,並且正在部署5nm的道路上。更小的製程意味着速度更快,功耗也會降低一些。Arm是領先的設計者,擁有一套廣泛的處理器組件,這使得處理器廠商可以把標準部件和設計精力集中在特定的差異化部件上。需要強調的是,本研究中的Wikibon Arm假設是x86供應商繼續採用當前策略。

異構計算架構

本項研究表明,異構計算體系結構可以以比傳統x86體系結構低兩個數量級的成本運行矩陣工作負載。HC體系結構是由處理器的廣泛選擇和極高的帶寬來定義的。蘋果和特斯拉提供的性能最高的系統包括帶有大量SRAM的神經網絡處理器單元(NPU),以驅動其互連性和中間存儲。這些系統能夠以比帶有集成GPU的傳統x86系統快50倍的速度運行推理AI應用程序,並且性價比要高出150倍以上。Wikibon預測,這種運行矩陣工作負載成本的巨大變化將帶來五個重大變化。

在未來五年內,將GPU用於非圖形推理工作負載的速度將會放緩。它們仍將致力於多邊形變換的工作負載。通常,NPU的較低成本和較高性能將帶來部署NPU的新方法。隨着NPU軟件框架的成熟以及NPU專業技術的普及,這一趨勢將加速發展。

處理器設計和製造的分離至少導致創新速度翻了一番。由設計公司Arm公司領導。蘋果等處理器公司能夠從Arm公司獲得標準設計SoC組件,並專注於NPU等創新,以提高實時AI推理軟件的性能。結果,這些應用程序以毫秒爲單位交付結果,而不是幾秒鐘。

特斯拉能夠構建定製的HW3異構計算系統,使用基於Arm的構建塊在不到3年的時間內對其進行部署,並實現了比之前的GPU解決方案運行速度快21倍的解決方案。如果沒有設計和製造分離,則需要6年以上的時間,且伴隨着巨大的失敗風險。

數據主導的運營架構

人類是過濾海量數據的專家,並使用神經網絡來實現這一點。之後,他們只記住重要的東西,並丟棄輸入的數據。基因組計算也是如此,它從海量數據開始,以超過100:1的倍數減少數據,只剩下大量描述染色體和基因的有用數據。

特斯拉是一家完全由數據主導的公司。它每秒鐘從車隊中所有正在行駛的車輛中持續捕獲30億字節的數據。HW3在處理所有這些數據時,要麼是以影子模式(在影子模式下,它正在將自己的計劃與司機的實際執行情況進行比較),要麼是在司機偶爾的指導下實際自動駕駛汽車。只有特殊的數據纔會被反饋回來,比如說,險些失誤或事故。開發團隊也可以要求採集特定的、異常的數據,比如看司機如何處理附近的大型動物。十分鐘後,緩衝區的數據會被覆蓋。

特斯拉的數據架構是一種數據導向的運營架構,如圖2所述。這種數據處理的效率使特斯拉能夠採集整個車隊的數據。74 TOPS系統的成本約爲1600美元,相機和傳感器的成本約爲1400美元。每輛汽車的成本爲3000美元,特斯拉可以從其全球超過100萬輛汽車的完整車隊中採集數據。

以數據爲主導的策略

特斯拉擁有所有數據,並可以探索使用此數據擴展傳統汽車市場的新方法。例如,特斯拉唯一知道誰在駕駛以及駕駛狀況如何,並且可以在數分鐘內有選擇地提供保險,或者提供住宿或用餐場所的選擇。特斯拉與MobilEye斷絕了關係,因爲他們的長期商業利益不一致,特斯拉設計了一臺計算機,以確保它仍然是一個數據主導的企業。

數據主導型企業的核心是能夠在數據產生的地方實時提取數據的價值,並實現自動化。運行矩陣工作負載的異構計算架構、數據主導的運營架構、利用DataOps工具設計端到端的企業數據架構,都是建立數據主導的企業和文化的重要內容。

 

行動項目

IT主管

高級管理人員應該評估異構計算架構、矩陣工作負載和數據主導的運營架構如何協助或啓動企業數據主導戰略。Wikibon預計,如果不能在數據主導的矩陣工作負載上進行投資,將導致許多行業的業務失敗,尤其是汽車行業。

服務器供應商主管

Wikibon希望在2026年及以後出現完整的5級自動駕駛軟件和硬件。世界上大約有10億輛各類車輛。每輛車的單價將在2000美元至5000美元之間。該行業的一些細分市場,如軍用車輛,將會標註更高的價格。

從2024年開始,TAM市場的總規模約爲4萬億美元,並在接下來的20年中逐步擴展,每年的TAM平均擴展規模爲2000億美元。升級換代的TAM將在每年裝機量的10%左右。在政府認證和合規方面的專業知識將處於優勢地位。

此外,還有一個相鄰的固定和半移動的工業和消費設備市場,其單位成本較低,但整體TAM相似。

軟件供應商主管

Wikibon將在未來的研究中討論矩陣工作負載軟件。

 

腳註:

腳註1

關於裸片佈局,要提醒一下的是,英特爾並沒有發佈太多關於他們10納米+SoC的詳細信息。雖然WikiChips和維基百科有優秀的、知識淵博的貢獻者,但他們並不是萬無一失的!

腳註2

系統成本:第1-10行

綠色欄中的1-8行顯示了Apple iPhone 11 Pro Max的拆解成本。 這項研究僅採用了創建異構計算服務器來運行面部識別軟件(Matrix工作負載)所需的組件。例如,屏幕成本不包括在內。由於該產品的高消費量,因此成本很低。

紅柱中的1-8行顯示了英特爾系統的等效成本。處理器的費用來自英特爾網站。其它成本由Wikibon估算。一般來說,由於英特爾PC平臺的架構和體積要小得多,所以連接組件的成本很高。

  • 英特爾PC i7-1065G7處理器的價格是Apple A13處理器的6.7倍
  • 額外的PC系統組件比iPhone組件貴2.4倍。 

第9行是兩個面部識別系統的總物料清單成本,計算方式爲第1-8行之和。 

第10行是每個系統的預期銷售價格,假設兩個系統的提升幅度是第9行的2.5倍。 

  • 總體而言,帶有PC  組件的面部識別系統比iPhone組件貴3.9倍
  • 兩個系統在傳統工作負載下性能大致相同,這將在下一部分中介紹。

測試計算傳統工作量:第19-22行

本部分使用著名的跨平臺測試軟件Geekbench。它會運行單核和多核工作負載。每個單核工作負載都有一個多核對應的工作負載。有三種工作負載類型。它們分別是密碼學(5%的權重)、整數(65%)和浮點(30%)。假設和計算如下:

  • 所有行均爲黃色,並評估兩種體系結構上的傳統工作負載。
  • Geekbench是跨平臺基準測試,具有單核和多核打分。
  • 假設i7-1065G7沒有外部GPU,並且沒有外置散熱。
  • 19行是兩個平臺在正確瓦數下的單核Geekbench 5得分。
  • 20行是兩個平臺在正確瓦數下的多核Geekbench 5得分。
  • Apple A13平臺的第21行是(A13單核和多核分數的調和平均值)÷(i7-1065G7單核和多核分數的調和平均值)= 0.95
  • 英特爾i7-1065G7平臺的第21行設置爲1。對於傳統工作負載,A13比i7-1065G7的性能慢5%左右。
  • 第 22 行顯示了性價比。配置的銷售價格顯示在第10行。第22行=第10行/第21行。Intel i7-1065G7系統的價格性能是Apple A13系統的3.6倍。
  • 結論:基於Arm的移動設備蘋果在傳統工作負載性能方面已經趕上了x86移動設備,並且性價比高出三倍以上。

未來Wikibon的研究將表明,Arm已經趕上了x86數據中心處理器,並提供了更好的性價比。

雖然有許多基準測試,但跨平臺基準測試很少。基準測試只是數據點。對第11至18行的分析還表明,英特爾和蘋果移動處理器的傳統工作負載性能可能是相似的。在一些特定的傳統工作負載中,會有其中一個系統發揮作用。

矩陣工作負載分析顯示了一個截然不同的故事。 

矩陣工作量的TOPS計算:第23-27 行 

用來評估系統性能的另一個指標是TOPS或每秒操作數。該過程是獲取系統的所有組件,併爲每個組件累加TOPS值。例如,如果CPU的TOPS值爲0.5,GPU的TOPS值爲1,而NPU的TOPS值爲6,則整個系統的TOPS值爲7.5。您可能會想到,營銷部門喜歡此指標的簡單性。

正如之前所說,性能指標只是信息。總體TOPS數據指的是,在工作負載允許每個組件以100%運行時,系統可以運行的最大速率。當然,這種利用率實際上是不可能實現的。

Wikibon研究表明,GPU具有最高的TOPS等級,並且是高估矩陣工作負載性能的最大罪魁禍首。Wikibon的方法是將這一指標原封不動地用於處理器和NPU,並根據可實現的大致利用率百分比調整GPU的TOPS值。

  • 23-27行爲紫色,用於評估兩種體系結構上的矩陣工作負載性能。
  • 英特爾將i7-1065G7 中GPU 的峯值速率定爲1.024 TOPS,峯值頻率爲1.1 GHz。但是,保證的基本額定值爲0.3 GHz。因此,保證的TOPS = 1.024×0.3÷1.1 = 0.28 TOPS。一個合理的假設是,此GPU的可持續吞吐量約爲保證速率的2倍,即0.28×2 = 0.56 TOPS,以保持在25瓦功率限制內。
  • 同樣,用於實時矩陣工作負載的任何GPU都需要具有批處理大小= 1的設置。這個設置優化的是延遲,而不是吞吐量。但是,根據粗略的經驗,此設置意味着吞吐量將下降到可持續吞吐量的大約10%-20%。在下面的計算中,假設爲20%。
  • Wikibon評估英特爾GPU對實時矩陣工作負載的持續TOPS等級是0.56×20%= 0.11 TOPS。結果顯示在藍色列的第23行中。
  • 假定不使用Apple A13的GPU(將其設置爲0 TOPS)以將功率保持在6.2瓦以下。結果顯示在上面表3的第23行的綠色欄中。
  • i7-1065G7有4個核心,每個核心帶有兩個線程,主頻爲3.5 GHz。TOPS等級爲2×4×3.5÷1,000 = 0.028 TOPS。 結果顯示在上面表3的第24行的藍色欄中。
  • 蘋果公司將帶有加速器的處理器定爲1 TOPS。上面表3中第24行的綠色欄中顯示了這一點。
  • 由於i7-1065G7沒有NPU,因此值爲0 TOPS。蘋果將A13 NPU評爲6 TOPS。 這些顯示在上面表3的第25行中。
  • i7-1065G7的總TOPS爲0.11 + 0.028 + 0 = 0.14 TOPS。蘋果A13的總TOPS = 0 + 6 + 1 = 7 TOPS。 這些顯示在上面表3的第26行中。
  • TOPS性能之比A13 / i7-1065G7 = 7:0.14 = 501。這些在上面表3的第27行中顯示。
  • 結論: 
    • 用於確定不同架構下矩陣工作負載的相對性能,TOPS並不是一個很好的指標。Wikibon已經調整了GPU的TOPS評級,提高了準確度,但它並不是一個可靠的指標。
    • 這個性能研究的結果有不完善之處,但它表明採用NPU的異構架構比採用GPU的傳統架構快50倍。
    • 這是一個合理且極有可能得出的結論,即異構體系結構比矩陣工作負載的傳統方法快一個數量級。

注意:AI訓練工作負載  不是  矩陣工作負載,因爲它不是實時的。訓練工作負載通常是分批的,這將顯著提高GPU吞吐量。目前,訓練在AI計算能力中佔比很高,但在這十年中,推理將更加重要。 

矩陣工作負載的性價比計算:第28 行

  • 矩陣工作負載的價格-性能是通過取第10行的銷售價格除以第27行的相對性能計算出來的(x86=基數)。異構計算的每性能單位價格爲9.62美元,傳統體系結構的每單位性能價格爲1825美元。比率爲1901,有利於異構計算。
  • 結論:一個合理且極有可能得出的結論是,異構體系結構比矩陣工作負載的傳統方法要便宜兩個數量級。 

 電力成本:第29行 

表1中的第29行顯示了運行矩陣工作負載的不同體系結構的4年電力成本。計算包括電源成本(第8行),每千瓦時0.12美元的電費,並假設PUE(電源使用效率)比率爲2。兩種架構之間的比值爲179倍,同樣比傳統x86平臺的功耗低兩個數量級以上。 

結論:

  1. 上表3在兩邊均使用了TOPS這個說法。TOPS對於實際工作來說是一個失敗的指標。該指標易於計算,但大幅高估了實際效果。即使Wikibon進行了複雜的修改,它也遠不能可靠地給出真實世界應用的性能。
  2. Wikibon對異構計算和傳統計算之間的50:1的比例應該謹慎對待。但即便如此,這個比例仍然很可能很高。
  3. 一個更好的長期衡量標準和性能估計基礎是不同矩陣工作負載的多個基準數據。
  4. 矩陣工作負載非常不同,在傳統體系結構上無法很好地工作。
  5. Apple A13異構計算體系結構更適合這些工作負載,並且可以通過多個NPU擴展並行性,以處理更大的工作負載。
  6. 未來的Apple A13X和A14芯片將具有更高的性能,更大的峯包功率和改進的體系結構。
  7. Apple / TSMC和Google /三星在消費級矩陣應用程序上進行了大量投資,其創新率很高。
  8. 企業矩陣工作負載不太可能在GPU或傳統x86架構上很好地工作。基於Arm的解決方案似乎將成爲在移動、PC、分佈式服務器和數據中心解決方案中運行矩陣工作負載的主流。

腳註3面部識別矩陣的工作量

這種理想型實驗的工作負載是設計一個面部識別系統,以百分之百的信心確保沒有未經授權的人無法進入高度安保的設施。這裏有一個合規性要求,就是要有一個特定的記錄,記錄任何人在任何時候進入或曾經進入過該設施。每天都有成千上萬的人進出該設施。入口和出口的數量有限。 

被授權進入的每個人都擁有一個機器可讀的卡。該系統的工作是讀取卡,使用紅外3D光掃描面部,並將輸入系統中記錄的面部與系統中保存的面部記錄進行比較。只有本人持卡親臨現場,持必要的授權文件,才能將新的人臉記錄錄入系統。此時人臉數據纔會被錄入系統。 

爲了避免潛在地濫用面部數據(例如更改面部數據記錄),面部數據只能保存在該站點上,不能被任何其它應用程序訪問,也不能被面部識別系統以外的任何其他設備讀取或寫入。必須對每一次訪問面部數據的行爲進行不可更改的記錄,但面部數據不包括在此記錄中。在任何試圖訪問這些數據的情況下,面部數據必須自毀。

顯然,手動系統不能滿足百分之百的要求。這個理想型實驗中的一個假設是Apple商業化並提供了運行面部TruDepth識別系統的軟件。(雲科技時代編譯)

【原文鏈接:https://wikibon.com/Arm-yourself-heterogeneous-compute/ 】

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章