英偉達安培架構來了!7nm製程,540億晶體管,AI算力提升可達20倍

北京時間 2020 年 5 月 14 日,英偉達一年一度的 GTC 大會終於得以在線上開幕。受疫情影響一推再推的這場大會,也終於沒有讓觀衆失望,帶來了一系列品質爆炸的新品,AI 前線 /InfoQ 對這場發佈會進行了全程跟蹤報道,以下是詳細內容。

引言:一波三折的 GTC 2020GTC 2020

原計劃 3 月 22 日到 26 日在美國加州聖何塞舉行,然而由於疫情,英偉達不得不考慮在線上舉行發佈會。彼時,英偉達方面表示,公司創始人兼 CEO 黃仁勳還是會發表主題演講,並通過線上直播方式來進行交流互動。該會議的線上舉辦時間依然爲 3 月 22 日至 26 日。

InfoQ 在當時也受到了線上大會的邀請。然而就在大會開始前兩天,InfoQ 接到消息稱:GTC 2020 線上大會暫時取消,新的發佈時間暫未確定。

當記者詢問原因時,對方表示也只是收到了通知,並沒有更多指示。此後很長一段時間,GTC 大會就這樣短暫消失在大衆視野中。

大約一個多月後,GTC 2020 的邀請再次到來,這場大會也如期而至。有趣的是,此次直播之前,黃仁勳先給各位觀衆上了一道“硬菜”:

安培架構終於來了

“The more you buy,the more money you save!

還是熟悉的配方,還是熟悉的味道,還是熟悉的皮夾克,黃仁勳來了,不過這次不是在臺上,而是在他家的廚房裏。

受疫情影響,此次發佈採取了線上直播的形式。說是直播,倒不如說是錄播的全放送,在 YouTube 上,英偉達官方帳號一次性放出了所有錄播片段,供觀衆觀看。

YouTube鏈接:
https://www.youtube.com/user/nvidia/videos

首先說說本次大會的第一個亮點:安培(Ampere)架構

如果對英偉達的技術和產品有所關注,那你一定聽過 Pascal、Volta、Turing 這三種 GPU 微架構的名字,分別發佈於 2016 年、2017 年和 2018 年,它們代表着英偉達 GPU 的最高工藝水平,以這些架構爲基礎的 GPU 芯片爲英偉達帶來了巨大收入。需要注意的是, Volta 架構當年就是專門爲專業用途設計的,遊戲卡上則是 Pascal、Turing,這一次的安培架構可能也會類似,下一代遊戲卡會有另一個新架構。

根據早先一些媒體披露的消息,使用安培架構的計算顯卡應該會命名爲 Tesla A100 。不久之後實錘來了,商標查詢網站 Justia 顯示,英偉達已經在今年 3 月 30 日悄然註冊了“DGX A100”,對應基於安培架構、GA100 核心 Tesla A100 計算卡的新一代深度學習工作站、AI 超級計算機。

另外,根據本屆 GTC 大會前最新瞭解到的消息,安培架構的 GPU 會採用 7nm 製程。

隨着黃老闆的介紹,上述猜測都一一得到證實。

現代數據中心非常複雜,而英偉達一直希望加快整個數據中心的處理速度。過去幾年,業界各大科技公司提供的解決方案已經針對不同任務進行了優化。現如今,雲幾乎無處不在,大力發展雲端數據中心很重要,英偉達希望創造一個加速器,進一步增加大規模應用程序的吞吐量。

今天,英偉達正式宣佈推出 NVIDIA A100,全新的數據中心 GPU,也就是之前網上盛傳的,被稱之爲安培(Ampere)的產品,它包含 540 億晶體管,擁有比原來強大 20 倍的 AI 算力。

據黃仁勳介紹,A100 的技術創新體現在以下 5 點:

1、臺積電 7nm 工藝,將內存和芯片放在相同的基材上以便可以互操作,並且已經連接到 HBM2 內存,該內存現在提供 1.5TB 幀緩衝區帶寬,這是歷史上第一個每秒超過 1TB 的帶寬的處理器。

2、 第三代 Tensor Core AI 核心,支持 TF32 運算,無需任何代碼改變就可以讓性能提升 20 倍,還支持 FP64 雙精度運算,與 HPC 應用相比帶來了 2.5 倍的性能提升。

3、 MIG 新架構:這是一項創新技術,可以將一個 GPU 劃分爲七個獨立的 GPU,針對不同的目標提供運算,最大化提高計算效率。

4、 NVLink 3.0:新一代 GPU 總線的性能翻倍,可以在服務器應用中提供更有效的性能擴展。

5、 結構稀疏性:這項新技術利用了 AI 運算中固有的稀疏性,從而實現了性能翻倍。

這 5 大技術創新使得 A100 加速卡不僅可用於 AI 推理、AI 訓練,還可以用於科學仿真、AI 對話、基因組與高性能數據分析、地震建模及財務計算等。黃仁勳表示,這是 NVIDIA 八代 GPU 史上最大的一次性能飛躍。

與此同時,英偉達還發布了 DGX A100 第三代系統,開箱即用,集成了該系統的計算機是世界上第一臺單節點計算超過 5 petaFLOPS 能力的計算機,售價 199000 美元,除了整機也可提供分解組件銷售。

沒錯,英偉達與 Spark 3.0 合作了

說過了新品,再來聊聊其他重要發佈。

高性能計算一直都是英偉達關注的領域,因此在本次直播中,黃仁勳宣佈了一項重要決定:英偉達與 Spark 3.0 達成合作,將對 Spark 開放 GPU 計算能力

Spark 由於使用了存儲器內運算技術,能在數據尚未寫入硬盤時即在存儲器內分析運算,因此被用作數據處理的最佳工具之一。但是因爲數據複雜度不斷上升,現在的企業與機構經常要處理數十甚至數百 TB 的數據,如果能將 GPU 的計算能力賦予 Spark,效率或許能夠有更多的提升。

黃仁勳介紹到,英偉達對 Spark 的賦能主要集中在以下幾點:

英偉達在 2019 年推出了 GPUDirect Storage 和 UCX,同時又有收購的 Mellanox 公司的技術加成,因此英偉達在存儲數據傳輸、IO 存儲以及多節點管理的速度都能夠做到“快如閃電”;

其次,使用 GPU 和 GPU 內存,Spark 的調度程序可以將任務進行分區,並以分佈式的方式進行安排與管理;

同時,Rapids 庫具有提取數據、創建數據框架、搭建特徵工程、執行 SQL 查詢和攔截等功能,這些能力可以對 Spark 起到很大幫助。對於 Spark,其 Catalyst 加速器已經得到了優化,能夠很好的適應英偉達 GPU。

那麼,英偉達與 Spark 的合作能夠帶來什麼好處呢?黃仁勳舉了一個例子:這套存儲有着高達 100 萬美元的造價,能夠提供每秒 17GB 的數據傳輸速度。

然而有了 Spark 3.0 和 Rapids 的加成,數據的傳輸速度提升到每秒 163GB,性能達到了之前的十倍。

如果是以前,打造一個每秒 163GB 傳輸速度的存儲中心的花費是 1000 萬美元,帶來的功耗是 140KW,現在只需 200 萬美元的造價,56KW 的功耗,是原來成本的五分之一,功耗的三分之一。

因此,黃老闆說出了那句名言:買得越多,省得越多。

此外,英偉達在今天還發布了一個深度學習推薦應用框架。由於推薦系統屬於計算密集型工作,因此如何提升計算速度是非常重要的,也正因如此,英偉達推出了 Merlin 框架:

爲使其易於使用,黃仁勳表示英偉達已經採用了複雜的訓練與計算來對它進行優化,因此只需要幾行代碼,就可以進行數據提取,數以 TB 計算的數據拓展與分區都是自動完成的。

其他發佈產品

交互式 3D 聊天機器人 Misty:圖形都是實時渲染

在發佈會上,英偉達還推出了新的應用程序框架 Jarvis,它需要音頻輸入,並且可以通過幾何網格動畫生成說話時的面部動畫,準備好之後就可以連接到對話式 AI 模型中,用戶詢問問題後,它會理解並回答問題,然後根據內容合成語音驅動的 3D 模型,如下是英偉達的第一個交互式 3D 聊天機器人 Misty:

在聊到具體天氣時,Misty 可以根據天氣實時變化形態,比如,當天氣很冷時,Misty 的狀態是這樣的:

Misty 具有互動功能,需要 AI 技術處理自然語言、理解內容並實時渲染圖形,是一個端到端的處理過程,並且延遲很短,就好像是面對面互動交流,這就是 NVIDIA Jarvis 的目的,一個多模式對話式 AI 服務框架,可在各種場景中應用,比如視頻會議。

DLSS 深度學習超級取樣

兩年前,英偉達發佈了 RTX。RTX 有兩個開創性技術:第一是加速了光線跟蹤,第二個開創性技術是深度學習。光線跟蹤技術的市場競爭十分激烈,英偉達製造出的加速器儘管很優秀,但卻不夠快,所以纔會有了人工智能。在過去 3 年裏,其致力於解決這一問題。

黃仁勳表示,用最快的 GPU 生成一個分辨率相對較低的 540p 圖片,以及一個運動向量。像素點在哪裏,就移動到哪裏,通過深度學習教會人工智能學習神經網絡,最終可以生成分辨率 1080p 的圖像。

英偉達對此進行了無數次實驗,最終發現這個訓練後的神經網絡僅僅通過若干個像素點和運動向量就能生成漂亮的圖片。英偉達把這個神經網絡搭載到驅動程序中,將其稱之爲 DLSS 深度學習超級取樣(Deep Learning Super Sampling)。

在 DLSS 1.0 和 2.0 版本的對比中可以看到,2.0 版本可以看到很多 1.0 版本中沒有展示出來的內容。這是因爲神經網絡經過訓練後還原了圖片本來的樣子。因爲在生成圖片的同時結合了運動向量,所以神經網絡能夠預測圖片裏面的內容。

兩款邊緣 AI 平臺此外,英偉達還推出了兩款計算平臺,分別是適用於大型商業通用服務器的 EGX A100 和適用於微型邊緣服務器的 EGX Jetson Xavier NX 。

EGXA100 是基於安培架構的 A100 GPU,每秒可接收高達 200GB 數據並將其直接發送到 GPU 內存以進行 AI 或 5G 信號處理。EGX Jetson Xavier NX 則被稱爲全球體積最小、性能最強大的 Al 超級計算機,適用於微型服務器和邊緣智能物聯網盒。

結語:“核彈廠”回來了

在演講的一開始,黃仁勳說:

目前,英偉達的加速計算平臺發展正處於轉折點,在過去幾年有兩個新的變化出現:加速計算機發展到了下一個階段,這種新型算法的出現稱爲數據驅動或機器學習算法,數據處理和數據移動使得數據中心比以往任何適合時候都要重要。第二是我們正在使用的應用程序的處理量太大,不適合在任何計算機上運行。

他認爲,未來十年,數據中心規模計算將更加規範化,而數據中心將是基本的計算單元。藉助軟件定義的數據中心和應用程序,開發者能夠編寫出在在整個數據中心運行的應用程序,現在要考慮的是優化數據中心的整個端到端網絡,高速聯網的重要性和數據中心的處理能力正是英偉達收購 Mellanox 的原因。

從今天的一系列發佈上也能夠看出,英偉達的重心正在轉移,憑藉着自身的算力優勢和 Mellanox 的技術加持,英偉達找到了新的發展方向。

猶記得 2018 年 GTC China 前夕,英偉達股價遭到腰斬,市值蒸發 200 億美元;一年後,英偉達斂起鋒芒,低調了一整年,直到年底的 GTC China 2019 也沒有更多的新品發佈,更是讓外界一度以爲這家公司的威力不再;今天,英偉達用全新的產品向全世界宣佈:英偉達仍然是那個驚喜不斷的“核彈廠”。

文章版權歸極客邦科技 InfoQ 所有,未經許可不得轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章