NVIDIA Tensor Cores解析

NVIDIA Tensor Cores解析

高性能計算機和人工智能前所未有的加速

Tensor Cores支持混合精度計算,動態調整計算以加快吞吐量,同時保持精度。最新一代將這些加速功能擴展到各種工作負載。NVIDIA Tensor內核爲所有工作負載提供了新的能力,從革命性的新精度Tensor Float 32(TF32)人工智能訓練中的10倍加速到浮點64(FP64)高性能計算的2.5倍加速。
在這裏插入圖片描述
Revolutionary AI Training

當人工智能模型面臨更高層次的挑戰時,如精確的對話人工智能和深度推薦系統,它們的複雜性繼續爆炸。像威震天這樣的對話人工智能模型比像ResNet-50這樣的圖像分類模型大數百倍,也更復雜。以FP32精度訓練這些大型模型可能需要幾天甚至幾周的時間。NVIDIA GPU中的張量磁芯提供了一個數量級的更高性能,降低了TF32和FP16等精度。並通過NVIDIA CUDA-X在本機框架中直接支持™
庫中,實現是自動的,在保持準確性的同時,大大縮短了訓練的收斂時間。

Breakthrough AI Inference

一個好的人工智能推理加速器不僅要有很好的性能,還要有多功能性來加速不同的神經網絡,同時還要有可編程性,使開發人員能夠構建新的神經網絡。高吞吐量的低延遲同時最大化利用率是可靠部署推理的最重要性能要求。NVIDIA Tensor Cores提供全系列精度——TF32、bfloat16、FP16、INT8和INT4,提供無與倫比的多功能性和性能。

Advanced HPC

高性能混凝土是現代科學的一個基本支柱。爲了揭示下一代的發現,科學家們利用模擬來更好地理解藥物發現的複雜分子、潛在能源的物理學和大氣數據,以便更好地預測和準備極端天氣模式。NVIDIA Tensor內核提供了包括FP64在內的全方位精度,以加速所需的最高精度的科學計算。

NVIDIA HPC SDK是一套綜合的編譯器、庫和工具,用於爲NVIDIA平臺開發HPC應用程序。

現代應用的加速

CUDA-X AI和CUDA-X HPC庫與NVIDIA
Tensor Core gpu無縫協作,加速跨多個域應用程序的開發和部署。

現代人工智能有可能擾亂許多行業,但如何利用它的力量是一個挑戰。開發人工智能應用程序需要許多步驟:

數據處理、特徵工程、機器學習、驗證和部署,每一步都涉及處理大量數據和執行大量計算操作。CUDA-X人工智能提供了克服這一挑戰所需的工具和技術。
在這裏插入圖片描述
A100 Tensor Cores

第三代

NVIDIA Tensor核心技術爲人工智能帶來了驚人的加速,將訓練時間從幾周縮短到幾小時,併爲推理提供了巨大的加速。NVIDIA安培體系結構提供了巨大的性能提升,並提供了新的精度,以覆蓋研究人員所需的全譜-TF32、FP64、FP16、INT8和INT4加速和簡化人工智能採用,並將NVIDIATensor Cores的功率擴展到高性能計算機。

Tensor Float 32

隨着人工智能網絡和數據集繼續呈指數級增長,它們的計算需求也同樣增長。較低精度的數學運算帶來了巨大的性能加速,但它們歷來需要一些代碼更改。A100帶來了一種新的精度,TF32,它的工作原理和FP32一樣,同時爲人工智能提供高達20倍的加速,而不需要任何代碼更改。
在這裏插入圖片描述
圖靈Tensor Cores

第二代

英偉達圖靈™
Tensor Cores心技術的特點是多精度計算,有效的人工智能推理。圖靈Tensor Cores爲深度學習訓練和推理提供了一系列精度,從FP32到FP16到INT8,以及INT4,在性能上超過NVIDIA Pascal™ GPU。
在這裏插入圖片描述
Volta Tensor Cores

第一代

專爲深度學習而設計的NVIDIA Volta第一代Tensor Cores™
在FP16和FP32中使用混合精度矩陣乘法提供開創性的性能,高達12倍的高峯值teraFLOPS(TFLOPS)用於訓練,6倍的高峯值TFLOPS用於NVIDIA Pascal上的推理。這一關鍵能力使Volta能夠在Pascal上提供3倍的訓練和推理性能加速。

NVIDIA贏得MLPerf推理基準

NVIDIA在新的MLPerf基準上發佈了最快的結果,該基準測試了數據中心和邊緣的人工智能推理工作負載的性能。新的業績是在該公司今年早些時候公佈的MLPerf基準業績同樣強勁的情況下發布的。

MLPerf的五個推理基準——應用於一系列的形狀因子和四個推理場景——涵蓋了諸如圖像分類、對象檢測和翻譯等已建立的人工智能應用。

用例和基準是:
在這裏插入圖片描述
NVIDIA在以數據中心爲中心的場景(服務器和脫機)的所有五個基準測試中都名列前茅,其中Turing gpu爲每個處理器提供了商用項目中最高的性能。Xavier在以邊緣爲中心的場景(單流和多流)下提供了商用邊緣和移動SOC中最高的性能。

NVIDIA的所有MLPerf結果都是使用NVIDIA
TensorRT 6高性能深度學習推理軟件實現的,該軟件可以方便地優化和部署從數據中心到邊緣的人工智能應用程序。新的TensorRT優化也可以作爲GitHub存儲庫中的開放源代碼使用。請參閱此開發人員博客中的完整結果和基準測試詳細信息。
在這裏插入圖片描述
除了是唯一一家提交了MLPerf Inference v0.5所有五個基準測試的公司外,NVIDIA還在開放部門提交了ResNet-50v1.5的INT4實現。這個實現帶來了59%的吞吐量增長,準確率損失小於1.1%。在這個博客中,我們將帶您簡要介紹我們的INT4提交,它來自NVIDIA早期的研究,用於評估圖靈上INT4推理的性能和準確度。在此瞭解有關INT4精度的更多信息。

NVIDIA在擴展其推理平臺的同時,今天還推出了Jetson
Xavier NX,這是世界上最小、最強大的用於邊緣機器人和嵌入式計算設備的AI超級計算機。

Jetson-Xavier NX模塊與Jetson-Nano引腳兼容,基於NVIDIA的Xavier SoC的低功耗版本,該版本在邊緣SoC中引領了最近的MLPerf推斷0.5結果,爲在邊緣部署高要求的基於AI的工作負載提供了更高的性能,這些工作負載可能受到尺寸、重量、功率和成本等因素的限制。在此處瞭解有關新系統的更多信息,並瞭解如何在5個類別中的4個類別中佔據榜首。
在這裏插入圖片描述
最強大的端到端人工智能和高性能數據中心平臺

Tensor核心是完整NVIDIA數據中心解決方案的基本組成部分,該解決方案集成了NGC的硬件、網絡、軟件、庫以及優化的AI模型和應用程序™. 作爲最強大的端到端人工智能和高性能計算機平臺,它允許研究人員提供真實的結果,並將解決方案大規模部署到生產中。
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章