3 分鐘瞭解 NVIDIA 新出的 H200

英偉達在 2023 年全球超算大會上發佈了備受矚目的新一代 AI 芯片——H200 Tensor Core GPU。相較於上一代產品 H100,H200 在性能上實現了近一倍的提升,內存容量翻倍,帶寬也顯著增加。

據英偉達稱,H200 被冠以當世之最的芯片的稱號。不過,根據發佈的信息來看,H200 Tensor Core GPU 並沒有讓人感到意外。在 2023 年 8 月 30 日,英偉達就發佈了搭載 HBM3e 技術的 GH200 Grace Hopper 的消息,而 HBM3e 也是 H200 芯片的升級重點。

HBM3E——H200升級重點

NVIDIA H200 是首款提供 HBM3e 的 GPU,HBM3e 是更快、更大的內存,可加速生成式 AI 和大型語言模型,同時推進 HPC 工作負載的科學計算。藉助 HBM3e,NVIDIA H200 的顯存帶寬可以達到 4.8TB/秒,並提供 141GB 的內存。相較於 H100,H200 在吞吐量、能效比和內存帶寬等方面均有所提升。

HBM3E 到底是什麼技術,讓 H200 有了如此大的提升?接下來我們就來詳細瞭解下 HBM3E。

HBM3E(High Bandwidth Memory 3E)是最新一代的高帶寬內存技術,它是 HBM(High Bandwidth Memory)系列的進一步改進和升級版本。HBM3E 在速度和容量方面都有顯著提升,旨在滿足處理大規模數據和高性能計算的需求。

相較於 HBM,HBM3E 內存具有更快的數據傳輸速度,可實現更高的帶寬。同時,HBM3E 可以提供更高密度的內存芯片,從而使系統能夠擁有更大的內存容量。這非常有利於大型數據集和複雜計算任務。

在架構上,HBM3E 繼續採用了堆疊式設計,將多個存儲層疊加在一起,以實現更高的帶寬和更低的能耗。相較於傳統的內存技術,HBM3E 在給定帶寬的情況下能夠提供更高的能效。HBM3E 內存芯片的堆疊層數更多,從而實現更高的存儲密度。這使得在相對較小的物理空間內實現更大的內存容量成爲可能。

HBM3E 的引入旨在滿足處理大規模數據和高性能計算的需求,尤其適用於人工智能、機器學習、深度學習等領域。它提供了更高的帶寬、更大的容量和更高的能效,能夠加速數據處理和計算任務,推動各種應用的發展。

HBM3E 不僅滿足了用於 AI 的存儲器所需的速度規格,而且在發熱控制和客戶使用便利性等各個方面達到了全球最高水平。在速度方面,它能夠每秒處理 1.15TB 的數據,相當於在 1 秒內可以處理 230 部全高清(FHD)級別的電影(每部 5GB)。通過使用即將推出的 HBM3E 內存,NVIDIA 將能夠提供在內存帶寬受限的工作負載中具有更好實際性能的加速器,同時也能夠處理更大的工作負載。在2023 年 8 月份,我們就看到 NVIDIA 計劃發佈配備 HBM3 的 Grace Hopper GH200 超級芯片版本。這次 NVIDIA 宣佈的 H200,其實就是配備 HBM3E 內存的獨立 H100 加速器的更新版本。

H200 VS H100

接下來我們就來具體看看,相較於 H100,H200 的性能提升到底體現在哪些地方。

△ H200的相關參數

性能計算

H200 具備超過 460 萬億次的浮點運算能力,可支持大規模的AI模型訓練和複雜計算任務。HGX H200採用了NVIDIA NVLink 和 NVSwitch 高速互連技術,爲各種應用工作負載提供最高性能,包括對超過 1750 億個參數的最大模型進行的 LLM 訓練和推理。藉助 HBM3e 技術的支持,H200 能夠顯著提升性能。

在 HBM3e 的加持下,H200 能夠將 Llama-70B 推理性能提升近兩倍,並將運行 GPT3-175B 模型的性能提高了60%。對於具有 700 億參數的 Llama 2 大模型,H200 的推理速度比 H100 快一倍,並且推理能耗降低了一半。此外,H200 在 Llama 2 和 GPT-3.5 大模型上的輸出速度分別是 H100 的 1.9 倍和 1.6 倍。

高速內存

NVIDIA 的 H200 芯片支持高達 48GB 的 GDDR6X 內存,其內存帶寬可達 936GB/s,有效提高了數據傳輸速度並降低了延遲。同時,藉助 HBM3e技術,NVIDIA H200 每秒可以提供 4.8TB 的內存容量和 141GB的內存帶寬。對比 H100 的 SXM 版本,顯存從 80GB 提升 76%,帶寬從每秒 3.35TB 提升了 43%。

內存帶寬對於高性能計算(HPC)應用程序非常重要,因爲它可以實現更快的數據傳輸,減少複雜處理過程中的瓶頸。對於模擬、科學研究和人工智能等內存密集型HPC應用,H200的更高內存帶寬可以確保高效地訪問和操作數據。與傳統的CPU相比,使用 H200 芯片可以將獲取結果的時間加速多達 110 倍。

硬件加速

H200 是一款內置了強大的 AI 加速器的芯片,它能顯著提高神經網絡的訓練和推理速度。該芯片採用了先進的 7 納米制程工藝,擁有超過 1000 億個晶體管,整個芯片的面積達到 1526 平方毫米。

NVIDIA H200 芯片將應用於具有四路和八路配置的 NVIDIA HGX H200 服務器主板,這些主板與 HGX H100 系統的硬件和軟件兼容。H200 芯片還可用於採用 HBM3e 內存的 NVIDIA GH200 Grace Hopper 超級芯片。八路配置的 HGX H200 主板提供超過 32 petaflops 的 FP8 深度學習計算能力和 1.1TB 的聚合高帶寬內存。

能源效率

H200 芯片採用先進的散熱技術,以確保在高性能計算的同時保持較低的功耗。這使得 H200 在功耗配置與 H100 相當。

訓練能力

在之前用於評估 AI 芯片性能的一個重要指標——訓練能力方面,H200 並沒有明顯的提升。根據英偉達提供的數據,對於 GPT-3 175B 大模型的訓練任務而言,H200 只比 H100 強 10%。

H200 和 H100 芯片都基於英偉達的 Hopper 架構開發,因此這兩款芯片是相互兼容的。對於已經使用 H100 的企業來說,無需進行任何調整,可以直接進行更換。此外,就峯值算力而言,H100 和 H200 實際上是相同的,它們的 FP64 矢量計算能力爲 33.5TFlops,FP64 張量計算能力爲 66.9TFlops,提升的參數主要是顯存容量和內存帶寬。

聊了這麼多,相信大家對英偉達新推出的 H200 有了一定了解。近期,又拍雲與厚德雲聯合推出了全新的 GPU 產品,新用戶註冊即可免費體驗 RTX4090 GPU。您可以通過一鍵搭建 CUDA、Stable Diffusion 等開發環境,輕鬆快捷地體驗強大的 GPU 算力,有興趣的同學趕緊來體驗下吧。

傳送門:https://www.houdeyun.cn/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章