NVIDIA RTX4090，你能用它做什麼？

都說男生是世界上最簡單的動物，爲什麼呢？舉個例子，你要給女朋友送禮，你可以選擇包、口紅、護膚品、化妝品等，而包的品牌和樣式、口紅的色號等足以讓你挑得眼花繚亂。而男生不一樣，如果女生選擇給男生送禮，我相信一塊 RTX4090 就足以讓他高興得死去活來。

RTX4090 到底是何方神聖？它憑什麼贏得所有男生的“芳心”？

瞭解GTX4090

我們先來看下 NVIDIA 官方對 RTX4090 的介紹。

The NVIDIA® GeForce RTX™ 4090 is the ultimate GeForce GPU. It brings an enormous leap in performance, efficiency, and AI-powered graphics. Experience ultra-high performance gaming, incredibly detailed virtual worlds, unprecedented productivity, and new ways to create. It’s powered by the NVIDIA Ada Lovelace architecture and comes with 24 GB of G6X memory to deliver the ultimate experience for gamers and creators.

RTX4090 是終極的 GeForce GPU。它帶來了性能、效率和人工智能驅動的圖形方面的巨大飛躍，體驗超高性能的遊戲、極其詳細的虛擬世界、前所未有的生產力和新的創作方式。它採用 NVIDIA Ada Lovelace 架構，並配備 24 GB G6X 顯示內存，爲遊戲玩家和創作者提供終極體驗。

RTX4090 採用的是 AD102 核心，擁有 11 組共 16384 個流處理器、512 個 Tensor Core、176 個 RT Core 和 176 個流處理器單元。RTX4090 採用了 NVIDIA Ada Lovelace 架構，致力於打造出色的遊戲與創作、專業圖形、AI 和計算性能，採用了新型 SM 多單元流處理器、第四代 Tensor Core、第三代 RT core 等多種新技術。

第四代Tensor Core

NVIDIA DLSS 3 是 AI 驅動圖形領域的革命性突破，可大幅提升性能。DLSS 3 由 GeForce RTX40 系列 GPU 所搭載的全新第四代 Tensor Core 和光流加速器提供支持，可利用 AI 創造更多高質量幀。

另外，憑藉全新的 FP8 Transformer 引擎，Ada 的全新第四代 Tensor Core 擁有不可思議的飛快速度，可將吞吐量提升 4 倍，達到 1.4 Tensor-petaFLOPS。

第三代RT Core

NVIDIA 發明的 RT Core 在視頻遊戲中實現了實時光線追蹤。這種搭載在 GPU 上的特殊核心專爲處理性能需求密集的光線追蹤工作負載而設計。

Ada 架構採用的第 3 代 RT Core 不僅將光線與三角形求交性能提高了一倍，還將 RT-TFLOP 峯值性能提高了一倍之多。

新款 RT Core 還配備全新 Opacity Micromap (OMM) 引擎和 Displaced Micro-Mesh (DMM) 引擎。OMM 引擎可大幅提升對 alpha 測試紋理進行光線追蹤的速度，此類紋理通常應用於樹葉、顆粒和圍欄。DMM 引擎能夠以近乎 9 倍的速度構建光線追蹤邊界體積層次結構 (BVH)，而所佔用的顯存只有之前的二十分之一。從而實現幾何複雜場景的實時光線追蹤。

RTX4090的應用場景

RTX4090 這麼強，主要應用在哪些方面呢？

遊戲

首先毫無疑問是在遊戲方面的應用。RTX4090 是能駕馭各種遊戲的硬核 GPU，擁有驚人的性能和超大 24GB G6X 顯存，能以 8K 分辨率輕鬆運行多款熱門遊戲，支持 HDMI 2.1 所提供的 8K 60Hz HDR 和可變刷新率功能。你可以藉助 RTX4090 強大的能力，在 8k 分辨率的 HDR 模式下，可以盡情體驗遊戲大作，盡享視覺盛宴。這也是爲什麼 RTX4090 是大部分男生的夢想。

相較於 RTX 3090，RTX4090 的性能基本上能達到它的兩倍。當然，相應的功耗也大了不少，比 3090 高出了將近100W。下圖是 RTX4090 和 RTX3090Ti 在各個遊戲中的性能對比，大家可以看到 RTX4090 的表現是相當亮眼的。

△ RTX4090 vs RTX3090Ti 性能對比

AI繪畫

Stable Diffusion 是我們常用的 AI 繪畫軟件，Stable Diffusion 是支持使用 CPU 或 GPU 來完成 AI 繪畫。而在 AI 繪畫中，RTX4090 展現出它在目前消費級顯卡中最強的 AIGC 性能，處理速度要比次頂級的RTX 4080強上約 30%，相較於 RTX3090 Ti 也有接近 2 倍的性能提升。

說到 AI 繪畫，也順便提一下前面已經說過的 NVIDIA DLSS（深度學習超級採樣）。DLSS 是一種神經圖形技術，它使用 AI 來提高性能，創建全新的幀，通過圖像重建顯示更高分辨率，並提高密集光線追蹤內容的圖像質量，同時提供最佳的一流的圖像質量和響應能力，其實這也是一種 AIGC。DLSS 在部分遊戲中已經支持，如今一些創作軟件也有利用 DLSS 技術來做加速。這對 GPU 的性能要求很高，即使是上一代最強的 RTX3090 Ti 都難以實現，但新一代 RTX 40 系顯卡的 DLSS 3 技術加入幀生成技術，使得單張顯卡也都可以進行一些中輕度的創作。

深度學習推理

在大模型的訓練階段，RTX4090 是不行的。爲什麼這麼說呢？RTX4090 雖然算力強，性價比也高，但是不支持 NVLink，這就成爲了 RTX4090 不能成爲大模型訓練的主要原因。當然，相較於 A100 40GB、80GB的大顯存，RTX4090 只有 24GB 的顯存，也顯得相對弱了不少。於大模型訓練而言，A100 相較於 RTX4090，並不是因爲單卡性能強了多少，而是在於拓展性、服務、顯存這些方面的優勢。

RTX4090 不適用於大模型訓練，爲什麼卻可以用於深度學習推理呢？我們來了解下推理和訓練有什麼區別。

深度學習推理是指在已經完成訓練的深度學習模型上進行實際應用和預測的過程。在深度學習中，模型的訓練階段是爲了調整模型的參數和權重，以使其能夠準確地對訓練數據進行分類、預測或生成。一旦深度學習模型完成訓練，它就可以用於推理階段，即對新的輸入數據進行處理和預測。

在訓練階段，GPU 不僅需要存儲模型參數，還需要存儲梯度、優化器狀態、正向傳播每一層的中間狀態（activation）。訓練任務是一個整體，流水線並行的正向傳播中間結果是需要存下來給反向傳播用的。爲了節約內存而使用流水線並行，流水級越多，要存儲的中間狀態也就更多。

而在推理階段，模型將接收輸入數據，並通過前向傳播算法計算輸出結果。這個過程不涉及參數的更新或反向傳播的計算，而是利用模型已經學到的知識來進行預測。推理任務中的各個輸入數據之間並沒有關係，因此流水線並行不需要存儲很多中間狀態。

0元體驗RTX4090

在瞭解 RTX4090 的強大後，你可能在爲沒辦法體驗到它而感到遺憾。那麼我偷偷告訴你，又拍雲聯合厚德雲推出 RTX4090 GPU，新用戶完成註冊即可 0 元體驗。你只要完成下面 3 個步驟即可：

1. 創建厚德雲賬號並完成實名認證；

2. 領取體驗金

登錄厚德雲後在 GPU 中選擇 NVIDIA 4090，點擊免費體驗，按步驟領取體驗金即可。

3. 開啓體驗之旅

領取體驗金後即可創建 4090 雲主機，點擊免費體驗，選擇鏡像，鏡像根據需要進行選擇，比如 “image-gpu-sd_webui_20231018” 已經預裝了 stable Diffusion，然後點擊立即下單即可，體驗金會抵扣掉下單金額哦。

下單後等待創建，顯示運行中就可以使用啦。

NVIDIA RTX4090，你能用它做什麼？

瞭解GTX4090

第四代Tensor Core

第三代RT Core

RTX4090的應用場景

遊戲

AI繪畫

深度學習推理

0元體驗RTX4090

3 分鐘瞭解 NVIDIA 新出的 H200

深入瞭解浮點運算——CPU 和 GPU 算力是如何計算的

加速計算，爲何會成爲 AI 時代的計算力“新寵”

NVIDIA RTX4090，你能用它做什麼？

3 分鐘看完 NVIDIA GPU 架構及演進

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結