文章目錄

1. 開場

4. 推薦系統

1. 開場

1.1 NVIDIA COVID-19

主要應用有：

7小時輔助完成基因測序；
全美新冠感染率實時分析；
每天篩查十億個藥物化合物，而以前需要一年；
重建新冠病毒刺突蛋白結構；
新冠病毒分類；
遞送醫療物資的機器人；
自動檢測和篩查體溫系統。

1.2 NVIDIA & Mellanox

未來計算三大構成：

CPU負責通用計算；
GPU負責加速計算；
DPU負責數據中心的數據傳輸與處理。

1.3 NVIDIA SDK

CUDA：所有產品都與該架構兼容，CUDA11做到了向下向上的兼容；
CUDA-X：包括加速運算庫、線性幾何庫、信號處理庫、圖分析庫；TensorRT（深度學習網絡編譯和優化器）
面向市場及專業領域的庫：

1）RTX：用於光線追蹤；
2）HPC：用於高性能計算；
3）RAPIDS：用於數據分析；
4）AI：用於人工智障；
5）Clara：用於醫療健康和生命科學；
6）Metropolis：用於視頻分析及流媒體視頻平臺；
7）DRIVE：用於自動駕駛；
8）ISSAC：用於機器人；
9）AERIAL 5G：用於最新的5G 虛擬RAN處理庫；

目前NVIDIA平臺的開發者已經超過180萬。

2. RTX

（略）

3. 高性能計算和數據分析（Spark3.0）

3.1 加速計算四個支柱

GPU：高性能的GPU；
堆棧：每個計算領域的加速計算軟件堆棧；
系統
開發者

由於數據量猛增，機器學習正在變得困難，特徵工程和數據處理對硬件提出了新的要求。先前Spark通過調用服務器集羣實現數據集的運算分發，但是CPU的緩存通常在幾十MB，對於如今動輒數百TB的數據，協調CPU服務器的開銷成了其最大的瓶頸。NVIDIA推出了使用GPU加速的數據處理堆棧，可以實現GB級別的數據運算分發。【下一代Spark3.0將使用NVIDIA加速！】

3.2 Spark3.0性能突破的關鍵技術

GPU Driect加速存儲和IUCX框架：NVIDIA和Mellanox共同推出的GPU Driect加速存儲和IUCX框架，使得IO、存儲以及多節點的加速運算成爲可能。
Spark調度器：其可以識別出GPU和CPU，將任務分發到GPU上，並進行分佈式調度，實現該架構的大量計算。
RAPIDS庫：可以提取數據，創建DataFrame，做特徵工程，SQL查詢，截取Spark調用，並使用GPU加速這些調用。
Catalyst：Spark SQL加速器，並針對NVIDIA GPU做了優化。

the more you buy，the more you save？？？我歲數小，你別騙我！每年double 11和618，兩位爸爸也這麼說。

3.3 DL端到端加速框架組成

RAPIDS：處理數據；
cuDNN：深度學習和人工智能核心庫；
TensorRT：用於優化從訓練框架生成的計算圖；

我對此無比自豪，目前省錢力度還不夠，我們還將致力於爲你們省錢！

快結束了，秀秀肌肉，看看哪些企業省錢了：

一個個都是不差錢的主~

4. 推薦系統

推薦系統是機器學習算法部署流程中最重要和最複雜的流程之一。創建推薦系統非常複雜，但是可以爲用戶省錢，真的省錢，推薦得越精準越省錢。花唄額度越來越高，錢包越來越扁，買一堆沒用的，也不知道省哪裏去了，反正你告訴我省了就是省了。

4.1 推薦系統組成

推薦算法有兩種協同過濾和內容過濾。

協同過濾：試圖從相似的其他用戶的交互中預測用戶的偏好。
內容過濾：視圖基於相似的項目，來預測哪些項目更受人喜愛。

推薦系統的第一個階段包括：獲取用戶和項目的高維信息，並將其編碼爲低維向量。在此過程中，計算用戶與其他用戶，以及項目和其它項目之間的相似性，將高維度的信息轉化爲低維度的向量，這個過程稱爲Embedding，這是一個計算密集型的過程。提醒你該省錢了。這些Embedding被推薦系統用來學習如何預測用戶的偏好；當新用戶註冊，並使用某個項目（歌曲、電影等等）時，爲其推薦。在這個過程中，將會從數十億的數據中，產生上千個候選項，已經學習到特定用戶偏好的神經網絡會對這些候選項進行排序，以提供下一個偏好項目的排序列表。這也是爲啥你在b站（是不是b你心裏清楚，油膩）看視頻，播放結束後，推薦的視頻與剛纔觀看的視頻相似的原因；歌曲、圖書、購物APP同樣的道理，包括你此時從CSDN APP推薦頁看到這篇文章。基於用戶交互和查詢來預測用戶的偏好的能力是互聯網如此個性化的重要原因之一。

對於公司而言，推薦系統可以將銷售和營銷自動化；對於醫療衛生行業，它可以長期推薦治療方法；對於每個行業，它都至關重要，無論是客戶，供應鏈，還是客戶服務，呼救系統將在後臺使用推薦系統，推薦解決方案和自救方法。推薦系統是互聯網的基礎，也是各大廠商努力的目標，然而構建推薦系統非常複雜。省錢小貼士開始了，NVIDIA專注於簡化構建推薦系統的複雜度，將其放到一個框架之下，從而將其普及到各個行業，這就是傳說中看不見的手？現在已經做好了，稱之爲【NVIDIA Merlin】。

4.2 NVIDIA Merlin

NVIDIA Merlin 是一個深度學習算法框架，僅需要幾行代碼就可以對幾百TB的數據進行加載、提取、轉換。並且容易部署，其應用流程如下：

通過該框架，原來花幾天的錢，現在幾分鐘就能花完，是不是幫你省下了幾天花錢的時間，太賺了。

5. 對話式AI

推理是機器學習算法流程中的最後一個階段，即將訓練好的模型部署到生產環境中。機器學習的工作流和框架產生的是非常複雜的計算圖，將這些計算圖和種類繁多的神經網絡編譯到目標服務器中是非常複雜的工作。NVIDIA 創建了一個優化編譯框架 TensorRT，現在是7.0版，本，目前已經可以處理RNN模型。全球前300強的互聯網公司都在其服務器中部署了NVIDIA GPU，我充的QB，開的各種紅橙黃綠青藍紫鑽也做了貢獻。其中可以實現的最主要的應用就是對話式AI。

對話式AI是最重要的推理任務之一，因爲其對交互性能要求很高，構建對話式AI的工作流中的各元素，最近取得了突破性的進展。對於低延時對話式AI來說則要求更高，因爲其應用了業界最先進的算法和處理流程，所以訓練這些模型需要大量的計算資源，並且能夠在端到端的框架中將這些模型融合起來。之前業界沒有人做，今天NVIDIA 推出了【Jarvis】，可以創建交互式3D對話機器人，使得這種完整的體驗成爲可能的AI模型，就是我們所說的語音生成表情，它需要音頻輸入，並且已經學會如何描繪網格物體動畫，以及講話時的動畫表情，並創建一個交互式機器人。下面是NVIDIA創建的一個Demo–Misty：

要實現上述3D AI交互式機器人，需要實現自然語言處理，文本到語音的轉換，合成並渲染圖形

Jarvis是一個多模態對話式AI服務框架，可以簡化對話式AI的創建和開發。它包括先進的模型，這些模型已經預先上傳至Helms chart中，這些圖表經過優化，運行在NVIDIA Triton以及GPU上，並且其性能是交互式的，整個端到端模型的流程僅需要幾百毫秒。同時Jarvis還包括許多預訓練的先進模型，這些最先進的模型經過大量的數據訓練，在NVIDIA GPU CLOUD中經過數十萬小時的訓練，如果使用一臺DGX需要訓練10到20年。它自帶一個工具NeMo，採用預訓練好的模型，並使用自定義的數據優化模型，由於數據可能來自特定領域，例如醫療、保險或金融服務等，這些領域的專業詞彙，特定的語言都是Jarvis需要學習的，使用NeMo工具在Jarvis中來對自定義的數據進行反覆訓練。

6. NVIDIA A100 GPU、HGX A100 和 DGX A100

（略）

7. 邊緣AI與機器人

（略）

8. 自動駕駛

自動駕駛汽車是最大的計算挑戰之一，也是最具影響力的挑戰之一，更是世界上最大的產業之一，每年汽車行駛10萬億英里，實現端到端的各類車輛自動駕駛是業內研究的熱門領域。NVIDIA推出了端到端的自動駕駛框架DRIVE。

合作伙伴（省錢夥伴）：

Video Online：https://investor.nvidia.com/events-and-presentations/events-and-presentations/event-details/2020/GTC-2020-Keynote/default.aspx
Keynote download：https://investor.nvidia.com/events-and-presentations/events-and-presentations/event-details/2020/GTC-2020-Keynote/default.aspx

瞭解行業動向，NVIDIA GTC 2020 總結