牽手大企，關於圖形計算、HPC與AI，NVIDIA言有盡而意無窮！

在黃仁勳看來，隨着摩爾定律消亡，GPU加速纔是撬動未來高性能計算髮展的有力槓桿。有數據顯示，目前NVIDIA已經銷售了超過15億塊GPU，而這些GPU由於採用了同一架構，均能兼容CUDA。

不僅僅如此，身着經典皮衣的黃教主更認爲硬件的“登峯造極”不僅僅侷限於芯片，只有軟件得到相應性能的完整優化，未來的多GPU才能彰顯最出色的處理能力。基於此，NVIDIA在CUDA平臺上配置了相當豐富的軟件庫，並且選擇在去年一整年推出了超過500個相應的SDK以及庫來不斷改進NVIDIA的軟件棧。有數據顯示，通過這些專門的SKU，NVIDIA的產品在過去三年的深度學習性能提升了4倍，而深度學習推理性能也相應提升了2倍。列舉如此多樣的軟件升級，要說目前實在硬核的NVIDIA軟件創新，當屬最新一代推理軟件開發套件NVIDIA TensorRT 7編譯器的推出。

晶少了解到，TensorRT作爲一種計算圖優化編譯器能夠優化推理實現實時AI會話，將TensorFlow的輸出結果進行優化，簡單理解位可以高效尋找計算途中可以融合的節點，從而減少計算和內容的訪問來進行CUDA碼的優化，值得提及的是可以運行在任何GPU上。

“去年我們在中國發布了TensorRT 5，可以處理CNN，而且是在圖形的同一層將邊緣與節點融合；此外還支持自動檢測以及自動低精度推理，將FP32模型轉換成FP16或INT8模型，準確率保障的同時降低能耗。”對比TensorRT 5，如今TensorRT 7能夠支持1000多種不同計算變換和變化，藉助於該軟件，全球各地的開發者都可以實現會話式AI應用，大幅減少推理延遲。而此前不容忽視的一點，巨大的推理延遲一直都是實現真正交互式互動的很大阻礙。

具體來說，TensorRT 7內置新型深度學習編譯器，能夠自動優化和加速遞歸神經網絡與基於轉換器的神經網絡，而這些日益複雜的神經網絡是AI語音應用所必需的。與在CPU上運行時相比，會話式AI組件速度提高了10倍以上，從而將延遲降低到實時交互所需的300毫秒閾值以下。除了支持CNN，TensorRT 7也支持RNN、Transformer等自動實現。對於所有RNN定製的內核甚至可以進行多個時間場景融合，在整個處理的工作流中，在不同的時間點來進行所需要的內存，以及處理工作量。

除了技術上的“高屋建瓴”之外，TensorRT 7.0還能輕鬆“搞定”會話式AI。黃仁勳對此表示：“我們已經進入了一個機器可以實時理解人類語言的AI新時代。TensorRT 7使這成爲可能，爲世界各地的開發者提供工具，使他們能夠構建和部署更快、更智能的會話式AI服務，從而實現更自然的AI人機交互。”

關於此NVIDIA 負責TensorRT產品市場的Siddarth Sharma總結道：“實際上，NVIDIA着手會話式AI的技術加速工作已經有好幾個月的時間了。最初的版本只涵蓋了會話式AI中的一部分，也就是語言理解部分。通常這個攻克的過程需要三個部分：將識別的語音轉化成文字，理解的基礎上再轉化爲語音播出。隨着我們不斷髮布新版本，TensorRT 7基本上可以完成整個三流程的計算，即從語音識別到語義理解再到語音輸出。”

據晶少了解，其實會話式AI是技術難度很高的領域，想要完全攻克併爲之所用就需做到要在300毫秒內將三個部分智能並完整達成，在這個過程中有很多的複雜模型被計算，所以Tensor RT也在不斷完善以保證覆蓋整個流程。

據悉，目前全球很多體量較大並極具創新的企業都已經使用了NVIDIA的會話式AI加速功能。在首批使用NVIDIA會話式AI加速能力的企業中，我們發現了阿里巴巴、百度、滴滴出行、美團、快手、平安、搜狗、騰訊和字節跳動等企業。搜狗首席技術官楊洪濤表示：“搜狗每天通過輸入法、AI硬件、搜索等產品爲數億用戶提供語音、圖像、翻譯、對話以及問答等優質的AI服務，我們使用NVIDIA TensorRT推理平臺實現線上實時快速的服務響應，領先的AI能力顯著提升了我們的用戶體驗。”

此外在深度推薦系統應用方面，百度AIBox推薦系統以及阿里巴巴推薦系統均藉助NVIDIA 的AI平臺實現計算加速。值得一提，在今年“雙11”期間，英偉達GPU爲阿里巴巴推薦模型提供加速，實現了每秒處理780個查詢，遠高於CPU的3個。“在阿里巴巴的服務器上，一個‘雙十一’活動，每秒需要處理數十億次的推薦，使用GPU驅動的推薦系統，吞吐量（通量）可以比CPU提升上百倍。”同樣在雲方向，滴滴還將基於NVIDIA 技術建設人工智能基礎架構，並適時推出不同型態的vGP雲U服務器，其中包括計算型、渲染型和遊戲型等。

“其實計算是一個非常重要的方式，而且可見情況下增長勢頭非常迅猛。目前我們的計算平臺與全球很多雲服務提供商都進行了合作，例如AWS、Azure、谷歌雲等，其中還包括國內的百度、滴滴、阿里雲平臺等，所以我們在開發下一代產品時在開發者領域以及企業級方向，都很重視自身產品的技術質量。”NVIDIA 加速計算產品管理總監Paresh Kharya說。

可以肯定的一點，如今通過TensorRT的新型深度學習編譯器，全球各地的開發者能夠將這些網絡（例如定製的自動語音識別網絡以及用於文本-語音轉換的WaveRNN和Tacotron 2）實現自動化，並實現最佳的性能和最低的延遲。很重要的一點，TensorRT 7可以快速優化、驗證並部署經過訓練的神經網絡，還爲超大型數據中心、嵌入式或汽車GPU平臺提供推理能力，目前TensorRT 7.0現在已經可被使用。

就在一月之前的丹佛2019全球超級計算大會(SC19)上，NVIDIA剛剛發佈了一款參考設計平臺，使企業能夠快速構建GPU加速的ARM服務器。在本次GTC大會上，相關問題再次被提及，黃仁勳提出：“此舉是爲了讓GPU能夠像支持x86平臺一樣支持ARM平臺。”

衆所周知，ARM是世界上最爲普及的CPU，世界上約95%的定製SOC都是基於ARM，也被稱之爲最可編配置的CPU。據瞭解在全球範圍內，共有1500億臺設備基於ARM架構，之所以如此成功，歸根結底是開放性使然，例如各種各樣的功能，包括互聯、內存、CPU內核、計算能力，包括多元化在內的支持，都使ARM成爲現如今世界上非常重要的架構之一，給予用戶更多選擇。對此晶少觀察到，其實很多行業企業都在打造基於ARM的服務，原因或許在於傳統HPC高性能計算確實需要高效能的產出，另一方面確實整個世界都在擁抱雲，而ARM確實與超大規模應用堪爲“天生一對”。

“我們通過將CUDA平臺和ARM架構進行兼容，在整個加速計算領域，無論是AI、高性能計算等，都可以給到客戶更多選擇。之所以有這麼大的性能提升，不僅是在架構上進行了設計，更重要的是我們通過軟件的方式使得性能進一步提升。有數據顯示，僅僅通過軟件就使得AI計算性能在兩年之間提升了4倍，所以軟件對加速計算的性能提升非常重要，未來我們會繼續在醫療領域Clara平臺，應用在自動駕駛領域的Drive以及機器人方向的Isaac等各個平臺上對軟件進行完善以提升性能。”

具體來說，通過PCI Express爲ARM提供與X86平臺同等的支持，輕鬆針對ARM進行CUDA編譯；而且CUDA本身擁有一個諸多開發人員構成的龐大生態系統，當支持ARM時候，這些開發人員也開始支持ARM。不容忽視的一點，基於對ARM平臺的支持，超級計算中心、超大型雲運營商和企業能夠將其加速計算平臺的優勢與最新的ARM服務器平臺相結合，高效滿足高性能計算(HPC)社區對於類型更加多樣化的CPU架構日益增長的需求。

另外在今年的GTC的大會上，NVIDIA按照慣例爆出了未來計算機圖形的技術，即實時光線追蹤NVIDIA GeForce RTX的最新進展。

RTX可以用更爲自然的方式模擬光線、反射等，讓現代計算機圖形技術變得更加有魅力，而NVIDIA在最新的圖靈架構中正是搭載了這項技術，實現對於現實光照的完美還原並帶來逼真的遊戲環境。會上，NVIDIA演示了擁有3億多玩家的《我的世界》的光追版本，開啓RTX之後《我的世界》營造了一個真實的遊戲世界；還官宣包括《邊境》、《鈴蘭計劃》、《暗影火炬》、Project X、《無限法則》以及《軒轅劍柒》等六款遊戲將會支持光線追蹤。

“NVIDIA處在圖形、HPC和AI的交匯領域。”這或許是對本次GTC黑科技的最簡潔直觀的詮釋。

牽手大企，關於圖形計算、HPC與AI，NVIDIA言有盡而意無窮！

NETCore中實現一個輕量無負擔的極簡任務調度ScheduleTask

docker使用特定的網絡

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

容器中nginx無法使用同一個網絡下的容器域名

避免DbContext同時在多個線程調用

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（二）使用kube-vip實現集羣VIP訪問

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（三）數據卷掛載NFS（網絡文件系統）

中國軟件產業年會發佈會在京盛大舉行！

TPC-C中跑贏Oracle的OceanBase，最近有何驚豔？

超越，由此開啓——2019甲骨文雲大會在上海盛大開幕！

華爲雲TaurusDB計算存儲分離架構：讓數據“身”分離，“心”凝聚

OpenStack非但沒涼，革新U版本竟燃起來，原來還有TA的功勞？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結