牽手大企,關於圖形計算、HPC與AI,NVIDIA言有盡而意無窮!

在黃仁勳看來,隨着摩爾定律消亡,GPU加速纔是撬動未來高性能計算髮展的有力槓桿。有數據顯示,目前NVIDIA已經銷售了超過15億塊GPU,而這些GPU由於採用了同一架構,均能兼容CUDA。

不僅僅如此,身着經典皮衣的黃教主更認爲硬件的“登峯造極”不僅僅侷限於芯片,只有軟件得到相應性能的完整優化,未來的多GPU才能彰顯最出色的處理能力。基於此,NVIDIA在CUDA平臺上配置了相當豐富的軟件庫,並且選擇在去年一整年推出了超過500個相應的SDK以及庫來不斷改進NVIDIA的軟件棧。有數據顯示,通過這些專門的SKU,NVIDIA的產品在過去三年的深度學習性能提升了4倍,而深度學習推理性能也相應提升了2倍。列舉如此多樣的軟件升級,要說目前實在硬核的NVIDIA軟件創新,當屬最新一代推理軟件開發套件NVIDIA TensorRT 7編譯器的推出。

晶少了解到,TensorRT作爲一種計算圖優化編譯器能夠優化推理實現實時AI會話,將TensorFlow的輸出結果進行優化,簡單理解位可以高效尋找計算途中可以融合的節點,從而減少計算和內容的訪問來進行CUDA碼的優化,值得提及的是可以運行在任何GPU上。

“去年我們在中國發布了TensorRT 5,可以處理CNN,而且是在圖形的同一層將邊緣與節點融合;此外還支持自動檢測以及自動低精度推理,將FP32模型轉換成FP16或INT8模型,準確率保障的同時降低能耗。”對比TensorRT 5,如今TensorRT 7能夠支持1000多種不同計算變換和變化,藉助於該軟件,全球各地的開發者都可以實現會話式AI應用,大幅減少推理延遲。而此前不容忽視的一點,巨大的推理延遲一直都是實現真正交互式互動的很大阻礙。

具體來說,TensorRT 7內置新型深度學習編譯器,能夠自動優化和加速遞歸神經網絡與基於轉換器的神經網絡,而這些日益複雜的神經網絡是AI語音應用所必需的。與在CPU上運行時相比,會話式AI組件速度提高了10倍以上,從而將延遲降低到實時交互所需的300毫秒閾值以下。除了支持CNN,TensorRT 7也支持RNN、Transformer等自動實現。對於所有RNN定製的內核甚至可以進行多個時間場景融合,在整個處理的工作流中,在不同的時間點來進行所需要的內存,以及處理工作量。

除了技術上的“高屋建瓴”之外,TensorRT 7.0還能輕鬆“搞定”會話式AI。黃仁勳對此表示:“我們已經進入了一個機器可以實時理解人類語言的AI新時代。TensorRT 7使這成爲可能,爲世界各地的開發者提供工具,使他們能夠構建和部署更快、更智能的會話式AI服務,從而實現更自然的AI人機交互。”

關於此NVIDIA 負責TensorRT產品市場的Siddarth Sharma總結道:“實際上,NVIDIA着手會話式AI的技術加速工作已經有好幾個月的時間了。最初的版本只涵蓋了會話式AI中的一部分,也就是語言理解部分。通常這個攻克的過程需要三個部分:將識別的語音轉化成文字,理解的基礎上再轉化爲語音播出。隨着我們不斷髮布新版本,TensorRT 7基本上可以完成整個三流程的計算,即從語音識別到語義理解再到語音輸出。”

據晶少了解,其實會話式AI是技術難度很高的領域,想要完全攻克併爲之所用就需做到要在300毫秒內將三個部分智能並完整達成,在這個過程中有很多的複雜模型被計算,所以Tensor RT也在不斷完善以保證覆蓋整個流程。

據悉,目前全球很多體量較大並極具創新的企業都已經使用了NVIDIA的會話式AI加速功能。在首批使用NVIDIA會話式AI加速能力的企業中,我們發現了阿里巴巴、百度、滴滴出行、美團、快手、平安、搜狗、騰訊和字節跳動等企業。搜狗首席技術官楊洪濤表示:“搜狗每天通過輸入法、AI硬件、搜索等產品爲數億用戶提供語音、圖像、翻譯、對話以及問答等優質的AI服務,我們使用NVIDIA TensorRT推理平臺實現線上實時快速的服務響應,領先的AI能力顯著提升了我們的用戶體驗。”

此外在深度推薦系統應用方面,百度AIBox推薦系統以及阿里巴巴推薦系統均藉助NVIDIA 的AI平臺實現計算加速。值得一提,在今年“雙11”期間,英偉達GPU爲阿里巴巴推薦模型提供加速,實現了每秒處理780個查詢,遠高於CPU的3個。“在阿里巴巴的服務器上,一個‘雙十一’活動,每秒需要處理數十億次的推薦,使用GPU驅動的推薦系統,吞吐量(通量)可以比CPU提升上百倍。”同樣在雲方向,滴滴還將基於NVIDIA 技術建設人工智能基礎架構,並適時推出不同型態的vGP雲U服務器,其中包括計算型、渲染型和遊戲型等。

“其實計算是一個非常重要的方式,而且可見情況下增長勢頭非常迅猛。目前我們的計算平臺與全球很多雲服務提供商都進行了合作,例如AWS、Azure、谷歌雲等,其中還包括國內的百度、滴滴、阿里雲平臺等,所以我們在開發下一代產品時在開發者領域以及企業級方向,都很重視自身產品的技術質量。”NVIDIA 加速計算產品管理總監Paresh Kharya說。

可以肯定的一點,如今通過TensorRT的新型深度學習編譯器,全球各地的開發者能夠將這些網絡(例如定製的自動語音識別網絡以及用於文本-語音轉換的WaveRNN和Tacotron 2)實現自動化,並實現最佳的性能和最低的延遲。很重要的一點,TensorRT 7可以快速優化、驗證並部署經過訓練的神經網絡,還爲超大型數據中心、嵌入式或汽車GPU平臺提供推理能力,目前TensorRT 7.0現在已經可被使用。

就在一月之前的丹佛2019全球超級計算大會(SC19)上,NVIDIA剛剛發佈了一款參考設計平臺,使企業能夠快速構建GPU加速的ARM服務器。在本次GTC大會,相關問題再次被提及,黃仁勳提出:“此舉是爲了讓GPU能夠像支持x86平臺一樣支持ARM平臺。”

衆所周知,ARM是世界上最爲普及的CPU,世界上約95%的定製SOC都是基於ARM,也被稱之爲最可編配置的CPU。據瞭解在全球範圍內,共有1500億臺設備基於ARM架構,之所以如此成功,歸根結底是開放性使然,例如各種各樣的功能,包括互聯、內存、CPU內核、計算能力,包括多元化在內的支持,都使ARM成爲現如今世界上非常重要的架構之一,給予用戶更多選擇。對此晶少觀察到,其實很多行業企業都在打造基於ARM的服務,原因或許在於傳統HPC高性能計算確實需要高效能的產出,另一方面確實整個世界都在擁抱雲,而ARM確實與超大規模應用堪爲“天生一對”。

“我們通過將CUDA平臺和ARM架構進行兼容,在整個加速計算領域,無論是AI、高性能計算等,都可以給到客戶更多選擇。之所以有這麼大的性能提升,不僅是在架構上進行了設計,更重要的是我們通過軟件的方式使得性能進一步提升。有數據顯示,僅僅通過軟件就使得AI計算性能在兩年之間提升了4倍,所以軟件對加速計算的性能提升非常重要,未來我們會繼續在醫療領域Clara平臺,應用在自動駕駛領域的Drive以及機器人方向的Isaac等各個平臺上對軟件進行完善以提升性能。”

具體來說,通過PCI Express爲ARM提供與X86平臺同等的支持,輕鬆針對ARM進行CUDA編譯;而且CUDA本身擁有一個諸多開發人員構成的龐大生態系統,當支持ARM時候,這些開發人員也開始支持ARM。不容忽視的一點,基於對ARM平臺的支持,超級計算中心、超大型雲運營商和企業能夠將其加速計算平臺的優勢與最新的ARM服務器平臺相結合,高效滿足高性能計算(HPC)社區對於類型更加多樣化的CPU架構日益增長的需求。

另外在今年的GTC的大會上,NVIDIA按照慣例爆出了未來計算機圖形的技術,即實時光線追蹤NVIDIA GeForce RTX的最新進展。

RTX可以用更爲自然的方式模擬光線、反射等,讓現代計算機圖形技術變得更加有魅力,而NVIDIA在最新的圖靈架構中正是搭載了這項技術,實現對於現實光照的完美還原並帶來逼真的遊戲環境。會上,NVIDIA演示了擁有3億多玩家的《我的世界》的光追版本,開啓RTX之後《我的世界》營造了一個真實的遊戲世界;還官宣包括《邊境》、《鈴蘭計劃》、《暗影火炬》、Project X、《無限法則》以及《軒轅劍柒》等六款遊戲將會支持光線追蹤。

“NVIDIA處在圖形、HPC和AI的交匯領域。”這或許是對本次GTC黑科技的最簡潔直觀的詮釋。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章