GPU驅動的數據庫可以爲您做什麼

SQL數據庫可以追溯到20世紀70年代,自20世紀80年代以來一直是ANSI標準,但這並不意味着該技術仍處於靜止狀態。它仍然在變化,並且是GPU加速數據庫的其中一種方式。

圖形處理器(英語:graphics processing unit,縮寫:GPU),又稱顯示核心,視覺處理器,顯示晶片或繪圖晶片,是一種專門在個人電腦,工作站,遊戲機和一些行動裝置(如平板電腦,智慧型手機等)上執行繪圖運算工作的微處理器。圖形處理器使顯示卡減少對中央處理器(CPU)的依賴,並分擔部分原本是由中央處理器所擔當的工作,尤其是在進行三維繪圖運算時,功效更加明顯。

關係數據庫的大小已經增長到以PB級甚至更高的數據集。即使64位計算和TB級內存的出現增加了處理能力,這仍然需要大量數據才能解決 - 而CPU只能管理這麼多。這就是GPU進入的地方。

而GPU已經從最初的加速遊戲任務轉變爲加速幾乎所有事情。 Nvidia已經巧妙地轉向成爲人工智能的代名詞,這個過程需要並行處理大量數據,並且其他任務可以很好地並行化。 AMD正在開始追趕,但Nvidia有很長的領先優勢。

說到核心,它甚至都不是很接近。 Xeon CPU最多有22個核心。 AMD Epyc有32個核心。 Nvidia Volta架構擁有5,120個核心。現在想象一下5000多個內核並行運行數據,很清楚爲什麼GPU在大型計算項目中變得如此受歡迎。

因此,出現了一類新的數據庫,從頭開始編寫,以支持和擁抱GPU及其大規模並行處理功能。這些數據庫支持新級別的數據處理,分析和實時大數據,因爲它們可以處理常規CPU驅動的數據庫根本無法處理的數據集。

在哪裏使用GPU數據庫

在這方面,GPU數據庫並不真正與Oracle,SQL Server或DB2競爭。 GPU數據庫面向制定數據分析決策,公司正在嘗試從大量數據中實時做出決策,但由於數據太多或者視覺分析工具太慢,他們發現自己無法做到這一點。

GPU數據庫供應商並不認爲自己可以替代Oracle或像Teradata這樣的OLTP數據庫。 GPU數據庫不是針對傳統的RDBMS工作負載,而是針對OLAP / OLTP世界和大數據,數據集龐大且需求是實時的。 GPU數據庫可以實時或按小時顯示數據,而不是批處理過程運行數小時或過夜。

GPU數據庫應解決NoSQL試圖解決的許多問題,但允許您使用現有的結構化查詢工具。使用NoSQL意味着重寫所有SQL工具,但GPU數據庫使用現有的SQL工具。

“我們認爲我們將會看到人們意識到他們可以做多維繫統並從多個場景中獲取數據並將其結合起來,”Datatrend Technologies的新興技術解決方案架構師Steve Worthington說道,他是一家使用GPU數據庫SQream的IT諮詢公司。 “醫療公司希望從多個系統中獲取[數據],並跨數據庫進行分析,因爲之前它們不能進行交叉引用,也沒有任何方法可以加入數據庫。”它還引用金融機構進行欺詐和風險分析,現在可能只是進行信用卡檢查,但希望對多個賬戶進行檢查。藉助GPU的強大功能,他們可以同時跨所有這些信息源進行交叉引用。

對於位置服務提供商Skyhook的地理空間數據副總裁Rich Sutton來說,使用OmniSci GPU數據庫爲他提供了比使用基於CPU的數據庫更大的地理數據集可視化。 “我可以在OmniSci中加載十億行,幾乎沒有延遲,而不必在傳統的CPU空間中查看10,000行的數據集,”他說。 “這對我來說有利於減少數據消耗,延遲大幅減少。”

OmniSci首席執行官Todd Mostak表示,一位客戶告訴他,OmniSci的速度“降低了好奇心的成本。他們提出了他們之前會拒絕的問題。“一位金融服務客戶告訴他,傳統數據庫上的18小時處理查詢時間已經下降到亞秒級,而電信公司告訴他,現在需要花費數小時才能運行的查詢會在第二。

GPU數據庫的另一個地方是實時大數據,其中Hadoop已經不足。 GPU數據庫提供商SQream的首席執行官Ami Gal表示,在Hadoop上沒有實現大數據發現所有存在於數十億行數據中的機會的承諾,因爲它太慢了。

“Spark非常適合數據移動和轉換,但是一旦你需要處理大量數據並移動它們,你就會開始處理成千上萬的[計算]節點,這在大型數據集中被認爲太多了。但是,如果你可以用10或15個節點來做,那就更有效了,“他說。

Worthington表示,基於GPU的服務器可以在一個機櫃中完成,這需要許多機櫃價值的CPU供電的多並行處理(MPP)節點。 “我們可以用六個節點替換MPP節點的機架,每個節點有兩到四個GPU。 有了這個,我們可以用不到100萬美元的投資取代1000萬美元的投資,“他說。

GPU對Skyhook也很重要,Skyhook可以對大型地理數據集進行可視化。 “如果你在現場擁有一百萬臺設備並且每分鐘幾次點擊位置,那麼你每天都在談論20億個數據行。 這在傳統數據庫中是不可能消費的。 這是不可能的。 因此,GPU數據庫將您帶到可以使用該數據的位置,“Sutton說。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章