【AI技術生態論】微信Plato高性能計算負責人於東海:圖計算框架與深度學習結合、GNN是圖計算框架的發展方向

在這裏插入圖片描述

受訪者 | 於東海
記者 | 夕顏
出品 | CSDN(ID:CSDNnews)

「AI技術生態論」是CSDN發起的“百萬人學AI”倡議下的重要組成部分,與AIProCon萬人開發者大會Top30 AI技術生態行業案例徵集和評選開發者與AI大調查AI大師課一起,打造一個覆蓋百萬開發者的AI生態聯盟。


2020年,「AI技術生態論」欄目將對1000+AI生態大咖進行系列訪談,勾勒出AI生態最具影響力人物圖譜和AI產業全景圖!


本文爲 「AI技術生態論」系列訪談的第十八期,更多AI技術和產業生態報道,敬請期待下一期精彩內容!


百萬人學 AI 你也有份!今日起點擊閱讀原文報名「2020 AI開發者萬人大會」,使用優惠碼“AIP211”,即可免費獲得價值299元的大會在線直播門票一張。限量100張,先到先得!

【導讀】2019 年 11 月,騰訊一口氣宣佈開源五個重磅項目,其中就包括圖計算框架 Plato。圖計算火了有一段時間了,隨着 5G、IoT 等技術的發展,圖計算的熱度預計將只增不減。今天,我們將以騰訊開源的這款圖計算框架 Plato爲例,通過微信Plato高性能計算團隊負責人於東海,剖析圖計算框架構建的技術和未來發展趨勢,希望爲相關開發者提供參考。

何爲圖計算?


首先來了解一下圖計算的概念。實際上,圖計算與我們平常所說的圖像識別、圖像處理等技術不同,它所指並非普通的圖像和照片,而是用於表示對象之間關聯關係的一種抽象數據結構,使用頂點(Vertex)和邊(Edge)進行描述:頂點表示對象,邊表示對象之間的關係,可抽象成用圖描述的數據即爲圖數據。圖計算,便是以圖作爲數據模型來表達問題並予以解決的這一過程。

簡單來講,圖計算就是研究如何高效計算、存儲並管理大量圖數據等問題的方法。

由於傳統的關係型數據本身存在建模缺陷、水平伸縮等問題,而圖數據具有更強大的表達能力,且可以將不同來源、不同類型的數據融合到同一個圖裏進行分析,得到原本獨立分析難以發現的結果,因此,圖計算受到業界的重視,尤其是在社交網絡、推薦系統、網絡安全、文本檢索和生物醫療等領域,更是應用廣泛。

騰訊圖計算框架 Plato 誕生始末


圖計算開源框架其實不少,比如圖計算的鼻祖Pregel,Spark GraphX,Hadoop Giraph等,爲什麼騰訊決定要造一個自己的圖計算框架呢?

於東海接受採訪時說到騰訊做 Plato 的初衷,原來,這是因爲原有的主流圖計算開源框架的如果要完成騰訊數據量級的超大規模圖計算,需要花費超長的時間或者需要大量的計算資源,這都是無法接受的。騰訊的業務場景要求超大規模圖計算必須在有限時間和有限資源內完成。於是,在來自加州大學、清華大學、北京大學等世界知名學府組成的高性能計算團隊的努力下,號稱能夠進行 10 億節點圖計算的 Plato 高性能分佈式圖計算框架就此誕生,給國產圖計算框架又添一員“大將”。

關於 Plato 框架,這些你不一定知道


關於 Plato,早在發佈之初就已經有過各種解讀,但 CSDN 今天將回顧並補充拓展一下 Plato 的技術解讀,查漏補缺。

Plato 是騰訊開源的高性能分佈式圖計算框架,提供超大規模圖數據的離線圖計算和圖表示學習兩大核心能力。

在這裏插入圖片描述

- 圖計算引擎支持新的計算通信模式

Plato 的核心是圖計算引擎,包含了圖劃分、圖表示以及多層級計算通信協同調度等模塊,並設計了多層次接口支持接入新的計算通信模式,從底層的 API,到圖算法庫,再到爲具體業務量身打造的圖工具集。通過這些應用層的接口和工具,Plato 還可以把離線計算結果與其他機器學習算法相結合,共同支撐頂層的不同業務。

- 計算模型借鑑Gemini、KnightKing、Cyclops 等圖計算系統設計

據於東海介紹,在計算模型上,Plato 借鑑了包括Gemini[1]、KnightKing[2]和Cyclops[3]在內的多個學術界提出的圖計算系統設計。Plato 圖計算引擎提供了稀疏稠密自適應計算模式、共享內存計算模式和流水線計算模式等。因爲不同類型的圖算法,算法執行過程差別很大,單一計算模式不能使所有算法的性能達到最優,於是 Plato 對不同類型圖算法執行過程加以歸納和提煉,經過計算模式逐步增加和抽象,不斷迭代,得到一系列最優的計算模式。

- 10 億節點圖計算幾分鐘搞定的祕訣

Plato 最吸引人特點之一,無非是可以處理 10 億節點圖計算,如此大的處理規模,正是業界所需要的。Plato是如何保證提升數據處理的吞吐量和規模的同時保持速度的?另外,與Giraph/GraphLab/GraphX/Gelly 等主流圖計算開源框架相比,Plato 的兩大核心能力是騰訊數據量級下的離線圖計算和騰訊數據量級下的圖表示學習,這兩大能力具體是如何實現的?

於東海解釋道,這是因爲 Plato 作爲高性能分佈式圖計算框架,有着很好的平行擴展能力,也就是說,隨着數據規模的增加,Plato 計算集羣可以平行加入更多的服務器來分擔數據的存儲和計算。

在原有的主流圖計算開源框架下,如果要完成 10 億節點規模的圖計算,需要花費數天時間和大量計算資源。而 Plato 通過存儲、計算、通信和調度等各方面精巧的設計和優化,壓縮數據存儲、提升計算效率、優化通信調度,使得 Plato 內存消耗比 GraphX 降低了 1-2 個數量級,同時計算性能也提升了 1-2 個數量級,這意味着,只需中小規模的集羣(10臺服務器左右)即可在分鐘級完成騰訊數據量級的超大規模圖計算。

- 自適應圖計算引擎進行自動匹配算法的機制

CSDN 好奇的另一個點,是 Plato 的自適應圖計算引擎是如何進行自動匹配算法的。

據於東海解釋,Plato 自適應圖計算引擎指的是稀疏稠密自適應的計算模式(該方法由 Ligra[4] 首次提出),Plato 會根據算法執行過程中活躍頂點的數量變化來自動選擇是執行稠密計算模式還是稀疏計算模式,由此完成自動匹配算法。

Plato 落地難點和痛點在哪?


圖計算作爲一種表示和分析大數據的有效方法,已成爲社交網絡、推薦系統、網絡安全、文本檢索、金融和醫療等領域至關重要的數據分析和挖掘工具。例如,定期對網頁進行影響力排序以提升用戶的搜索體驗;基於圖的認知分析用於提升金融風控能力;通過子圖匹配等方式瞭解蛋白質間的相互作用從而研製更有效的臨牀醫藥,等等。

然而,任何新興的技術在落地時難免會遇到困境,圖計算也不例外,比如 Plato 離線圖計算作爲整個數據處理鏈條的一部分,需要和其他框架結合在一起使用,這樣就需要數據銜接,由此會產生數據流轉效率的問題。

對於這個問題,Plato 有應對的辦法,通過分析各個上下游框架的執行過程,優化它們和 Plato 之間的數據銜接,減少數據落地和拷貝,就可以實現高效的數據處理。

當然,圖計算落地的難點還有很多,需要在底層技術和應用、市場等各個層面繼續完善。

自 2019 年 11 月開源以來,Plato 已經集成到騰訊雲,通過騰訊雲大數據套件、智能鈦、騰訊雲知識圖譜等解決方案對外提供服務能力,已有很多業界著名的互聯網公司和高校在使用。

目前,Plato已支持圖特徵、圖表示學習等算法,未來將開源更多的算法,比如Network Embedding 和 GNN 算法,同時會持續進行維護和更新,探索和其他框架的結合使用。

關於 Plato 的講解到這裏就結束了,接下來是解答一下關於圖計算框架大家會有的幾個常見疑問,以及對圖計算技術發展趨勢做出預測。

圖計算框架與通用計算引擎一定要結合纔好用嗎?


第一個疑問,是關於圖計算框架與計算引擎的結合問題,比如Giraph是基於Hadoop做的,GraphX基於Spark,那麼大家可能會有疑問,圖計算框架與通用計算引擎結合起來是否全是優點?未來是否所有的圖計算框架都這樣做纔是最好的選擇?

於東海告訴 CSDN,圖計算框架與通用計算引擎的結合有好處,但也有劣勢,好處是方便和通用,可以在一處完成數據處理、數據挖掘、數據應用的整個過程,但是缺陷也很明顯,那就是通用計算引擎沒有針對圖算法做特定優化,超大規模圖數據處理的性能較差。

他認爲,這其實這就是性能和通用的平衡問題,如果對性能要求不高,從通用的角度來看可以選擇通用計算引擎,如果對性能要求較高,那麼高性能圖計算框架纔是最好的選擇。

圖計算技術熱點有哪些?圖計算框架有哪些發展趨勢?


第二個疑問,是在未來,整個圖計算領域有哪些值得期待和關注的技術點呢?以及就圖計算框架來說,未來還有有哪些發展趨勢?

他表示,GNN 目前是圖計算領域的熱點方向,業界著名的互聯網企業和高校都相繼推出了自研的 GNN 計算框架經網絡框架 TF-GNN,阿里開源的 Graph-Learn 等。

GNN 即圖神經網絡(Graph Neural Network),這是一種直接在圖結構上運行的神經網絡,因爲在對圖形中節點間的依賴關係進行建模方面能力強大,使得圖分析相關的研究領域取得了突破性進展,爲學界和業界關注的重點技術。

另外,當前已經有些框架可以與深度學習框架結合使用,這也許是圖深度學習框架的一個發展方向。

在這裏插入圖片描述

今日福利!

遇見陸奇

同樣作爲“百萬人學 AI”的重要組成部分,2020 AIProCon 開發者萬人大會將於 7 月 3 日至 4 日通過線上直播形式,讓開發者們一站式學習瞭解當下 AI 的前沿技術研究、核心技術與應用以及企業案例的實踐經驗,同時還可以在線參加精彩多樣的開發者沙龍與編程項目。參與前瞻系列活動、在線直播互動,不僅可以與上萬名開發者們一起交流,還有機會贏取直播專屬好禮,與技術大咖連麥。

門票限量大放送!今日起點擊閱讀原文報名「2020 AI開發者萬人大會」,使用優惠碼AIP211,即可免費獲得價值299元的大會在線直播門票一張。限量100張,先到先得! 快來動動手指,免費獲取入會資格吧!

點擊閱讀原文,直達大會官網。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章