步入2021,大熱的GNN會在哪些應用領域大展拳腳呢?

作者|Sergei Ivanov

 來源|機器之心

由於 GNN 在圖節點之間強大的建模功能,使得與圖分析相關的研究領域取得了突破。本文我們將介紹關於 GNN 熱門應用研究。

近年來,由於圖結構的強大表現力,用機器學習方法分析圖的研究越來越受到重視。圖神經網絡(GNN)是一類基於深度學習的處理圖域信息的方法。由於其較好的性能和可解釋性,現已被廣泛應用到各個領域。

在本文中,機器學習研究科學家 Sergei Ivanov 盤點一下 2021 年需要了解的 GNN 應用熱點,涵蓋了推薦系統、組合優化、計算機視覺、物理 / 化學以及藥物發現等領域。

推薦系統

圖結構數據是來自用戶與電子商務平臺上產品交互的上下文中,因此,許多公司採用 GNN 進行產品推薦。一個標準的案例是對用戶於商品的交互關係進行建模,然後以某種形式的負採樣損失學習節點嵌入,並使用 KNN 索引實時檢索給定用戶的相似商品。首批使用這種 pipeline 的公司是 Uber Eats,該公司通過 GraphSage 網絡推薦食品和餐館。

此外,對於食品推薦,由於推薦的地理限制,生成的圖相對較小,但一些公司在數十億個邊緣的規模上成功使用了 GNN。中國零售業巨頭阿里巴巴在擁有數十億用戶和產品的網絡上使用圖嵌入技術和 GNN。構建這樣的圖可能是工程上的噩夢,但是對於最近的 Aligraph pipeline 而言,僅需五分鐘即可構建具有 4 億節點的圖。Aligraph 支持高效的分佈式圖形存儲、優化採樣操作符以及大量內部 GNN。它目前部署在阿里巴巴的多個產品中,用於推薦和個性化搜索。

阿里巴巴、 亞馬遜和許多其他電商公司使用 GNN 來增強推薦系統的能力。

類似地,Pinterest 提出了 PinSage 模型,該模型使用個性化 PageRank 有效地對鄰域進行採樣,並通過在每個鄰域中聚合來有效地更新節點嵌入。他們的後續 PinnerSage 進一步擴展了該架構,用以處理多種嵌入問題,以滿足不同的用戶需求。這些只是該領域的幾個值得注意的例子(你也可以查看 Amazon 關於知識圖譜和 GNN 的研究或 Fabula AI 使用 GNN 進行虛假新聞檢測的研究,但很明顯,如果來自用戶互動的信息足夠強大的話,GNN 會在推薦系統問題上得到不錯的結果)。

組合優化

組合優化(combinatorial optimization, CO)問題的求解是金融、物流、能源、生命科學和硬件設計中的關鍵。這些問題大多是用圖表示的。因此,上個世紀的大量研究都集中在更有效地解決 CO 問題的算法上;然而,機器學習驅動的現代計算革命爲解決此類問題的方法提供了一種引人矚目的新方式。

谷歌大腦團隊使用 GNN 優化了新硬件(如 Google 的 TPU)芯片塊的功耗、面積和性能。計算機芯片可以理解爲由內存和邏輯部件組成的圖,每個圖均由其部件的座標和類型表示。確定每個組件的位置,同時遵守密度和佈線擁塞的限制,這是一個費力的過程,但仍然是電氣工程師的工作重點。谷歌大腦團隊利用 GNN 模型與策略和收益強化學習(RL)功能相結合,生成優化的電路芯片佈局,甚至優於手工設計的硬件佈局。

與國際象棋和圍棋相比,芯片佈局的複雜性。

另一種方法採用不同的途徑,將 ML 模型集成到現有求解器中。例如,Gasse 等人在論文《Exact Combinatorial Optimization with Graph Convolutional Neural Networks》中提出了一種用於學習分支定界變量選擇策略的圖網:混合整數線性規劃(MILP)求解器中的關鍵步驟。通過這種方式,學習到的表示試圖最小化求解器的運行時間,並顯示出在推理時間和決策質量之間的良好平衡。

在 DeepMind 和谷歌的最新研究《Solving Mixed Integer Programs Using Neural Networks》中,圖網被用於 MILP 求解器中的兩個關鍵子任務:聯合變量分配和限制目標值。他們提出的神經網絡方法是包括 Google 生產包裝和計劃系統在內的龐大數據集上現有求解器速度的 2 至 10 倍。有關此主題的更多內容,請參考《Reinforcement Learning for Combinatorial Optimization: A Survey》等綜述論文。

計算機視覺

由於世界上的一切對象是密切聯繫的,包含這些對象的圖像也可以從 GNN 中受益。感知圖像的其中一種方法是通過場景圖(論文《Scene Graph Generation by Iterative Message Passing》),即出現在圖像中的對象以及它們之間關係的集合。場景圖已在圖像檢索、理解和推理、字幕生成、視覺問答以及圖像生成中得到了應用,該方法可以極大地提高模型的性能。

在 Facebook 的論文《Specifying Object Attributes and Relations in Interactive Scene Generation》中,研究者可以將 CV 數據集 COCO 中的對象放置在畫布中,並指定對象的位置和大小以創建場景圖。然後他們使用 GNN 對圖像進行編碼以確定每個對象的嵌入,進而將其與 CNN 一起使用以生成對象的 mask、邊框和外觀。最終,用戶可以方便地在圖形中添加新節點(指定該節點的相對位置和大小)以使 GNN/CNN 使用這些對象生成圖像。

使用場景圖生成圖像。

CV 中圖像的另一個來源是兩個相關圖像的匹配,這是一個經典問題,過去採用手工描述符實現。3D 圖形公司 Magic Leap 發佈了一種名爲 SuperGlue 的 GNN 體系架構,該架構可在實時視頻中執行圖形匹配,用於 3D 重建、位置識別、本地化和映射(SLAM)等任務。SuperGlue 包含一個基於注意力的 GNN,它學習圖像關鍵點的表徵,進而饋入匹配的最優傳輸層。該模型在現代 GPU 上實時執行匹配,並且可以輕鬆集成到現代 SLAM 系統中。有關圖形與計算機視覺相交的更多內容,請查看綜述文章《Computing Graph Neural Networks: A Survey from Algorithms to Accelerators 》。

物理 / 化學

生命科學得益於將粒子或分子之間的交互表示爲一個圖,然後用 GNN 預測這類系統的性質。在 Facebook 和 CMU 的開放催化器項目(Open Catalyst Project)項目中,最終目的是找到儲存太陽能或風能等可再生能源的新方法。其中一個可能的解決辦法是通過化學反應將這種能量轉化爲其他燃料,例如氫。然而,這需要發現能夠以高速率驅動化學反應的新催化劑,並且諸如 DFT 的已知方法成本高昂。開放催化劑項目開源了一個最大的催化劑數據集以及 DFT 弛豫和 GNN 基準方法。目的是希望找到新的高效且低成本的催化劑分子。

吸附物(小連接分子)和催化劑表面的初始和鬆弛狀態示例。

DeepMind 的研究者還應用 GNN 來模擬水或沙等複雜粒子系統的動力學過程。通過在每一步預測每個粒子的相對運動,就有可能合理地重建整個系統的動力學,並進一步瞭解控制運動的基本規律。例如,這種方法被用來理解玻璃化轉化,這是固態理論中最有趣的尚未解決的問題之一。使用 GNN 不僅可以模擬過渡過程中的動力學,還可以更好地理解粒子如何根據距離和時間相互影響。

此外,位於美國的物理實驗室費米國立加速器實驗室(Fermilab)致力於將 GNN 遷移到 CERN 的大型強子對撞機(LHC)的結果分析上。其目標是處理數百萬張圖像,並選擇那些可能與發現新粒子有關的圖像。他們的任務是在 FPGA 上實現 GNN,並將其與數據採集處理器集成,這樣就可以在世界各地遠程運行 GNN。要了解 GNN 在粒子物理中的更多應用,請查看 Jonathan Shlomi 等人論文《Graph Neural Networks in Particle Physics》。

藥物發現

製藥公司每年都會投入數十億美元的研發資金用來尋找藥物開發的新模式。在生物學中,圖可以表示爲不同規模的交互。在分子水平上,圖的邊緣可以是分子中原子之間的鍵或蛋白質中氨基酸殘基之間的相互作用。而在更大的範圍內,圖可以表示更復雜的結構(如蛋白質、mRNA 或代謝物)之間的相互作用。根據特定的抽象層次,這些圖可用於目標識別、分子性質預測、高通量篩選、新型藥物設計、蛋白質工程和藥物再利用等領域。

基於 GNN 的藥物發現時間表。Gaudelet et al., 2020

或許,使用 GNN 進行藥物發現最有希望的是 2020 年 MIT 研究者以及合作者發表在《細胞》(Cell)上的文章《A Deep Learning Approach to Antibiotic Discovery》。在這項研究中,他們提出了一種被稱爲 Chemprop 的深度 GNN 模型,用來預測分子是否具有抗生素特性:對大腸桿菌的生長抑制作用。在僅使用 FDA 批准的藥物庫中的大約 2500 個分子對其進行訓練後,Chemprop 被應用於更大的數據集,包括包含 Halicin 分子的 Drug Repurposed Hub。

值得注意的是,以前僅對 Halicin 分子進行過研究,因爲其結構與已知抗生素相差很大。然而,實驗室進行的體內體外臨牀試驗都證明了 Halicin 是廣譜抗生素。針對強大 NN 模型的廣泛基準測試表明瞭在 Halicin 發現中使用 GNN 學習特徵的重要性。除了這項研究的實用性之外,Chemprop 架構也值得更多的關注。與其它 GNN 模型不同,Chemprop 有 5 層和 1600 個隱藏維,在此類任務上參數遠遠多於典型的 GNN。當然,這只是少數即將在 AI 中發現的新醫學之一。有關此主題的更多結果,請查看最近的一篇綜述文章《Utilising Graph Machine Learning within Drug Discovery and Development》和博客文章《What 2021 holds for Graph ML?》。

原文鏈接:

https://medium.com/criteo-engineering/top-applications-of-graph-neural-networks-2021-c06ec82bfc18

????

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公衆號後臺點擊「交流羣」,小助手將把你帶入 PaperWeekly 的交流羣裏。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章