ERNIE加持,飛槳圖神經網絡PGL全新升級

在2019年深度學習開發者秋季峯會上,百度對外發布飛槳圖學習框架PGL v1.0正式版,歷經5個月的版本迭代,PGL再度升級,發佈v1.1版本,帶來了最新的算法突破、全面的工業級圖學習框架能力以及工業級的實踐案例。下面我們逐一揭祕升級點。

 

最新算法突破:結合語義與結構信息的圖神經網絡模型ERNIESage

 

在很多工業應用中,往往出現如下圖所示的一種特殊的圖:Text Graph。顧名思義,圖的節點屬性由文本構成,而邊的構建提供了結構信息。如搜索場景下的Text Graph,節點可由搜索詞、網頁標題、網頁正文來表達,用戶反饋和超鏈信息則可構成邊關係。

PGL團隊提出ERNIESage模型同時建模文本語義與圖結構信息,有效提升Text Graph的應用效果。其中ERNIE是百度推出的基於知識增強的持續學習語義理解框架,在中英文16個任務上超越業內同類最優模型,以歷史上首次超越90大關的成績登頂自然語言處理領域最權威的GLUE評測榜單,並在最近SemEval 2020上斬獲5項世界冠軍。

ERNIESage是ERNIE與GraphSAGE碰撞的結果,是ERNIE SAmple aggreGatE的簡稱,它的結構如下圖所示,主要思想是通過ERNIE作爲聚合函數(Aggregators),建模自身節點和鄰居節點的語義與結構關係。

ERNIESage對於文本的建模是構建在鄰居聚合的階段,中心節點文本會與所有鄰居節點文本進行拼接;然後通過預訓練的ERNIE模型進行消息匯聚,捕捉中心節點以及鄰居節點之間的相互關係;最後使用ERNIESage搭配獨特的鄰居互相看不見的Attention Mask和獨立的Position Embedding體系,就可以輕鬆構建TextGraph中句子之間以及詞之間的關係。

 

單純的ID特徵的GraphSAGE只能建模結構信息,單獨的ERNIE語義模型只能建模語義信息。在PGL的框架驅動下,我們可以輕鬆結合二者,通過ERNIE捕捉語義信息,並且利用GraphSAGE補充結構特徵,通過節點的鄰居補充更有用的信息。下圖爲百度內部某個推薦系統的Text Graph實際場景,ERNIESage通過結合文本與圖結構信息,可以取得比獨立應用ERNIE和GraphSAGE更好的效果。

得益於PGL的靈活易用特性,ERNIESage能在PGL的Message Passing範式下快速實現,下面介紹PGL v1.1版本的其他亮點特性。

全面的工業級圖學習框架能力:

引入多領域模型、領銜工業應用、賦能科研創新

下圖是PGL v1.1的框架圖,黃色與橙色部分爲v1.1版本更新內容,其中橙色爲自研的模型算法。

  1. 自研創新模型,包括結合語義與結構信息的圖神經網絡模型ERNIESage、多元路徑遊走算法Multi-Metapath2vec++,以及基於語義索引技術的GNN-Index,這些創新算法極大地提升了百度內外多個工業級應用效果;

  2. 完備框架算法庫,總模型數擴充至23個。其中新增知識圖譜算法庫PGL-KE,提供業界領先的知識圖譜算法,如TransE、TransR、RotatE等,全面支持知識圖譜類算法調研;

  3. 賦能科研創新,適配圖學習通用性能評價基準數據集 OGB(Open Graph Benchmark)。提供統一數據與模型接口,開發者可以使用快速接入OGB,復現SOTA效果;

  4. 豐富框架計算能力,新增基於Lod Tensor的Graph快速算子,如Graph Batch、Graph Pool以及Graph Norm,多圖聯合訓練更加方便靈活。

 

工業級實踐案例揭祕:PGL如何掀起圖算法熱潮

 

得益於PGL創新性自研算法加持,以及框架的全新升級,PGL支持的百度內外部業務也是遍地開花,全面覆蓋搜索、商業廣告、信息流、金融風控、貼吧、用戶畫像、智能地圖等相關業務,可支持百億巨圖場景。下面是一些經典工業級案例介紹。

  1. 在信息流興趣搜索推薦場景下,構建信息流文章與搜索詞之間的複雜異構圖關係網絡,利用PGL異構圖神經網絡算法挖掘用戶潛在興趣點。在用戶閱讀文章後,提供更多用戶感興趣的搜索詞,推薦搜索詞點展比大幅提升近90%,大大地提升了信息流產品的用戶體驗;

  2. 在貼吧推薦場景下,通過多元路徑(Multi MetaPath)來表徵用戶、貼吧和帖子的異構圖關係,通過優化元路徑範式,自動匹配同源負樣本,克服單條MetaPath信息表徵不全面的問題,總點擊提升1.89%,點展比提升0.93%,縮短了用戶與感興趣貼吧的路徑;

  3. 在商業廣告場景下,構建用戶搜索詞與廣告的圖網絡。結合PGL自研模型ERNIESage,聚合語義以及結構信息,提升了觸發模型的泛化能力,取得較大的經濟效益;

  4. 在度小滿金融風控場景下,通過構建用戶圖網絡,結合PGL靈活定製風控圖神經網絡,快速挖掘具有逾期風險的用戶。基於GNN的金融風控模型,KS指標絕對提升1.6,AUC指標絕對提升2%,有效地提升了優質客羣人數,降低了貸款風險並且大幅度減少審覈人力。 

綜合來看,圖學習框架PGL依託于飛槳再度升級,帶來更多的自研算法、更加全面的框架能力。圖學習作爲通用人工智能算法之一,勢必成爲這個時代新的基礎設施,賦能各行各業,助燃智能經濟騰飛。這僅是圖學習熱潮的開始,希望有志之士加入PGL,一起共建未來。

PGL代碼完全開源,歡迎小夥伴們使用。如果您在使用過程中有任何疑惑或創新嘗試,歡迎聯繫我們,反饋您的意見或與其他小夥伴分享您的成果。

如在使用過程中有技術問題,歡迎加入飛槳官方QQ羣進行提問:703252161

如果您想詳細瞭解更多飛槳PGL的相關內容,請參閱以下鏈接。

飛槳PGL入門教程:

https://aistudio.baidu.com/aistudio/projectdetail/413386

飛槳PGL項目地址:

GitHub: https://github.com/PaddlePaddle/PGL

 

飛槳開源框架項目地址:

GitHub: https://github.com/PaddlePaddle/Paddle

Gitee: https://gitee.com/paddlepaddle/Paddle

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章