【Graph Embedding】: SDNE算法

原創

2020-06-01 00:10

论文“Structural Deep Network Embedding”发表在kdd2016

论文下载地址：https://www.kdd.org/kdd2016/papers/files/rfp0191-wangAemb.pdf

论文利用深度自编码器来学习图中节点的embedding向量，结合一阶和二阶相似度进行联合训练，将二阶相似度作为无监督信息，捕获全局网络结构信息，一阶相似度作为有监督信息，用于捕获局部网络结构。

提出问题

文章提出 graph embedding存在一下几个问题：

1.高非线性(high non-linearity)：图的潜在结构是高非线性的，因此浅层模型很难捕获全面的非线性结构。

2.结构保持(structure-preserving): 学习出来的节点embedding需要能保留住图的全局和局部结构信息。

3.稀疏性(sparsity): 真实环境下，网络通常都是稀疏的，会有大量合理的链接丢失。

如何解决问题

解决高非线性问题：浅层模型很难学习好高非线性结构，所以本文采用深度模型来拟合非线性结构。

解决结构保持和稀疏性问题：联合训练一阶和二阶相似性，一阶指的是直接有边相连的邻近节点，用于学习局部网络结构。但是真实的网络往往都是稀疏的，缺失了大量合理链接，所以一阶相似性节点的数据少，需要利用二阶相似度来做扩展，二阶相似度表示不同定点之间的邻域结构的相似性，以捕获全局网络结构。

问题定义

图

定义图为G=(V,E),其中 $V= \{v_1,...,v_n\}$ 表示n个节点， $E=\{e_{i,j}\}^n_{i,j=1}$ 表示节点i和j之间的边。每条边 $e_{i,j}$ 分配有一个权重 $s_{i,j}\geqslant 0$ ,如果节点i和j没有边相连的话，那么 $s_{i,j}=0$ ，否则的话，无权图 $s_{i,j}=1$ ，加权图 $s_{i,j}>0$

一阶相似度(First-Order Proximity)

一阶相似其实就是指的节点的邻域节点，对于任意一对节点，如果 $s_{i,j}>0$ ,那么节点i和j之间就存在正的一阶相似度，否则为0。

二阶相似度(Second-Order Proximity)

二级相似描述的是两个节点，它们的邻域节点相似的情况。令 $N_u=\{s_{u,1},...,s_{u,|V|}\}$ 表示节点u和其他所有节点的所有一阶相似度。

那么两个节点的二阶相似度就由和表示。

图embedding(Network Embedding)

给定一个图G=(V,E),图embedding 的目标是学习每个节点的映射函数，使得将节点映射到一个d维的低纬空间。即学习一个映射函数 $f:v_i\mapsto y_i\subset R^d$ ，而优化的目标就是利用一阶和二阶相似度优化和的相似度。

模型

整个模型的框架如图所示，是一个双通道的自编码器，两个通道共享全值。具体的一阶相似和二阶相似在损失函数中体现。

损失函数

上图为文章定义的表示符号，其中带^的帽子的符号是网络重建的输出结构。

1.自编码器重建二阶相似度，即输入当前节点和其他所有节点的链接权重，没有链接则权重为0。然后用自编码器重建所有数据。那么正常的自编码器损失函数为：

但是邻域链接的节点很稀疏，这样的话输入数据,即的大部分维度上都是0，那样网络只要输出全0，也能达到很好的效果，所以这里损失函数对非零项做了加权。

这里的⊙表示哈达马乘积（即对应元素相乘）， $b_i=\{b_{i,j}\}^n_j=1$ ,如果 $s_{i,j}=0$ ,即节点i和j没有边连接，那么 $b_{i,j}=1$ ，否则 $b_{i,j}=\beta >1$ 这样就起到来加权的效果。

2.损失函数引入一阶相似度限制，如果两个节点有边直接相连，那么让两个节点的embedding向量尽量的靠近，所以可以直接最小化两个embedding向量的最小二乘：

这里的 $y^{(K)}_i$ 和 $y^{(K)}_j$ 就是自编码器中间编码出来的向量，也就是最后要提取出来的节点embedding。因为网络结构是双通道的，所以可以直接在损失函数中加入这项损失。

3.加入L2正则，这个就不多说了。

那么将上面的三项合并起来就可以获得最终的损失函数：

然后就可以训练自编码器了，把训练好的中间向量提取出来就是最终的节点embedding啦。

完

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

基于Fluid与JindoCache的大模型训练加速实践

隨着人工智能技術的不斷髮展，深度學習模型變得越來越複雜，參數量動輒幾十億甚至上百億。這樣的“大模型”在帶來強大性能的同時，也對訓練過程提出了極高的要求。尤其是在數據加載和計算資源利用方面，傳統的訓練方法往往難以滿足快速、高效的需求。爲此，我

2024-05-28 12:12:15

【终极指南】使用Python可视化分析文本情感倾向

本文分享自華爲雲社區《Python理解文本情感傾向的終極指南》，作者：檸檬味擁抱。情感分析是一種通過自然語言處理技術來識別、提取和量化文本中的情感傾向的方法。Python在這一領域有着豐富的庫和工具，如NLTK、TextBlob和VAD

2024-05-28 10:58:03

AI安全志：英国AI骗保事件增加300%！

最近，英國《衛報》報道稱，一些騙子正在利用人工智能照片編輯軟件篡改照片，以進行保險欺詐活動。這一發現令保險公司震驚，因爲這可能導致汽車保險費用飆升至歷史最高水平。安聯保險公司表示，從2021年至2023年期間，利用應用程序篡

2024-05-28 00:15:50

解读注意力机制原理，教你使用Python实现深度学习模型

本文分享自華爲雲社區《使用Python實現深度學習模型：注意力機制（Attention）》，作者：Echo_Wish。在深度學習的世界裏，注意力機制（Attention Mechanism）是一種強大的技術，被廣泛應用於自然語言處理（NL

2024-05-27 10:58:44

智能测试持续加码，大模型引领软件测试新生态

在軟件行業日新月異的今天，智能測試已成爲提升軟件質量的關鍵環節。大模型的崛起，更是爲軟件測試帶來了前所未有的變革。隨着AI和ML技術的突飛猛進，智能測試得到了快速發展，實現了對測試過程的自動化和智能化管理，顯著提高了測試效率和質量。如今，智

2024-05-25 02:07:17

风控指南：国内车险欺诈呈现四大趋势

2024年4月11日，國家金融監督管理總局官網發佈國家金融監督管理總局關於《反保險欺詐工作辦法（徵求意見稿）》公開徵求意見的公告。《徵求意見》共6章、37條，明確反保險欺詐工作目標是建立“監管引領、機構爲主、行業聯防、各方協同”四位一體的

2024-05-23 12:16:45

智能高效的IDE GoLand v2024.1全新发布 - 进一步升级AI辅助工具

GoLand 使 Go 代碼的閱讀、編寫和更改變得非常容易。即時錯誤檢測和修復建議，通過一步撤消快速安全重構，智能代碼完成，死代碼檢測和文檔提示幫助所有 Go 開發人員，從新手到經驗豐富的專業人士，創建快速、高效、和可靠的代碼。立即獲取G

2024-05-21 12:19:26

5月21日相聚上海张江！与文心大模型一起共建大模型产业应用生态圈

5月21日，文心中國行將走進上海，在張江科學會堂舉行。屆時，政府、企業與高校的相關專家和業界同仁將現場分享生成式人工智能與大模型最新進展，主要圍繞大模型技術如何賦能產業級應用創新展開探討，還有百度風投從投資視角帶來的觀點，讓參會者全方位瞭解

2024-05-17 00:28:21

网络爬虫安全：90后小伙，用软件非法搬运他人原创视频被判刑

央視《今日說法》欄目近日報道了一名程序員開發非法視頻搬運軟件獲利超700多萬，最終獲刑的案例。國內某知名短視頻平臺報警稱，有人在網絡上售賣一款視頻搬運軟件，使用軟件的人可以繞過平臺的審覈機制，一鍵“搬運”竊取他人作品非法轉載投稿。警方調查

2024-05-16 00:19:26

探索大语言模型：理解Self Attention| 京东物流技术团队

一、背景知識在ChatGPT引發全球關注之後，學習和運用大型語言模型迅速成爲了熱門趨勢。作爲程序員，我們不僅要理解其表象，更要探究其背後的原理。究竟是什麼使得ChatGPT能夠實現如此卓越的問答性能？自注意力機制的巧妙融入無疑是關鍵因素

2024-05-14 23:57:26

GPU 硬件指标说明

流處理器：也叫渲染管、着色器。畫面都是由一個又一個像素點組成的，而流處理器就負責這些像素點的渲染工作； RT核心：光追核心，用作於光線追蹤效果； CUDA 核心和Tensor 核心：CUDA Core和Tensor Core，爲G

2024-05-13 22:35:43

舌尖上的AI：人工智能技术正在被“端上”餐桌

來源 | 人民數字FINTECH 責編 | 晉兆雨頭圖 | CSDN 下載自視覺中國 #人工智能技術正在被“端上”餐桌四方食事，不過一碗人間煙火。人工智能作爲一門新的技術科學，正在被人間煙火氣“端”上餐桌。人工智能“洗手”

2024-05-13 21:17:25

攻击者正在利用AI，对保险公司发起大规模欺诈

保險欺詐一直是保險行業面臨的重要挑戰之一，尤其隨着技術的進步，欺詐者也在不斷更新其手段，利用AI技術，包括生成式模型、機器學習和數據分析工具等欺騙保險公司，而AI技術的應用正成爲他們的新工具，使其犯罪行爲更加隱蔽和複雜，挑戰保險行業的防欺詐

2024-05-10 00:55:17

音频链接抓取技术在Lua中的实现

前言隨着數字音樂的普及，越來越多的用戶選擇在線音樂平臺來享受音樂。網易雲音樂作爲國內領先的音樂服務平臺，不僅提供了豐富的音樂資源，還擁有獨特的社交屬性，吸引了大量的用戶。在衆多的音樂服務中，音頻鏈接的抓取技術成爲了一個重要的需求。無論

2024-05-28 00:07:25

文心大模型免费辣，动手搓点啥庆祝一下吧

5月21日下午，百度智能雲宣佈文心大模型的兩款主力模型ENIRE Speed、ENIRE Lite全面免費，即刻生效。這兩款大模型都是今年3月剛剛發佈的，均支持8K和128k上下文長度。可以說，這是百度最新的模型

2024-05-24 12:13:22

24小時熱門文章

最新文章

最新評論文章