原创 第一次在github上提交代碼

第一次在github上提交代碼

原创 DeepWalk算法

隨機遊走 冪律分佈 前提: 如果一個網絡的節點服從冪律分佈,那麼節點在隨機遊走序列中的出現次數也服從冪律分佈,並且實證發現NLP中單詞的出現頻率也服從冪律分佈。 DeepWalk算法 DEEPWALK(G,w,d,γ,t)

原创 基於邊採樣的網絡表示模型

1. 整體過程 2.sigmoid 函數求導過程

原创 Word2Vec模型精簡和本質

1. 模型框架 CBOW模型,上下文預測中心詞,目標函數爲 Skip-gram模型,中心詞預測上下文,目標函數爲 2. Hierarchical Softmax 藉助CBOW訓練模型,得到詞向量 2.1 CBOW模型

原创 社區檢測算法一二三

1. 馬爾可夫鏈 隨機過程 下一狀態只依賴當前狀態 用一句話來概括馬爾科夫鏈的話,那就是某一時刻狀態轉移的概率只依賴於它的前一個狀態。舉個簡單的例子,假如每天的天氣是一個狀態的話,那個今天是不是晴天只依賴於昨天的天氣,而和前天的天

原创 網絡節點表徵學習

採樣策略

原创 LINE 方法部分

本文有很多問題,LINE方法暫時略過 1. 一階相似性 聯合概率:一階相似性實質上是一個sigmoid function函數,向量越接近,點積越大,聯合概率越大(有點硬扯) 經驗概率:兩點之間邊的權值越大,經驗概率越大 爲了保持一

原创 word2ve的python源碼解析

#!/usr/bin/env python # -*- coding: utf-8 -*- # # Author: Shiva Manne <[email protected]> # Copyright (C) 2018 R

原创 機器學習典型算法包含的步驟

訓練過程:已知輸入,根據輸出,運用梯度下降等方法調整參數。 驗證過程(使用過程):最後的效果是根據輸入和中間參數,得到輸出,使輸出最接近現實情況 詞向量:訓練過程的中間參數,即中間產物,類似的詞其詞向量也應該類似。 一般方法:

原创 Graph embedding techniques, applications, and performance: A survey 論文閱讀和理解

1. 圖嵌入的分類: 1.1基於矩陣分解 1.2基於隨機遊走 1.2.1 DeepWalk:通過隨機遊走保留了高階屬性 https://blog.csdn.net/qq_32294855/article/details/89006

原创 gensim之word2vec用法總結

初始化模型 >>> from gensim.test.utils import common_texts, get_tmpfile >>> from gensim.models import Word2Vec >>> >>> pa

原创 負採樣方法

1. 負採樣方法 高頻詞被採樣的概率大,低頻詞被採樣的概率小 2. CBOW模型 在這裏插入圖片描述 3. Skip-Gram模型 上下文預測當前詞,所以要最後一起更新 CBOW 輔助向量,並不是真正的向量

原创 矩陣及矩陣運算

1. 矩陣的轉置 把矩陣A的行和列互相交換所產生的矩陣稱爲A的轉置矩陣,這一過程稱爲矩陣的轉置。 矩陣的轉置滿足以下運算律: 2. 單位矩陣 單位矩陣是方陣,對角線值爲1,其餘值爲0 單位陣的性質是任何矩陣乘上它都等於原矩陣

原创 圖論的一些基本概念

圖論的一些基本概念 Edge betweenness: 具體而言,首先對每一對節點尋找最短路徑,得到一個n * (n-1)/2的最短路徑集合S,然後看這個集合中有多少最短路徑需要通過某個具體的節點。一個邊的edge betwee

原创 歸一化數值

K-近鄰算法樣本數據 在進行K近鄰算法時,數值越大的屬性對計算結果影響越大,因此需要進行數值歸一化,處理不同取值範圍的特徵值時,我們通常採用的方法是將數值歸一化,如將取值範圍處理爲0到1或者-1到1之間,處理的公式如下: ne