原创 強化學習——(2)PPO

1. On-policy與Off-policy On-policy:學習到的agent既是與環境互動的policy,也是我們需要學習的agent。 Off-policy:學習到的agent和與環境互動的policy是兩個不同的ag

原创 強化學習——(3)Q-Learning

1. Q-learning 介紹 1.1 Critic reward的作用其實就是一個critic,其本身並沒有辦法決定要採取哪一個action,其主要用來完成:衡量一個action到底好不好。只能基於當前的state,輸出採取這

原创 圖卷積神經網絡(0)——發展歷程

視頻來源:圖神經網絡在線研討會2020 1. GNN在幹什麼 目前較火的CNN在歐式空間中已經表現出了強大的處理能力,其最大的特點在於平移不變性,這種特性能夠很好的處理歐式空間的中的數據,但是, 圖則是一類典型的非歐數據。如下圖右

原创 GNN模型系列(一)——Vanilla GNNs

1. Introduction 圖是一種由對象(節點)和關係(邊)組成的數據結構。圖結構可以作爲社交網絡、神經科學、物理系統、知識圖譜以及其他領域。作爲典型的非歐式空間中的數據,圖結構模型可以歸類爲:節點分類、邊的預測以及整體聚類

原创 強化學習 —— (5)Sparse Reward

1. Reward 問題 通常情況下,agent每一步操作有一個reward對應,但是,當reward非常稀疏時怎麼辦,可能三四步甚至更多才能產生reward。 1.2. reward shaping 環境有一個固定的reward

原创 Attention專場——(2)Self-Attention 代碼解析

文章目錄1. 參考資料2. 模型架構2.1 Encoder and Decoder Stacks2.1.1 通用類2.1.1.1 層的複製函數2.1.1.2 LayerNorm類2.1.1.3 sublayer之間的連接方式2.1

原创 圖神經網絡——學習資源彙總

Tensorflow版本的圖卷積神經網絡 從圖(Graph)到圖卷積(Graph Convolution):漫談圖神經網絡模型 (一) 從圖(Graph)到圖卷積(Graph Convolution):漫談圖神經網絡模型 (二)

原创 圖神經網絡(1)—— 基本概念

文章目錄1 基本概念1.1 圖神經網絡中的基本元素1.2 圖神經網絡學習的流程1.2.1 圖神經網絡的輸入1.2.2 圖神經網絡的更新1.2.2.1 圖神經網絡的傳播方式11.2.2.2 圖神經網絡的傳播方式22. 圖神經網絡的實

原创 numpy快速one-hot編碼

#設置類別的數量 num_classes = 10 #需要轉換的整數 arr = [1,3,4,5,9] #將整數轉爲一個10位的one hot編碼 print(np.eye(10)[

原创 Attention專場 ——(1) 簡介

文章目錄1. 基於注意力機制的編碼器解碼器1.1 整體流程1.1.1 基本概念計算 value先計算Query和key計算Attention的結果,並應用在解碼器中1.2 抽象成Query、Key、Value1.3 具體說明1.3