台部落EntropyPlus

1. On-policy與Off-policy On-policy：學習到的agent既是與環境互動的policy，也是我們需要學習的agent。 Off-policy：學習到的agent和與環境互動的policy是兩個不同的ag

2020-04-21 00:25:08

1. Q-learning 介紹 1.1 Critic reward的作用其實就是一個critic，其本身並沒有辦法決定要採取哪一個action，其主要用來完成：衡量一個action到底好不好。只能基於當前的state，輸出採取這

2020-04-21 00:25:08

視頻來源：圖神經網絡在線研討會2020 1. GNN在幹什麼目前較火的CNN在歐式空間中已經表現出了強大的處理能力，其最大的特點在於平移不變性，這種特性能夠很好的處理歐式空間的中的數據，但是，圖則是一類典型的非歐數據。如下圖右

2020-04-21 00:25:08

1. Introduction 圖是一種由對象（節點）和關係（邊）組成的數據結構。圖結構可以作爲社交網絡、神經科學、物理系統、知識圖譜以及其他領域。作爲典型的非歐式空間中的數據，圖結構模型可以歸類爲：節點分類、邊的預測以及整體聚類

2020-04-21 00:25:08

1. Reward 問題通常情況下，agent每一步操作有一個reward對應，但是，當reward非常稀疏時怎麼辦，可能三四步甚至更多才能產生reward。 1.2. reward shaping 環境有一個固定的reward

2020-04-21 00:25:08

文章目錄1. 參考資料2. 模型架構2.1 Encoder and Decoder Stacks2.1.1 通用類2.1.1.1 層的複製函數2.1.1.2 LayerNorm類2.1.1.3 sublayer之間的連接方式2.1

2020-02-23 13:32:57

Tensorflow版本的圖卷積神經網絡從圖(Graph)到圖卷積(Graph Convolution)：漫談圖神經網絡模型 (一) 從圖(Graph)到圖卷積(Graph Convolution)：漫談圖神經網絡模型 (二)

2020-02-23 13:32:57

文章目錄1 基本概念1.1 圖神經網絡中的基本元素1.2 圖神經網絡學習的流程1.2.1 圖神經網絡的輸入1.2.2 圖神經網絡的更新1.2.2.1 圖神經網絡的傳播方式11.2.2.2 圖神經網絡的傳播方式22. 圖神經網絡的實

2020-02-23 13:32:57

#設置類別的數量 num_classes = 10 #需要轉換的整數 arr = [1,3,4,5,9] #將整數轉爲一個10位的one hot編碼 print(np.eye(10)[

2020-02-23 13:32:57

文章目錄1. 基於注意力機制的編碼器解碼器1.1 整體流程1.1.1 基本概念計算 value先計算Query和key計算Attention的結果，並應用在解碼器中1.2 抽象成Query、Key、Value1.3 具體說明1.3

2020-02-23 13:32:57