原创 詞向量與Embedding

https://spaces.ac.cn/archives/4122

原创 李宏毅:Batch Normalization

1、feature scaling (1)經過feature scaling,會讓你的training容易的多。 (2)對每一維的i計算均值和標準差,利用公式得到scaling後的feature,這樣會讓你的training收斂地更快。

原创 李宏毅:Gated RNN and Sequence generation

1、RNN with gated machanism (1)RNN (2)deep RNN (3)Bidirectional RNN (4)Naive RNN (5)LSTM 因爲LSTM中的input c變化是很慢的,所以它能夠

原创 李宏毅:RL and GAN for sentence generation and chat-bot

1、review 1)chat-bot 2)encoder 把之前的information另做encoder,目前的這句話單獨做encoder,再把兩者合併,放入generator。 3)generator 4)training g

原创 李宏毅:evaluation of generative model

1、likelihood 無法獲得likelihood 解決辦法:可以先用generator產生一把sample;接下來再用這把sample,用另外一個比較簡單的distribution去approximate你的generator。

原创 李宏毅:Activation Function

1、relu (1)relu (2)relu的變形 (3)selu   下圖中的iid表示獨立同分布,輸入a1...ak的mean是0,variance是 1,Selu希望得到輸出的mean也是0,variance也是1。我們假

原创 李宏毅:capsule(膠囊網絡)

1、capsule與neural的區別 neural的output是value,capsule的output是vector。 capsule的input可以是其它capsule的output。 neural是偵測某一個pattern,但是

原创 李宏毅:generative adversarial network(GAN)

1、auto-encoder 2、VAE(Variational Auto encoder) 3、learn discriminator & generator (1) how to learn GAN discriminator d

原创 李宏毅: improved generative adversarial network(GAN)

1、generation 從normal distribution(正態分佈)中sample出一些點: generator需要update它的參數,使得它output產生的image能被discriminator誤認爲它是real

原创 李宏毅:Tuning Hyperparameters(超參數)

1、grid search vs random search 有時候random search的方法還是不錯的,因爲top k的結果已經相差不大。所以沒有必要掃過所有的參數組合,只要取前k名的其中一個結果就好了。 有sample到K的機率

原创 李宏毅:Recursive Network(遞歸神經網絡)

1、Recursive Structure 2、Recursive Model 根據syntactic structure(句法結構),輸入和輸出vector是一致的。 中間的f是一個複雜的neural network,而不是兩個單詞v

原创 李宏毅:conditional generation by RNN & attention

1、Generation 生成句子或者文章。 在生成好的RNN模型裏,我們輸入開頭,模型可以輸出一系列的輸出,如下圖,我們根據輸出得到了“牀”,然後把“牀”作爲下一個時間點的輸入,得到“前”,依次類推。這是測試時的一種做法,並不是唯一做法

原创 李宏毅:Highway Network & Grid LSTM

1、Feedforward vs Recurrent 2、Highway Network GRU是有reset gate的,而highway network沒有reset gate。reset gate是爲了忘記之前的input。

原创 李宏毅:Pointer Network

1、 2、下圖所示:input 4個data point的座標,得到一個紅色的vector,再把vector放到decoder中去,得到distribution,再做sample(比如做argmax,決定要輸出token 1...),最

原创 李宏毅:Ensemble of GAN and Energy-based GAN

1、ensemble of GAN (1) :同時train 一大堆GAN,然後就有一大堆generator,之後在generate image的時候,先隨機挑選一個generator,再讓那個generator sample image