1 一般的英文文本預處理流程
1 數據收集
2 去除數據中非文本的部分
3 分詞
4 詞幹提取(stemming)和詞型還原(lemma)
5 轉化爲小寫
6 去除停止詞
7 刪除數字與符號
8 特徵工程
2 文本有哪些向量表示方法
-
one-hot,離散表示
-
bag of words,詞袋模型,將每個單詞表現爲在詞袋中出現的次數
-
n-gram,基於計數統計得到的
-
TF-IDF,基於頻率統計得到的
-
共現矩陣 (Cocurrence matrix),維度較高,加上降維,如SVD,PCA
-
基於神經網絡的詞表示,word2vec,doc2vec,CBOW,skip-gram,霍夫曼樹,負採樣,GloVe
3 LSTM的結構
上圖是LSTM的第一個門,遺忘門。這個門根據輸入信息(h_t-1和x_t)決定要忘記細胞狀態C_t-1的哪些部分。
接下來是信息更新門,決定了細胞狀態C_t,它分爲兩個部分。
第一步,根據輸入信息,用tanh產生該時刻需要更新到細胞狀態中的內容;用sigmoid函數產生更新的比例。
第二步,將需要更新的內容更新到細胞狀態中去,生成C_t。
最後,是輸出門。根據新的細胞狀態和輸入信息,產生新的輸出h_t。
收藏的RNN/LSTM,BPTT詳細推導鏈接:https://zhuanlan.zhihu.com/p/85776566