NLP筆記,英文文本預處理流程,文本的向量表示方法,LSTM

1 一般的英文文本預處理流程

1 數據收集

2 去除數據中非文本的部分

3 分詞

4 詞幹提取(stemming)和詞型還原(lemma)

5 轉化爲小寫

6 去除停止詞

7 刪除數字與符號

8 特徵工程

2 文本有哪些向量表示方法

  • one-hot,離散表示

  • bag of words,詞袋模型,將每個單詞表現爲在詞袋中出現的次數

  • n-gram,基於計數統計得到的

  • TF-IDF,基於頻率統計得到的

  • 共現矩陣 (Cocurrence matrix),維度較高,加上降維,如SVD,PCA

  • 基於神經網絡的詞表示,word2vec,doc2vec,CBOW,skip-gram,霍夫曼樹,負採樣,GloVe

3 LSTM的結構

img

img

上圖是LSTM的第一個門,遺忘門。這個門根據輸入信息(h_t-1和x_t)決定要忘記細胞狀態C_t-1的哪些部分。

接下來是信息更新門,決定了細胞狀態C_t,它分爲兩個部分。

img

第一步,根據輸入信息,用tanh產生該時刻需要更新到細胞狀態中的內容;用sigmoid函數產生更新的比例。

img

第二步,將需要更新的內容更新到細胞狀態中去,生成C_t。

img

最後,是輸出門。根據新的細胞狀態和輸入信息,產生新的輸出h_t。

收藏的RNN/LSTM,BPTT詳細推導鏈接:https://zhuanlan.zhihu.com/p/85776566

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章