NLP的常見任務
自動摘要
指代消解 小明放學了,媽媽去接他
機器翻譯 世界,你好 Hello world
詞性標註 Heat(v.) water(n.) in (p.) a (det.) pot(n.)
分詞 我/喜歡/吃/火鍋
主題識別
文本分類
NLP處理方法
傳統:基於規則
現代:基於統計機器學習
HMM,CRF,SVM….
CNN,RNN….
在計算機中表示一個詞
要將自然語言交給機器學習中的算法來處理,通常需要首先將語言數值化。詞向量技術就是將抽象的詞用矩陣向量表示以供計算機處理的技術。
向量空間子結構
VKing - VQueen + VWomen = VMan
VParis - VFrance + VGerman = VBerlin
最終目標:詞向量表示作爲機器學習、特別是深度學 習的輸入和表示空間
表示形式
離散表示:
One–hot, Bag of Words, N-gram
分佈式表示:
共現矩陣,Word2Vec, Fasttext
離散表示:One-hot表示
語料庫
John likes to watch movies. Mary likes ,too.
John also likes to watch football games.
詞典:
{“John”:1,”likes”:2,”to”:3,”watch”:4,”movies”:5,”also”:6,
“football”:7,”games”:8,”Mary”:9,”too”:10}
One-hot表示:
John:[1,0,0,0,0,0,0,0,0,0]
likes:[0,1,0,0,0,0,0,0,0,0]
….
too:[0,0,0,0,0,0,0,0,0,1]
詞典包含10個單詞,每個單詞有唯一索引
在詞典中的順序和在句子中的順序沒有關聯
離散表示:Bag of Words
文檔的向量表示可以直接將各詞的詞向量表示加和:
John likes to watch movies. Mary likes ,too.
John also likes to watch football games.
[1,2,1,1,1,0,0,0,1,1]
[1,1,1,1,0,1,1,1,0,0]
詞權重:TF-IDF(Term Frequency – Inverse Document Frequency
詞t的TF:"詞t的TF: