詞性標註
詞性標註(part-of-speech tagging),又稱爲詞類標註或者簡稱標註,是指爲分詞結果中的每個單詞標註一個正確的詞性的程序,也即確定每個詞是名詞、動詞、形容詞或者其他詞性的過程。
詞性標註的原因
詞性標註是很多NLP任務的預處理步驟,如句法分析,經過詞性標註後的文本會帶來很大的便利性,但也不是不可或缺的步驟。
標註方法
詞性標註這裏基本可以照搬分詞的工作,在漢語中,大多數詞語只有一個詞性,或者出現頻次最高的詞性遠遠高於第二位的詞性。據說單純選取最高頻詞性,就能實現80%準確率的中文詞性標註程序。
主要可以分爲基於規則和基於統計的方法,下面列舉幾種統計方法:
(1)基於最大熵的詞性標註
(2)基於統計最大概率輸出詞性
(3)基於HMM的詞性標註
詞性標註的應用
(1)句法分析預處理
(2)詞彙獲取預處理
(3)信息抽取預處理
漢語詞性對照表
學習心得
中文詞性標註的關鍵在於先學會分詞,然後要去理解語句中詞的詞性,並且要熟記每種詞性對應的代碼,然後進行標註。
這是一個熟能生巧的過程!
相關學習鏈接
https://blog.csdn.net/sinat_33741547/article/details/78894163
https://www.biaodianfu.com/pos-tagging-set.html
http://ssvideo.superlib.com/cxvideo/play/page?sid=1586&vid=28440&d=77edee6d216507e5ece667cef95799ea&cid=236