中文詞性標註學習筆記(三)---詞性標註

詞性標註

詞性標註(part-of-speech tagging),又稱爲詞類標註或者簡稱標註,是指爲分詞結果中的每個單詞標註一個正確的詞性的程序,也即確定每個詞是名詞、動詞、形容詞或者其他詞性的過程。

詞性標註的原因

詞性標註是很多NLP任務的預處理步驟,如句法分析,經過詞性標註後的文本會帶來很大的便利性,但也不是不可或缺的步驟。

標註方法

詞性標註這裏基本可以照搬分詞的工作,在漢語中,大多數詞語只有一個詞性,或者出現頻次最高的詞性遠遠高於第二位的詞性。據說單純選取最高頻詞性,就能實現80%準確率的中文詞性標註程序。
主要可以分爲基於規則和基於統計的方法,下面列舉幾種統計方法:
(1)基於最大熵的詞性標註

(2)基於統計最大概率輸出詞性

(3)基於HMM的詞性標註

詞性標註的應用

(1)句法分析預處理

(2)詞彙獲取預處理

(3)信息抽取預處理

漢語詞性對照表

漢語詞性對照表

學習心得

中文詞性標註的關鍵在於先學會分詞,然後要去理解語句中詞的詞性,並且要熟記每種詞性對應的代碼,然後進行標註。
這是一個熟能生巧的過程!

相關學習鏈接

https://blog.csdn.net/sinat_33741547/article/details/78894163
https://www.biaodianfu.com/pos-tagging-set.html
http://ssvideo.superlib.com/cxvideo/play/page?sid=1586&vid=28440&d=77edee6d216507e5ece667cef95799ea&cid=236

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章