HanLP詞性分析——條件隨機場

詞性分析(詞性標註)

所謂詞性分析,是指給已經分詞的句子的每一個單詞,附上他們的詞性。從這個角度來說,詞性分析的問題是一個序列標註的問題。

數據集與標註集

若要使用統計分析的方法,實現詞性分析。則必須有一個已經分好詞,並且打好詞性的數據集。
問題來了:由於衆人對詞性的說法各不相同。國內有國內的標準,國外有國外的說法。更何況如何進行標註,在學術界中至今沒有準確的說法。所以,若是用的數據集不同,則訓練出來的模型也是不同的。模型所採用的標註集也是不盡相同的。

《人民日報》與 PKU 標註集

一個開源的漢語語料庫 SIGHAN05 就包括了《人民日報》。但該數據集沒有標註詞性。HanLP 接受的語料庫和預測的結構化句子都是 PKU 格式。

國家語委語料庫與 863 標註集

《誅仙》語料庫與CTB標註集

這個語料庫是從網絡小說中收集、標註的。很適合用於網絡文體的問題中。

實現

from pyhanlp import *
model_path = r'D:\桌面\比賽\模型\model_analyze_crf'    #模型的存儲路徑
corpus_path = 'E:\\Anaconda3\\lib\\site-packages\\pyhanlp\\static\\data\\test\\pku98\\199801.txt'    #語料庫路徑


CRFPOSTagger = JClass('com.hankcs.hanlp.model.crf.CRFPOSTagger')
tagger = CRFPOSTagger(None)  # 創建空白標註器
tagger.train(corpus_path,model_path)  # 訓練
tagger = CRFPOSTagger(model_path) # 加載
print(', '.join(tagger.tag("他", "的", "希望", "是", "希望", "上學")))  # 預測
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章