詞性分析(詞性標註)
所謂詞性分析,是指給已經分詞的句子的每一個單詞,附上他們的詞性。從這個角度來說,詞性分析的問題是一個序列標註的問題。
數據集與標註集
若要使用統計分析的方法,實現詞性分析。則必須有一個已經分好詞,並且打好詞性的數據集。
問題來了:由於衆人對詞性的說法各不相同。國內有國內的標準,國外有國外的說法。更何況如何進行標註,在學術界中至今沒有準確的說法。所以,若是用的數據集不同,則訓練出來的模型也是不同的。模型所採用的標註集也是不盡相同的。
《人民日報》與 PKU 標註集
一個開源的漢語語料庫 SIGHAN05 就包括了《人民日報》。但該數據集沒有標註詞性。HanLP 接受的語料庫和預測的結構化句子都是 PKU 格式。
國家語委語料庫與 863 標註集
《誅仙》語料庫與CTB標註集
這個語料庫是從網絡小說中收集、標註的。很適合用於網絡文體的問題中。
實現
from pyhanlp import *
model_path = r'D:\桌面\比賽\模型\model_analyze_crf' #模型的存儲路徑
corpus_path = 'E:\\Anaconda3\\lib\\site-packages\\pyhanlp\\static\\data\\test\\pku98\\199801.txt' #語料庫路徑
CRFPOSTagger = JClass('com.hankcs.hanlp.model.crf.CRFPOSTagger')
tagger = CRFPOSTagger(None) # 創建空白標註器
tagger.train(corpus_path,model_path) # 訓練
tagger = CRFPOSTagger(model_path) # 加載
print(', '.join(tagger.tag("他", "的", "希望", "是", "希望", "上學"))) # 預測