關鍵詞（一）jieba詞性標註與分詞結果不一致

原創

2020-06-03 08:24

1、先描述下現象

>>> aa='北京時間月日晚劉強東的刑辯律師在接受澎湃新聞記者電話採訪時表示劉強東涉嫌
強姦一案中的指控與證據是有出入的一旦調查結束證據將會披露給公衆證明他是無罪的'

=======過濾詞性，能識別“劉強東”
>>> '   '.join([k for k,w in analyse.extract_tags(aa,topK=2000,withWeight=True,allowPOS=('nr',))])
>>> '劉強東'


========未過濾詞性，未能識別“劉強東”
>>> '   '.join([k for k,w in analyse.extract_tags(aa,topK=2000,withWeight=True)])
'劉強   證據   日晚   刑辯   新聞記者   澎湃   強姦   無罪   一案   指控   出入
  涉嫌   律師   公衆   採訪   證明   將會   披露   電話   一旦   調查   結束
接受   北京   時間   表示'
>>>

2、原因

analyse.extract_tags在判斷是否過濾詞性後，會選擇不同的算法進行分詞：

self.tokenizer = jieba.dt
self.postokenizer = jieba.posseg.dt

其實就是分詞算法與詞性標註算法，查了下說兩者的原理都用到HMM與Viterbi算法，但是結果不一樣，個人理解就是兩個算法的訓練集不一樣。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

關鍵詞（一）jieba詞性標註與分詞結果不一致

hive任務RMContainerAllocator: REDUCE capability required is more than the supported max container

Python3讀取Hbase包hbase-thrift異常處理

Python連接Kafka問題彙總

在使用pandas 0.23.4對日期進行分組排序時報錯

【轉】推薦系統算法總結（一）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結