中文詞性標註學習筆記(二)---分詞

詞性標註(二)

分詞

詞的概念
詞的概念
分詞是自然語言處理的基礎,分詞準確度直接決定了後面的詞性標註、句法分析、詞向量以及文本分析的質量。英文語句使用空格將單詞進行分隔,除了某些特定詞,如how many,New York等外,大部分情況下不需要考慮分詞問題。但中文不同,天然缺少分隔符,需要讀者自行分詞和斷句。故在做中文自然語言處理時,我們需要先進行分詞。

中文分詞的三個難點

中文分詞不像英文那樣,天然有空格作爲分隔。而且中文詞語組合繁多,分詞很容易產生歧義。因此中文分詞一直以來都是NLP的一個重點,也是一個難點。難點主要集中在分詞標準,切分歧義和未登錄詞三部分。
1.分詞標準
比如人名,有的算法認爲姓和名應該分開,有的認爲不應該分開。這需要制定一個相對統一的標準。又例如“花草”,有的人認爲是一個詞,有的人認爲應該劃分開爲兩個詞“花/草”。某種意義上,中文分詞可以說是一個沒有明確定義的問題。
2.切分歧義
1.組合型歧義:分詞粒度不同導致的不同切分結果。比如“中華人民共和國”,粗粒度的分詞結果爲“中華人民共和國”,細粒度的分詞結果爲“中華/人民/共和國”。這種問題需.用場景來選擇。
2.交集型歧義:不同切分結果共用相同的字,前後組合的不同導致不同的切分結果。比如“商務處女幹事”,可以劃分爲“商務處/女幹事”,也可以劃分爲“商務/處女/幹事”。這也需要通過整句話來區分。
3.真歧義:本身語法或語義沒有問題,即使人工切分也會產生歧義。比如“下雨天留客天天留人不留”,可以劃分爲“下雨天/留客天/天留/人不留”,也可以劃分爲“下雨天/留客天/天留人不/留”。此時通過整句話還沒法切分,只能通過上下文語境來進行切分。如果是不想留客,則切分爲前一個。否則切分爲後一個。

3.未登錄詞

也叫新詞發現,或者生詞,未被詞典收錄的詞。

中文分詞算法

當前的分詞算法主要分爲兩類,基於詞典的規則匹配方法,和基於統計的機器學習方法。
基於詞典的分詞算法
基於詞典的分詞算法,本質上就是字符串匹配。將待匹配的字符串基於一定的算法策略,和一個足夠大的詞典進行字符串匹配,如果匹配命中,則可以分詞。根據不同的匹配策略,又分爲正向最大匹配法,逆向最大匹配法,雙向匹配分詞,全切分路徑選擇等。
基於統計的分詞算法
本質上是一個序列標註問題。我們將語句中的字,按照他們在詞中的位置進行標註。標註主要有:B(詞開始的一個字),E(詞最後一個字),M(詞中間的字,可能多個),S(一個字表示的詞)。例如“網商銀行是螞蟻金服微貸事業部的最重要產品”,標註後結果爲“BMMESBMMEBMMMESBMEBE”,對應的分詞結果爲“網商銀行/是/螞蟻金服/微貸事業部/的/最重要/產品”。
這類算法基於機器學習或者現在火熱的深度學習,主要有HMM,CRF,SVM,以及深度學習等。

總結

中文分詞是中文自然語言處理中的一個重要環節,爲後面的詞向量編碼,詞性標註,句法分析以及文本分析打下了堅實的基礎。同時,由於中文缺少空格等分隔符,並且漢字間的組合特別多,很容易產生歧義,這些都加大了中文分詞的難度。基於詞典的字符串匹配算法和基於統計的分詞算法,二者各有優缺點,我們可以考慮結合使用。

相關學習連接

http://ssvideo.superlib.com/cxvideo/play/page?sid=1586&vid=28434&d=77edee6d216507e5ece667cef95799ea&cid=236
https://blog.csdn.net/u013510838/article/details/81673016

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章