詞性標註（二）

分詞

詞的概念

分詞是自然語言處理的基礎，分詞準確度直接決定了後面的詞性標註、句法分析、詞向量以及文本分析的質量。英文語句使用空格將單詞進行分隔，除了某些特定詞，如how many，New York等外，大部分情況下不需要考慮分詞問題。但中文不同，天然缺少分隔符，需要讀者自行分詞和斷句。故在做中文自然語言處理時，我們需要先進行分詞。

中文分詞的三個難點

中文分詞不像英文那樣，天然有空格作爲分隔。而且中文詞語組合繁多，分詞很容易產生歧義。因此中文分詞一直以來都是NLP的一個重點，也是一個難點。難點主要集中在分詞標準，切分歧義和未登錄詞三部分。
1.分詞標準
比如人名，有的算法認爲姓和名應該分開，有的認爲不應該分開。這需要制定一個相對統一的標準。又例如“花草”，有的人認爲是一個詞，有的人認爲應該劃分開爲兩個詞“花/草”。某種意義上，中文分詞可以說是一個沒有明確定義的問題。
2.切分歧義
1.組合型歧義：分詞粒度不同導致的不同切分結果。比如“中華人民共和國”，粗粒度的分詞結果爲“中華人民共和國”，細粒度的分詞結果爲“中華/人民/共和國”。這種問題需.用場景來選擇。
2.交集型歧義：不同切分結果共用相同的字，前後組合的不同導致不同的切分結果。比如“商務處女幹事”，可以劃分爲“商務處/女幹事”，也可以劃分爲“商務/處女/幹事”。這也需要通過整句話來區分。
3.真歧義：本身語法或語義沒有問題，即使人工切分也會產生歧義。比如“下雨天留客天天留人不留”，可以劃分爲“下雨天/留客天/天留/人不留”，也可以劃分爲“下雨天/留客天/天留人不/留”。此時通過整句話還沒法切分，只能通過上下文語境來進行切分。如果是不想留客，則切分爲前一個。否則切分爲後一個。

3.未登錄詞

也叫新詞發現，或者生詞，未被詞典收錄的詞。

中文分詞算法

當前的分詞算法主要分爲兩類，基於詞典的規則匹配方法，和基於統計的機器學習方法。
基於詞典的分詞算法
基於詞典的分詞算法，本質上就是字符串匹配。將待匹配的字符串基於一定的算法策略，和一個足夠大的詞典進行字符串匹配，如果匹配命中，則可以分詞。根據不同的匹配策略，又分爲正向最大匹配法，逆向最大匹配法，雙向匹配分詞，全切分路徑選擇等。
基於統計的分詞算法
本質上是一個序列標註問題。我們將語句中的字，按照他們在詞中的位置進行標註。標註主要有：B（詞開始的一個字），E（詞最後一個字），M（詞中間的字，可能多個），S（一個字表示的詞）。例如“網商銀行是螞蟻金服微貸事業部的最重要產品”，標註後結果爲“BMMESBMMEBMMMESBMEBE”，對應的分詞結果爲“網商銀行/是/螞蟻金服/微貸事業部/的/最重要/產品”。
這類算法基於機器學習或者現在火熱的深度學習，主要有HMM，CRF，SVM，以及深度學習等。

總結

中文分詞是中文自然語言處理中的一個重要環節，爲後面的詞向量編碼，詞性標註，句法分析以及文本分析打下了堅實的基礎。同時，由於中文缺少空格等分隔符，並且漢字間的組合特別多，很容易產生歧義，這些都加大了中文分詞的難度。基於詞典的字符串匹配算法和基於統計的分詞算法，二者各有優缺點，我們可以考慮結合使用。

中文詞性標註學習筆記（二）---分詞

詞性標註（二）

分詞

中文分詞的三個難點

中文分詞算法

總結

相關學習連接

《算法圖解》----第二章：選擇排序

《算法圖解》----第八章：貪婪算法

《算法圖解》----第九章：動態規劃

《算法圖解》----第三章：遞歸

樹的基本概念和術語

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結