本文章主要以文本分詞爲入口,介紹詞向量、命名實體與詞性標註、語言模型等三大塊內容。
首先,我們看下文本分詞
文本分詞
文本分詞基本概要
文本分詞是自然語言處理中的一項基礎但是很重要的任務。我們從分詞的任務、挑戰來進行介紹。
文本分詞任務 | 文本分詞挑戰 |
---|---|
將文本以單詞爲基本單元進行劃分 | 單詞歧義 |
如何解決歧義呢?有許多算法被提出來用以解決這個問題,分別從中文分詞和英文分詞兩個方面進行梳理與介紹。
分詞類型 | 解決歧義的算法 | 算法舉例 | 弊端 |
---|---|---|---|
中文分詞 | 基於匹配的分詞,採用固定的匹配規則對輸入文本進行分詞 | 正向最大匹配、逆向最大匹配(錯誤率低於正向最大匹配) | 有些分詞並不一定準確,且依賴預先準備的詞表 |
英文分詞 | 空格分詞 | 正則或者空格分割 | 比如小數點、專有名詞中有空格,且依賴預先準備的詞表 |
逆向最大匹配的代碼實現:
上述的方法均依賴於預先設定的詞表。有沒有不依賴於預先設定的詞表呢?有,叫字節對編碼(Byte Pair Encoder, BPE),下面我們簡要介紹下這種分詞方法。