朱晨光-機器閱讀理解:算法與實踐讀書筆記《第2章 自然語言處理基礎》

朱晨光-機器閱讀理解:算法與實踐讀書筆記《第2章 自然語言處理基礎》


本文章主要以文本分詞爲入口,介紹詞向量、命名實體與詞性標註、語言模型等三大塊內容。
首先,我們看下文本分詞

文本分詞

文本分詞基本概要

文本分詞是自然語言處理中的一項基礎但是很重要的任務。我們從分詞的任務、挑戰來進行介紹。

文本分詞任務 文本分詞挑戰
將文本以單詞爲基本單元進行劃分 單詞歧義

如何解決歧義呢?有許多算法被提出來用以解決這個問題,分別從中文分詞和英文分詞兩個方面進行梳理與介紹。

分詞類型 解決歧義的算法 算法舉例 弊端
中文分詞 基於匹配的分詞,採用固定的匹配規則對輸入文本進行分詞 正向最大匹配、逆向最大匹配(錯誤率低於正向最大匹配) 有些分詞並不一定準確,且依賴預先準備的詞表
英文分詞 空格分詞 正則或者空格分割 比如小數點、專有名詞中有空格,且依賴預先準備的詞表

逆向最大匹配的代碼實現:

上述的方法均依賴於預先設定的詞表。有沒有不依賴於預先設定的詞表呢?有,叫字節對編碼(Byte Pair Encoder, BPE),下面我們簡要介紹下這種分詞方法。

分詞方法

字節對編碼BPE

BPE的基本原理

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章