中文詞性標註學習筆記(一)---詞性標註概念

詞性標註(一)

前言

詞性標註也被稱爲語法標註或詞類消疑,是語料庫語言學中將語料庫內單詞的詞性按其含義和上下文內容進行標記的文本數據處理技術。
詞性標註可以由人工或特定算法完成,使用機器學習方法實現詞性標註是自然語言處理的研究內容。常見的詞性標註算法包括隱馬爾可夫模型、條件隨機場等。
詞性標註主要被應用於文本挖掘和NLP領域,是各類基於文本的機器學習任務,例如語義分析和指代消解的預處理步驟。

隱馬爾可夫模型

隱馬爾可夫模型(Hidden Markov Model,HMM)作爲一種統計分析模型,創立於20世紀70年代。80年代得到了傳播和發展,成爲信號處理的一個重要方向,現已成功地用於語音識別,行爲識別,文字識別以及故障診斷等領域。

隱馬爾可夫模型
通俗的理解隱馬爾可夫模型(摘抄自知乎)
還是用最經典的例子,擲骰子。假設我手裏有三個不同的骰子。第一個骰子是我們平常見的骰子(稱這個骰子爲D6),6個面,每個面(1,2,3,4,5,6)出現的概率是1/6。第二個骰子是個四面體(稱這個骰子爲D4),每個面(1,2,3,4)出現的概率是1/4。第三個骰子有八個面(稱這個骰子爲D8),每個面(1,2,3,4,5,6,7,8)出現的概率是1/8。

隱馬爾可夫模型
設我們開始擲骰子,我們先從三個骰子裏挑一個,挑到每一個骰子的概率都是1/3。然後我們擲骰子,得到一個數字,1,2,3,4,5,6,7,8中的一個。不停的重複上述過程,我們會得到一串數字,每個數字都是1,2,3,4,5,6,7,8中的一個。例如我們可能得到這麼一串數字(擲骰子10次):1 6 3 5 2 7 3 5 2 4這串數字叫做可見狀態鏈。但是在隱馬爾可夫模型中,我們不僅僅有這麼一串可見狀態鏈,還有一串隱含狀態鏈。在這個例子裏,這串隱含狀態鏈就是你用的骰子的序列。比如,隱含狀態鏈有可能是:D6 D8 D8 D6 D4 D8 D6 D6 D4 D8一般來說,HMM中說到的馬爾可夫鏈其實是指隱含狀態鏈,因爲隱含狀態(骰子)之間存在轉換概率(transition probability)。在我們這個例子裏,D6的下一個狀態是D4,D6,D8的概率都是1/3。D4,D8的下一個狀態是D4,D6,D8的轉換概率也都一樣是1/3。這樣設定是爲了最開始容易說清楚,但是我們其實是可以隨意設定轉換概率的。比如,我們可以這樣定義,D6後面不能接D4,D6後面是D6的概率是0.9,是D8的概率是0.1。這樣就是一個新的HMM。同樣的,儘管可見狀態之間沒有轉換概率,但是隱含狀態和可見狀態之間有一個概率叫做輸出概率(emission probability)。就我們的例子來說,六面骰(D6)產生1的輸出概率是1/6。產生2,3,4,5,6的概率也都是1/6。我們同樣可以對輸出概率進行其他定義。比如,我有一個被賭場動過手腳的六面骰子,擲出來是1的概率更大,是1/2,擲出來是2,3,4,5,6的概率是1/10。

隱馬爾可夫模型示意圖

隱含狀態轉換示意圖
訓練方法
馬爾可夫模型的隱狀態是詞性,顯狀態是單詞。

相關學習連接

https://www.bilibili.com/video/av27557638/?p=25
http://www.hankcs.com/nlp/part-of-speech-tagging.html
https://www.zhihu.com/question/20962240
https://baike.baidu.com/item/詞性標註

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章