自然語言處理之文本標註問題

文本標註 (tagging) 是一個監督學習問題,可以認爲標註問題是分類問題的一個推廣,標註問題又是更復雜的結構預測 (structure prediction) 問題的簡單形式,標註問題的輸入是一個觀測序列,輸出是一個標記序列護着狀態序列,標註問題的目標在於學習一個模型,使它能夠對觀測序列給出標記序列作爲預測,注意的是可能的標記個數是有限的,但其組合所成的標記序列的個數是依序列長度呈指數級增長的。



標註問題氛圍學習和標註兩個過程(如上圖所示),首先給定一個訓練數據集:


在這裏xi爲輸入觀測序列 (一維向量),yi爲相應的輸出觀測序列 (一維向量),每個輸入觀測序列向量的長度爲n,對不同樣本具有不一樣的值,學習系統基於訓練數據集構建一個模型,表示爲條件概率分佈:


這裏的每個xi(i=1,2,...,n)取值爲所有可能的觀測,每個Yi (i = 1,2..., n)取值爲所有可能的標記,一般n遠小於N,標註系統按照學習得到的條件概率分佈模型,對新輸入觀測序列找到相應的輸出標記序列。具體的對每一個觀測序列,找到上式中概率最大的標記序列。


評價標註模型的指標與評價分類模型的指標一樣,常用的有標註準確率,精確率和召回率。


標註問題常用的統計學方法有:詳解隱馬爾可夫模型(HMM)自然語言模型之條件隨機場理論(CRF),這兩個模型,之前的文章有介紹過。


標註問題在信息抽取,自然語言處理等領域被廣泛應用,是這些領域的基本問題。例如,自然語言處理中的詞性標註就是一個典型的標註問題:給定一個由單詞組成的句子,對這個句子中的每一個單詞進行詞性標註,即對一個單詞序列預測其對應的詞性標記序列。


舉一個信息抽取的例子,從英文文章中抽取基本名詞短語,爲此,要對文章進行標註。英文單詞是一個觀測,英文句子是一個觀測序列,標記表示名詞短語的"開始"、"結束"或“其它”。標記序列表示英文句子中基本名詞短語的所在位置。信息抽取時,將標記“開始”到標記“結束”的單詞作爲名詞短語。


標註模型的評價指標

標註問題常用的評價指標是精確率 (precision ),召回率 (recall) 和F1值,它和分類問題的評價指標相同,爲了簡便,這裏使用分類來進行說,通常標註模型在測試數據集上的預測和或正確或不正確,4中情況出現的總數分別記作:

TP:將正確類預測爲正類數

FP:將正類預測爲負類數

FP:將負類預測爲正類數

TN:將負類預測爲負類數

那麼精確率定義爲:P = TP / (TP + FP)

召回率定義爲: R = TP / (TP + FN)

F1值是根據精確率和召回率來進行計算的表達式爲:

2/ F1 = 1/ P + 1/ R

即:F1 = 2TP /( 2TP + FP + FN)

一般精確率和召回率都高時,F1值也會很高。


參考學習資料:

[1] 統計學習方法: 李航


文章來源於微信公衆號:言處理技術,更多內容請訪問該公衆號。


歡迎關注公衆號學習

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章