自然語言處理之文本標註問題

原創

2020-07-03 11:57

文本標註 (tagging) 是一個監督學習問題，可以認爲標註問題是分類問題的一個推廣，標註問題又是更復雜的結構預測 (structure prediction) 問題的簡單形式，標註問題的輸入是一個觀測序列，輸出是一個標記序列護着狀態序列，標註問題的目標在於學習一個模型，使它能夠對觀測序列給出標記序列作爲預測，注意的是可能的標記個數是有限的，但其組合所成的標記序列的個數是依序列長度呈指數級增長的。

標註問題氛圍學習和標註兩個過程(如上圖所示)，首先給定一個訓練數據集：

在這裏xi爲輸入觀測序列 (一維向量)，yi爲相應的輸出觀測序列 (一維向量)，每個輸入觀測序列向量的長度爲n，對不同樣本具有不一樣的值，學習系統基於訓練數據集構建一個模型，表示爲條件概率分佈：

這裏的每個xi(i=1,2,...,n)取值爲所有可能的觀測，每個Yi (i = 1,2..., n)取值爲所有可能的標記，一般n遠小於N，標註系統按照學習得到的條件概率分佈模型，對新輸入觀測序列找到相應的輸出標記序列。具體的對每一個觀測序列，找到上式中概率最大的標記序列。

評價標註模型的指標與評價分類模型的指標一樣，常用的有標註準確率，精確率和召回率。

標註問題常用的統計學方法有：詳解隱馬爾可夫模型(HMM)和自然語言模型之條件隨機場理論(CRF)，這兩個模型，之前的文章有介紹過。

標註問題在信息抽取，自然語言處理等領域被廣泛應用，是這些領域的基本問題。例如，自然語言處理中的詞性標註就是一個典型的標註問題：給定一個由單詞組成的句子，對這個句子中的每一個單詞進行詞性標註，即對一個單詞序列預測其對應的詞性標記序列。

舉一個信息抽取的例子，從英文文章中抽取基本名詞短語，爲此，要對文章進行標註。英文單詞是一個觀測，英文句子是一個觀測序列，標記表示名詞短語的"開始"、"結束"或“其它”。標記序列表示英文句子中基本名詞短語的所在位置。信息抽取時，將標記“開始”到標記“結束”的單詞作爲名詞短語。

標註模型的評價指標

標註問題常用的評價指標是精確率 (precision )，召回率 (recall) 和F1值，它和分類問題的評價指標相同，爲了簡便，這裏使用分類來進行說，通常標註模型在測試數據集上的預測和或正確或不正確，4中情況出現的總數分別記作：

TP：將正確類預測爲正類數

FP：將正類預測爲負類數

FP：將負類預測爲正類數

TN：將負類預測爲負類數

那麼精確率定義爲：P = TP / (TP + FP)

召回率定義爲: R = TP / (TP + FN)

F1值是根據精確率和召回率來進行計算的表達式爲:

2/ F1 = 1/ P + 1/ R

即：F1 = 2TP /( 2TP + FP + FN)

一般精確率和召回率都高時，F1值也會很高。

參考學習資料：

[1] 統計學習方法：李航

文章來源於微信公衆號：言處理技術，更多內容請訪問該公衆號。

歡迎關注公衆號學習

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

自然語言處理之文本標註問題

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

linux安裝cuda和cudnn

Mellanox網卡開啓SR-IOV

模擬手機設備：使用 Playwright 實現移動端自動化測試

HTML 00 Tutorial

全面系統的AI學習路徑，幫助普通人也能玩轉AI

從零開始：使用 Playwright 腳本錄製實現自動化測試

uni-app實現上拉加載

自然語言處理模型之GRU和LSTM網絡模型總結

用深度學習構造聊天機器人簡介

自然語言處理之維特比(Viterbi)算法

自然語言處理技術之準確率(Precision)、召回率(Recall)、F值(F-Measure)簡介

爬蟲學習：scrapy相關的知識

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結