標註問題

標註問題是分類問題的一個推廣,是更復雜的結構預測問題的一個簡單的形式。


輸入是一個觀測序列,輸出是一個標記序列或者狀態序列。其目的是學習一個模型,使得對於觀測序列能夠給出一個標記序列作爲預測。注意標記個數是有限的,但其組合所成的標記序列的個數是隨着序列長度成指數級增長的。


學習系統基於訓練數據集構建一個模型,表示爲條件概率分佈.p(Y1,Y2...YN|X1,X2...XN)

每一個xi取值爲所以可能的觀測,每一個Yi取值爲所有可能的標記。


標註系統按照學習得到的條件概率分佈模型,對新的輸入觀測序列找到相應的輸出標記序列。

對於輸入的觀測序列找到使條件概率最大的標記序列。


評價標記系統的指標和評價分類系統的指標一樣,常用的有準確率,精確率,召回率。


標註常用的統計學習方法有:隱馬爾科夫模型,條件隨機場。


應用範圍:信息抽取,自然語言處理。



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章