條件隨機場導論

條件隨機場導論

       假設你有一系列有關jack一天生活的照片,並且你想知道這些給這些圖片都貼上一個標籤,這個標籤將描述jack在照片中的相關活動(例如,吃飯,睡覺,開車等等),那麼你將如何做呢?

        一種簡單的方法是直接忽略這些照片之間的時間序列關係,構建一個直接的針對單獨一張圖片的分類器。舉個例子,給定某個月已經標記了的圖片,你可以學習到昏暗的關六點鐘的圖片的應該是jack還在睡覺的圖片,一張顏色斑斕的圖片很有可能是jack在跳舞的圖片,當然一張有很多車的圖片就應該是jack在開車。

        上面的方法忽略了圖片序列之間的相互聯繫,但是這樣處理會丟失很多有用的信息。舉個例子,如果有一張有關jack的圖片張着嘴巴的圖片,這張圖片是在唱歌還是吃飯呢?如果你知道前一張圖片是有關jack在吃飯或者煮飯,那麼這張圖片就更有可能是jack在吃飯,如果前一張圖片是jack在唱歌或者跳舞,那麼這時候這張圖片更有可能是jack在唱歌。

因此,爲了增加標註的準確性,我們應該充分考慮上下文信息,而條件隨機場就是這樣一種模型。

詞性標註

這裏先介紹一些有關詞性標註的知識,假設我們有很多詞性標註的樣本。

詞性標註的目標是給一個句子的詞進行詞性標註,每個單詞的可以標記爲如下:ADJECTIVE, NOUN, PREPOSITION, VERB, ADVERB, ARTICLE等等。

舉個例子,如果有一個句子內容是“jack drank coffee at Starbucks”。這個句子的標註是“jack(Noun)  drank(VERB) coffee(NOUN) at(PREPOSITION)Starbucks(NOUN)”。

現在我們的目標就是利用條件隨機場來給句子進行詞性標註。條件隨機場和很多其他的分類器類,都需要進行特徵函數的定義。

特徵模板的定義

在CRF中,特徵函數是將是該模型的輸入,假設有如下的信息:

  • 需要標註的句子s
  • 每個單詞在句子中的位置
  • 當前單詞的標記
  • 上一個單詞的標記

     在這裏我假設每個單詞的標註僅與當前的單詞和上一個單詞相關,而不是與句子中的隨意一個單詞相關,基於這種假設的條件隨機場稱爲線性條件隨機場。

我們可以假設有一個模板是這樣的,一個單詞在前一個單詞爲“very”的情況下親被標記爲adjective的可能性。


特徵函數舉例

那麼特徵函數應該如何使用呢?以詞性標註爲例,我們可以使用如下的特徵函數:

  1.     ,如果Li標記爲ADVERB並且當前單詞以“ly”結尾則特徵函數的值爲1,否則該特徵值爲0;這個特徵會有一個權重函數,如果該權重很大。
  2.    ,特徵函數的值取1,當且僅當i=1 and =VERB,並且該句子以問號結尾;否則該特徵的值就是0。如果該特徵有一個大的正權重,那麼模型就認爲將疑問句中的第一個單詞標記爲VERB的可能性就會很大。
  3. ,如果前一個詞是形容詞,並且當前的單詞標記爲NOUN,那麼特徵函數的取值就是1,否則爲0。如果該特徵有一個大的正權重,那麼模型就認爲講一個形容詞後面的詞標記爲名詞的可能性很大。
  4.   ,如果前一個單詞標記爲PEPOSITION並且當前單詞也被標記爲PREPOSITION。如果該特徵函數的權重爲一個負值,那麼就意味着模型認爲PEPOSITION後面不應該標記爲PEPOSITION。

         有了上面這些特徵函數之後我們需要做的就是將這些特徵函數組合起來,加權之後的和可以轉換爲一個相應的概率。接下來本文將對CRF和一些其他的機器學習的方法進行比較。

與Logistic Regression進行比較

        CRF標記一個序列串的概率公式如下:

        

        這個和Logistic Regression很像。但是Logistic Regression是用於對付一個單個事物的分類,而CRF是用於一個序列的分類。

與HMM進行比較

         HMM模型是另外一個比較常用的用來標記序列標籤的模型。CRF模型使用的是判別式模型,也就是講所有的特徵函數的加權求和,然後做相應的轉換之後得到相應標註序列的分值。而HMM模型使用的是生成式模型。主要是考慮如何使得聯合概率最大化:

       

        其中

  • 是狀態轉移概率
  • 是發射概率,就是在某種狀態下產生某種標記的概率

         事實上,如果你足夠細心並且善於分析,那麼你會發現,HMM是CRF的一個特例。CRF將能夠勝任更加複雜的事情。

        在HMM模型中,這個模型可以通過巧妙地選取CRF模型的特徵函數得到。通過如下的方式可以將CRF模型轉換爲HMM模型。

  • 對每一個狀態轉移概率,我們定義CRF特徵函數如下 當 li=y 並且li−1=x。
  • 類似的每一個發射概率可以映射爲CRF中的如下特徵函數:當且僅當wi=z 並且li=x。

        通過使用上面的特徵函數,我們可以將CRF轉換爲HMM模型,也就說每一個HMM模型都可以通過CRF模型進行描述。也正是如此,我們可以說CRF模型比HMM模型更加有用,能夠標記更加豐富的標記序列。

  • CRF 可以定義更加豐富得特徵函數,這些特徵函數可以囊括所有HMM的特徵,這是因爲HMM模型嚴格的限制了標記序列的生成過程,認爲每一個標記僅僅依賴於上一個標記序列,但是CRF可以使用很多豐富的限制更少的特徵,例如,前面說到的標記一個出現在句首並且以問號結尾的句子中的單詞爲VERB。這個在HMM模型中是無法做到的。
  • CRF模型可以使用任意權重,但是HMM模型對權重有着嚴格的概率限制,因爲它必須符合概率論的基本定理()。但是CRF模型的概率卻是沒有限制的。







發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章