機器學習工程師--隱馬爾科夫鏈應用和主題模型

一:貝葉斯網絡

經典貝葉斯公式的理解:

  • P(A|B)=P(A,B)/P(B) 在B的條件下,A發生的概率等於,AB的聯合概率除以B的先驗概率。
  • P(B|A)=P(B,A)/P(A) 在A的條件下,B發生的概率等於,AB的聯合概率除以A的先驗概率。
  • 有 P(A,B) = P(B,A) 聯合概率相等,就是A,B兩個圓的交集。
  • 那麼,P(A|B) = P(B|A) * P(A)/P(B) 這樣,就能交換條件概率的條件了。通常發生在B條件不好求,但是A好求的情況下。

樸素貝葉斯:

  • 一個 x = {a1,a2,a3...am}爲一個待分類的項,a是x的屬性。那麼,我就想通過x的這些屬性,把x分一個類。
  • 類別這裏有~~~ y={y1,y2...yn} 好了,問題轉變成了 當x有這些屬性時,x應該是哪一類。
  • 問題又變成了,在x有這些屬性的條件下,屬於某一類的概率是多少。P(y1|x),P(y2|x)...P(yn|x) 有n個類別,不確定哪個類別是x的類別,所以每個類別都要求一次。
  • 找到概率最大的maxP(yk|x)這個就是x的類別。

貝葉斯網絡:

網絡是一個DAG,有向無環圖。


  • 有向,就是有方向的意思。上圖可以看到,a,b,c代表隨機變量x,a和b,a和c,b和c在圖上都有因果關係,就用箭頭表明,由a推出b,這個箭頭就有一個條件概率,在a的條件下生成b的概率








詞性標註

詞性標註應用:給一個句子標註詞性。爲什麼:預處理句子,使得劃分句子簡單。猜詞簡單。

馬爾科夫鏈在句子詞性中的作用:對於英文句子而言,遵循一定的語法。比如,副詞後面接形容詞或者副詞或者動詞,那麼,對於這個句子來說,副詞i後面接的是adj或者v的概率是不同的,如果後面是adj,那adj後面是名詞還是and或者or的概率也是不同的,那麼,每個詞前後之間形成的關係形成了一個馬爾科夫鏈,這個馬爾科夫鏈是通過詞性連接的;對於一個我們能夠看到的句子而言,比如 this is a dog.this是代詞,is 是動詞,is後面可以接名詞或者形容詞或者副詞,這is和後面接的詞之間內部的關係我們是看不到的,我們只知道後面是a dog,名詞。說明接名詞的概率比adj的概率大。這樣,在這個我們可以看到的句子之後,就有一個隱藏的隱馬爾科夫鏈在後面,代表這個句子每個單詞詞性出現的概率,那麼,word代表我們看到的單詞,tag代表詞性,不難得出下面的貝葉斯方程。


那麼,我們想通過每一個單詞推出他們的詞性,很難,轉化爲通過tag推出單詞的條件概率就容易很多。


主題模型

LDA:無監督貝葉斯模型

對文檔的主題進行分類,按照概率的方式;不需要預先標註好的訓練集,只需要文檔集合分類的數量k;對於每一個主題可以找出一些詞進行描述,那這些單詞就是特徵;是一種典型的詞袋模型。
舉個例子:100個文檔,我想分成k=10個主題,並且不知道這10個主題是什麼。但是可以通過概率得到,比如主題1中很多足球的單詞,說明這些文檔體育出現的概率高,就和體育相關。

如何用

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章