機器學習工程師--隱馬爾科夫鏈應用和主題模型

原創

gaoyishu91

2018-09-03 16:38

一：貝葉斯網絡

經典貝葉斯公式的理解：

P(A|B)=P(A,B)/P(B) 在B的條件下，A發生的概率等於，AB的聯合概率除以B的先驗概率。
P(B|A)=P(B,A)/P(A) 在A的條件下，B發生的概率等於，AB的聯合概率除以A的先驗概率。
有 P(A,B) = P(B,A) 聯合概率相等，就是A，B兩個圓的交集。
那麼，P(A|B) = P(B|A) * P(A)/P(B) 這樣，就能交換條件概率的條件了。通常發生在B條件不好求，但是A好求的情況下。

樸素貝葉斯：

一個 x = {a1,a2,a3...am}爲一個待分類的項，a是x的屬性。那麼，我就想通過x的這些屬性，把x分一個類。
類別這裏有~~~ y={y1,y2...yn} 好了，問題轉變成了當x有這些屬性時，x應該是哪一類。
問題又變成了，在x有這些屬性的條件下，屬於某一類的概率是多少。P(y1|x),P(y2|x)...P(yn|x) 有n個類別，不確定哪個類別是x的類別，所以每個類別都要求一次。
找到概率最大的maxP(yk|x)這個就是x的類別。

貝葉斯網絡：

網絡是一個DAG，有向無環圖。

有向，就是有方向的意思。上圖可以看到，a，b，c代表隨機變量x，a和b，a和c，b和c在圖上都有因果關係，就用箭頭表明，由a推出b，這個箭頭就有一個條件概率，在a的條件下生成b的概率。

詞性標註

詞性標註應用：給一個句子標註詞性。爲什麼：預處理句子，使得劃分句子簡單。猜詞簡單。

馬爾科夫鏈在句子詞性中的作用：對於英文句子而言，遵循一定的語法。比如，副詞後面接形容詞或者副詞或者動詞，那麼，對於這個句子來說，副詞i後面接的是adj或者v的概率是不同的，如果後面是adj，那adj後面是名詞還是and或者or的概率也是不同的，那麼，每個詞前後之間形成的關係形成了一個馬爾科夫鏈，這個馬爾科夫鏈是通過詞性連接的；對於一個我們能夠看到的句子而言，比如 this is a dog.this是代詞，is 是動詞，is後面可以接名詞或者形容詞或者副詞，這is和後面接的詞之間內部的關係我們是看不到的，我們只知道後面是a dog，名詞。說明接名詞的概率比adj的概率大。這樣，在這個我們可以看到的句子之後，就有一個隱藏的隱馬爾科夫鏈在後面，代表這個句子每個單詞詞性出現的概率，那麼,word代表我們看到的單詞，tag代表詞性，不難得出下面的貝葉斯方程。

那麼，我們想通過每一個單詞推出他們的詞性，很難，轉化爲通過tag推出單詞的條件概率就容易很多。

主題模型

LDA：無監督貝葉斯模型

對文檔的主題進行分類，按照概率的方式；不需要預先標註好的訓練集，只需要文檔集合分類的數量k；對於每一個主題可以找出一些詞進行描述，那這些單詞就是特徵；是一種典型的詞袋模型。
舉個例子：100個文檔，我想分成k=10個主題，並且不知道這10個主題是什麼。但是可以通過概率得到，比如主題1中很多足球的單詞，說明這些文檔體育出現的概率高，就和體育相關。

如何用

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習工程師--隱馬爾科夫鏈應用和主題模型

一：貝葉斯網絡

詞性標註

主題模型

985 碩士程序員，空窗 4 個月沒有 Offer！

營銷系統黑名單優化：位圖的應用解析

我真的從測試轉成了開發......

nginx添加相應配置，通過瀏覽器訪問或curl時返回客戶端對應公網IP

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

python內置函數——sorted

[oeasy]python020在遊戲中體驗數值自由_勇闖地下城_終端文字遊戲

爲何我建議你學會抄代碼

一文搞懂 Spring 循環依賴

抖音面試：說說延遲任務的調度算法？

面向對象編程（複習用）

網絡通信原理

正則表達式

XML模塊

Kaggle（一）：Titanic

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結