生成模型和判別模型

輸入變量與輸出變量均爲連續變量的預測問題成爲迴歸問題;

輸出變量爲有限個離散變量的預測問題稱爲分類問題;

輸入變量與輸出變量均爲序列的預測問題稱爲標註問題。

1生成模型

    生成模型估計的是聯合概率分佈(joint probability distribution),p(y, x)=p(y|x)*p(x),由數據學習聯合概率密度分佈P(X,Y),然後求出條件概率分佈P(Y|X)作爲預測的模型,即生成模型:P(Y|X)= P(X,Y)/ P(X)。基本思想是首先建立樣本的聯合概率概率密度模型P(X,Y),然後再得到後驗概率P(Y|X),再利用它進行分類。生成方法關心的是給定輸入x產生輸出y的生成關係。

   生成模型的特點:一般主要是對後驗概率建模,從統計的角度表示數據的分佈情況,能夠反映同類數據本身的相似度。只關注自己的inclass本身,不關心到底 decision boundary在哪。
- 優點:
    實際上帶的信息要比判別模型豐富,
    研究單類問題比判別模型靈活性強
    模型可以通過增量學習得到
    能用於數據不完整(missing data)情況
    modular construction of composed solutions to complex problems
    prior knowledge can be easily taken into account
    robust to partial occlusion and viewpoint changes
   can tolerate significant intra-class variation of object appearance
- 缺點:
    tend to produce a significant number of false positives. This is particularly true for object classes which share a high visual similarity such as horses and cows
    學習和計算過程比較複雜

2判別模型

   判別模型估計的是條件概率分佈(conditional distribution), p(y|x),是給定觀測變量x和目標變量y的條件模型。由數據直接學習決策函數y=f(X)或者條件概率分佈P(y|x)作爲預測的模型。判別方法關心的是對於給定的輸入X,應該預測什麼樣的輸出Y。

判別模型的特點:判別模型是尋找不同類別之間的最優分類面,反映的是異類數據之間的差異。

- 優點:
    分類邊界更靈活,比使用純概率方法或生產模型得到的更高級。
    能清晰的分辨出多類或某一類與其他類之間的差異特徵
   在聚類、viewpoint changes, partial occlusion and scale variations中的效果較好
    適用於較多類別的識別
    判別模型的性能比生成模型要簡單,比較容易學習
- 缺點:
    不能反映訓練數據本身的特性。能力有限,可以告訴你的是1還是2,但沒有辦法把整個場景描述出來。
    Lack elegance of generative: Priors, 結構, 不確定性
    Alternative notions of penalty functions, regularization, 核函數
    黑盒操作: 變量間的關係不清楚,不可視

3兩者之間的關係

由生成模型可以得到判別模型,但由判別模型得不到生成模型。當存在隱變量(當我們找不到引起某一現象的原因的時候,我們就把這個在起作用,但是,無法確定的因素,叫“隱變量”) 時,仍可以利用生成方法學習,此時判別方法不能用。

4典型應用

生成模型:樸素貝葉斯方法、隱馬爾可夫模型

判別模型:k近鄰法、感知機、決策樹、邏輯斯諦迴歸模型、最大熵模型、支持向量機、提升方法、條件隨機場

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章