【機器學習】高斯判別分析

原創

2020-02-20 20:13

點擊上方藍色字體，關注AI小白入門喲

跟着博主的腳步，每天進步一點點

本文介紹了高斯判別分析，首先介紹生成模型，狹義的給出了生成模型與判別模型的一般區別；然後介紹高斯判別分析模型的三個基本假設：1）先驗概率服從伯努利分佈，2）條件概率服從高斯分佈，3）特徵的條件概率相互獨立（同線性模型中的特徵不相關）通過最大似然估計導出模型的參數；最後對比了判別模型中的邏輯迴歸，一般而言，高斯判別模型的假設條件強於邏輯迴歸，在模型選擇時需考慮數據的分佈和模型的適用場景。

作者 | 文傑

編輯 | yuquanle

高斯判別分析

A、生成模型

機器學習模型有一種分類方式：判別模型和生成模型。它們之間的區別在於判別模型是直接從數據特徵到標籤，而生成模型是從標籤到數據特徵。形式化的表示就是是否使用了貝葉斯公式：

機器學習模型從概率的角度來看就是最大的條件概率，判別模型的思想是直接最大化這個概率（Fisher線性判別，線性感知機），生成模型則是通過貝葉斯模型最大後驗概率，其中可以看作是從標籤生成數據，則是標籤的先驗概率。

基本上從標籤到數據的模型都是基於對樣本的統計，以下的模型都是基於數據的統計（但不全是生成模型），所以筆者將這部分歸類到統計概率模型。

B、高斯判別分析

高斯判別分析是一個典型的生成模型，其假設服從一個高斯分佈，服從一個伯努利分佈通過統計樣本來確定高斯分佈和伯努利分佈的參數，進而通過最大後驗概率來進行分類。

假設數據在標籤爲下，特徵爲的條件概率爲服從多元高斯分佈，其中爲均值，爲協方差矩陣。則有：

而先驗分佈服從伯努利分佈，當時，是一元伯努利分佈，當時，同樣可以像Logistic推廣到SoftMax一樣處理多元伯努利分佈。下面以一元伯努利分佈爲例計算完整的高斯判別模型的概率：

最大化後驗概率即爲：

極大似然函數有：

最大似然估計得到參數如下：

其中爲指示函數，同時假設，反映一類數據分佈的方差，可以看出最大似然估計的參數值就是基於對樣本的一個統計。

下圖爲一個簡單的高斯判別模型示意圖：

從上圖可以看出，高斯判別模型通過建立兩類樣本的特徵模型，對於二分類問題，然後通過比較後驗概率的大小來得到一個分類邊界。

回過頭來再看最小錯誤貝葉斯決策（Logistic迴歸）與一維高斯判別模型，有趣的是最後得到的決策函數也類似於sigmoid函數。

C、高斯判別模型與Logistic迴歸比較

高斯判別模型的假設是服從一個高斯分佈，服從一個伯努利分佈。

Logistic迴歸的概率解釋中可以看出它的假設是服從伯努利分佈。

由高斯判別分析模型可以得到，加上一些推導可以得到，反之不然：

其中，是參數的某種函數。也就是說高斯判別模型是Logistic迴歸模型中的一種特例。

這裏我們可以發現高斯判別模型的假設強於Logistic模型，也就是說Logistic迴歸模型的魯棒性更強。這就表示在數據量足夠大時，跟傾向於選擇Logistic迴歸模型。而在數據量較小，且服從一個高斯分佈非常合理時，選擇高斯判別分析模型更適合。

The End

方便交流學習，備註：暱稱-學校（公司）-方向，進入DL&NLP交流羣。

方向有很多：機器學習、深度學習，python，情感分析、意見挖掘、句法分析、機器翻譯、人機對話、知識圖譜、語音識別等。

記得備註呦

▼

往期精彩回顧

▼

新年送福氣|您有一份NLP大禮包待領取

自然語言處理中注意力機制綜述

達觀杯文本智能處理挑戰賽冠軍解決方案

長按二維碼關注
AI小白入門

ID:StudyForAI

學習AI學習ai(愛)

期待與您的相遇~

你點的每個贊，我都認真當成了喜歡

yuquanle 博客專家

發佈了220 篇原創文章 · 獲贊 115 · 訪問量 47萬+

他的留言板關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Postman 拷貝 curl 不識別 --data-raw

postman：請求路徑：拷貝出來的curl： curl --location --request POST 'http://xxxxxxxxxxxxx/xxx/xxx' \ --header 'Content-Type:

2024-06-06 14:26:55

985 碩士程序員，空窗 4 個月沒有 Offer！

大家好，我是R哥。最近，R哥分享了幾個特別有意思的面試輔導成功案例： 35K*14 薪入職了，這公司只要不裁員，我能一直呆下去。。幹了 2 年多 Java 外包，終於脫離了！輔導一週，連拿 3 個 Offer！說到

2024-06-06 14:24:35

（數據科學學習手札161）高性能數據分析利器DuckDB在Python中的使用

本文完整代碼及附件已上傳至我的Github倉庫https://github.com/CNFeffery/DataScienceStudyNotes 1 簡介　　大家好我是費老師，就在幾天前，經過六年多的持續開發迭代，著名的開源高性能分

2024-06-06 14:24:35

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

十年河東，十年河西，莫欺少年窮學無止境，精益求精先決條件主服務器也稱之爲分發服務器，從服務器稱之爲訂閱服務器下文皆按照主/從服務器稱呼主服務器和訂閱服務器需在同一個內網網絡內主服務器和訂閱服務器安裝相同版本sqlserver，本

2024-06-06 14:24:25

終於搞懂了！原來vue3中template使用ref無需.value是因爲這個

前言衆所周知，vue3的template中使用ref變量無需使用.value。還可以在事件處理器中進行賦值操作時，無需使用.value就可以直接修改ref變量的值，比如：<button @click="msg = 'Hello Vue3'

你假裝沒察覺

2024-06-06 14:24:14

調試chatglm4代碼

import torch from transformers import AutoModelForCausalLM, AutoTokenizer from modeling_chatglm import ChatGLMForConditi

張博的博客

2024-06-06 14:22:54

記一次 .NET某工控視覺自動化系統卡死分析

一：背景 1. 講故事今天分享的dump是訓練營裏一位學員的，從一個啥也不會到現在分析的有模有樣，真的是看他成長起來的，調試技術學會了就是真真實實自己的，話不多說，上windbg說話。二：WinDbg 分析 1. 爲什麼會卡死這位學員

2024-06-06 14:18:44

k8s組件和網絡插件掛掉，演示已有的pod是否正常運行

環境 03 master ,05 06是node [root@mcwk8s03 mcwtest]# kubectl get nodes -o wide NAME STATUS ROLES AGE VERSI

2024-06-06 14:16:54

創建一條隧道網絡，進行傳輸的時候，是否是轉換爲物理網卡IP進行通信？ k8s組件和網絡插件掛掉，演示已有的pod是否正常運行

由此產生的疑問： k8s組件和網絡插件掛掉，演示已有的pod是否正常運行【1】創建一條隧道網絡，進行傳輸的時候，是否是轉換爲物理網卡IP進行通信？在創建隧道網絡進行傳輸時，通常不會直接轉換爲物理網卡IP進行通信。

2024-06-06 14:16:54

aecmap直接用地理座標系計算面積

aecgis直接用地理座標系計算面積 1.添加字段，選擇雙精度 2.打開字段計算器，選擇python 3.輸入： !Shape.geodesicArea!/1000000 　4.計算 @ouyang 翻譯搜索

2024-06-06 14:16:34

java由於越界導致的報錯

問題兩種計算時間戳的結果不一樣。 int days = 30; Instant now = Instant.now(); long timestamp_cur = now.toEpochMilli(); long nowPre = ti

2024-06-06 14:11:03

webDav網盤

今天又學習到了，優點是直接用IIS或nginx等發佈，使用80或443端口。 Windows Server 安裝 WebDAV (步驟超詳細) - 鄭道傑 - 博客園 (cnblogs.com) 全網最詳細 WebDAV 搭建文檔（Wi

2024-06-06 14:09:13

NFS，smb和數據庫文件

nfs的搭建網上有很多，可自行查看 Windows Server2012 R2搭建NFS服務器 - 知乎 (zhihu.com) 其中Windows10家庭版不支持NFS客戶端，目前Windows上的協議是V3版本，防火牆上有NFS的選項，

2024-06-06 14:09:13

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

通過大模型來實現多個智能體進行遊戲對局這個想對已經比較成熟了無論是去年驚豔的斯坦福小鎮還是比如metaGPT或者類似的框架都是使用智能體技術讓大模型來操控，從而讓大模型跳出自身“預測下一個token”的文字功能去探索更多的應用落地可能性。不

2024-06-06 14:08:23

python內置函數——sorted

對List、Dict進行排序，Python提供了兩個方法對給定的List L進行排序，方法1.用List的成員函數sort進行排序，在本地進行排序，不返回副本方法2.用built-in函數sorted進行排序（從2.4開始），返回副本

python學習者0

2024-06-06 14:07:53

24小時熱門文章

最新文章

最新評論文章