關於機器學習中的生成學習算法（Generative Learning Algorithm）

原創

2020-02-22 11:04

我們之前可能接觸到一些線性迴歸的案例，以至於廣義線性模型GLM等等之類的，這些模型呢，都是在給定訓練集合，而且這些訓練集有着確定的輸入和輸出，我們通過利用這些訓練集來構建預測函數，從而實現預測，判斷之類的功能。

舉個簡單的例子，我們需要將大象和狗分類，以往的做法是，利用特徵來畫出分界線，那麼下一次我們只需要輸入特徵就可以利用這條分界線來判斷這隻動物是大象還是狗了。那麼還有另一種方法，如果我們先觀察大象，然後建立出大象的模型，然後觀察狗，建立狗的模型，然後一旦我們想區分狗和大象，只需要看這隻動物和兩個模型中的哪一個更加匹配。這就逐漸引出了生成學習算法。

判別學習算法在於試着去直接學習f(y|x)（即以x的條件的y的概率密度，我們就可以計算出y的期望，通過x來預測y）或者直接去學習從給定的一組輸入X到{0,1}的映射

而現在，我們討論的生成學習算法則是試着對f(x|y)(以及f(y))建模，通過y這一結果來對所需要判斷之物的特徵進行建模。在我們對f(y)（先驗概率分佈）和f(x|y)進行建模後,我們的算法就可以利用貝葉斯定理來計算出f(y|x)的概率分佈

說到這裏你可能會問了，那麼這個f（x）怎麼求呀？

很簡單，利用全概率公式就可以了

如果是因變量是離散的，舉個例子，伯努利分佈的因變量

如果因變量是連續的

通過上圖可以知道連續型全概率公式，通過對邊緣概率分佈函數積分可以得到。

接下來我們舉一個生成學習算法的例子--------高斯判別分析（GDA）

在高斯判別分析中，首先我們假定f(x|y)的概率分佈是多維高斯分佈，或者說是多維正態分佈，接着給出兩個參數，一個是多維協方差Σ（n×n矩陣），一個是均值向量μ（n維）

好的，現在我們把維度都設爲n維，那麼對於多維正態分佈來說，有

接着我們需要建立起來高斯判別分析模型來解決分類問題，前提是x是連續的隨機變量

這個模型如圖所示：

通過上面的概率分佈我們可以寫出概率密度函數

現在看一下我們模型的參數，有

可以寫出關於這四個參數的對數似然函數

在這裏補充一點，我們現在是在進行極大似然估計，當我們知道樣本變量的分佈之後卻不知道他們的參數，那就可以用極大似然估計來估計他們的參數。

很顯然這裏有多個變量，現在需要計算似然函數的極值，可以通過求偏導數來獲得參數的極大似然估計

對第一個參數求偏導

令偏導等於0，得

對第二個參數求偏導

令偏導數=0，可以得到

這裏我再給出另外得兩個參數得極大似然估計

其中1{true}=1，1{false}=0

至此我們通過極大似然估計能夠得到四個參數，再利用我們之前的結論就可以求出f(y|x),通過求出期望便可以求出預測值。至此，你應該對生成學習算法，以及高斯判別分析模型有一定的瞭解了。

發佈了45 篇原創文章 · 獲贊 12 · 訪問量 4萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

探索未知：風靡硅谷開發者的 Unstructured Data Meetup 即將登陸中國

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過

2024-05-15 21:26:01

爲程序員和新手準備的 8 大 Python 工具

Python 是一種開源編程語言，用於 Web 編程、數據科學、人工智能和許多科學應用。學習 Python 使程序員能夠專注於解決問題，而不是專注於語法，其豐富的庫賦予它完成偉大任務所需的力量。 1) IDLE 安裝 Python 時

2024-05-14 01:06:43

我宣佈，這是我找到的史上AI最全論文體系！

在碎片化閱讀充斥眼球的時代，越來越少的人會去關注每篇論文背後的探索和思考。搞AI，不少人都進入一個誤區，那就是隻鑽研自己的代碼是否精進，而沒有注意提升自己的閱讀能力。實際上，一個專業的學術研究員或者AI研究員可能需要花費幾百個小

2024-05-13 21:33:50

探索未知：風靡硅谷開發者的 Unstructured Data Meetup 即將登陸中國l

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過 80% 的

2024-05-13 21:25:35

攻擊者正在利用AI，對保險公司發起大規模欺詐

保險欺詐一直是保險行業面臨的重要挑戰之一，尤其隨着技術的進步，欺詐者也在不斷更新其手段，利用AI技術，包括生成式模型、機器學習和數據分析工具等欺騙保險公司，而AI技術的應用正成爲他們的新工具，使其犯罪行爲更加隱蔽和複雜，挑戰保險行業的防欺詐

2024-05-10 00:55:17

理論+實踐，帶你瞭解分佈式訓練

本文分享自華爲雲社區《大模型LLM之分佈式訓練》，作者：碼上開花_Lancer。隨着語言模型參數量和所需訓練數據量的急速增長，單個機器上有限的資源已無法滿足大語言模型訓練的要求。需要設計分佈式訓練（Distributed Trainin

2024-05-08 22:38:41

2024年DataOps趨勢預測：AI不會取代數據工程師

APM digest收集了多位行業專家對DataOps在2024的發展形勢及對IT和業務的影響的預測，這些技術最高管理者，包括Confluent技術戰略負責人Andrew Sellers的深刻洞見可能與你的感覺一致嗎？快來探討一下。數據可

2024-04-30 11:49:29

數字化轉型新篇章：企業通往智能化的新範式

早在十多年前，一些具有前瞻視野的企業以實現“數字化”爲目標啓動轉型實踐。但時至今日，可以說尚無幾家企業能夠在真正意義上實現“數字化”。在實現“數字化”的征途上，人們發現，努力愈進，彷彿終點愈遠。究其原因，還在於轉型一直落後於技術邊界的拓展

2024-04-29 21:22:20

Stable Diffusion中的embedding

Stable Diffusion中的embedding 嵌入，也稱爲文本反轉，是在 Stable Diffusion 中控制圖像樣式的另一種方法。在這篇文章中，我們將學習什麼是嵌入，在哪裏可以找到它們，以及如何使用它們。什麼是嵌入embe

2024-04-25 21:31:13

AI從入門到入門之手寫數字識別模型java方式Dense全連接神經網絡實現

前言：授人以魚不如授人以漁.先學會用，在學原理，在學創造，可能一輩子用不到這種能力，但是不能不具備這種能力。這篇文章主要是介紹算法入門Helloword之手寫圖片識別模型java中如何實現以及部分解釋。目前大家對於人工智能-機器學習-神經網

2024-04-19 23:17:21

Pinecone: 大模型時代的智能索引與搜索解決方案

隨着人工智能技術的飛速發展，大模型（Large Models）已成爲衆多領域的重要工具。無論是自然語言處理、圖像識別還是其他複雜任務，大模型都展現出了強大的性能。然而，隨着模型規模的不斷擴大，數據量的激增，如何有效地管理、索引和搜索這些模型

2024-04-19 11:29:43

軟件測試從自動化到智能化，大模型開始加入

隨着科技的飛速發展，軟件行業也在不斷地演進和創新。作爲軟件行業的關鍵環節之一，軟件測試行業也在經歷着前所未有的變革。從最初的手動測試，到自動化測試，再到如今的智能化測試，軟件測試行業正在經歷一場深刻的技術革命。在這場革命中，Testin雲測

2024-04-19 00:53:25

裁員了！別錯過2024年大數據工程師必備的10項技能

在當今快速發展的世界中，數據被視爲新的石油。隨着對數據驅動洞察的日益依賴，大數據工程師的角色比以往任何時候都更爲關鍵。這些專業人員在管理和優化組織內的數據操作中扮演着至關重要的角色。在本文中，我們將探索2024年大數據工程師必須具備的十

2024-04-16 11:00:53

DevOps已死？2024年的DevOps將如何發展

隨着我們進入2024年，DevOps也隨之發生變化。新興的技術、變化的需求和發展的方法正在重新定義有效實施DevOps實踐。 IDC預測顯示，未來五年，支持DevOps實踐的產品市場繼續保持健康且快速增長，2022年-2027年的複合年增長

2024-04-08 12:51:44

從模型到部署，教你如何用Python構建機器學習API服務

本文分享自華爲雲社區《Python構建機器學習API服務從模型到部署的完整指南》，作者：檸檬味擁抱。在當今數據驅動的世界中，機器學習模型在解決各種問題中扮演着重要角色。然而，將這些模型應用到實際問題中並與其他系統集成，往往需要構建API

2024-04-08 10:33:17

24小時熱門文章

最新文章

最新評論文章