关于机器学习中的生成学习算法（Generative Learning Algorithm）

原創

2020-02-22 11:04

我们之前可能接触到一些线性回归的案例，以至于广义线性模型GLM等等之类的，这些模型呢，都是在给定训练集合，而且这些训练集有着确定的输入和输出，我们通过利用这些训练集来构建预测函数，从而实现预测，判断之类的功能。

举个简单的例子，我们需要将大象和狗分类，以往的做法是，利用特征来画出分界线，那么下一次我们只需要输入特征就可以利用这条分界线来判断这只动物是大象还是狗了。那么还有另一种方法，如果我们先观察大象，然后建立出大象的模型，然后观察狗，建立狗的模型，然后一旦我们想区分狗和大象，只需要看这只动物和两个模型中的哪一个更加匹配。这就逐渐引出了生成学习算法。

判别学习算法在于试着去直接学习f(y|x)（即以x的条件的y的概率密度，我们就可以计算出y的期望，通过x来预测y）或者直接去学习从给定的一组输入X到{0,1}的映射

而现在，我们讨论的生成学习算法则是试着对f(x|y)(以及f(y))建模，通过y这一结果来对所需要判断之物的特征进行建模。在我们对f(y)（先验概率分布）和f(x|y)进行建模后,我们的算法就可以利用贝叶斯定理来计算出f(y|x)的概率分布

说到这里你可能会问了，那么这个f（x）怎么求呀？

很简单，利用全概率公式就可以了

如果是因变量是离散的，举个例子，伯努利分布的因变量

如果因变量是连续的

通过上图可以知道连续型全概率公式，通过对边缘概率分布函数积分可以得到。

接下来我们举一个生成学习算法的例子--------高斯判别分析（GDA）

在高斯判别分析中，首先我们假定f(x|y)的概率分布是多维高斯分布，或者说是多维正态分布，接着给出两个参数，一个是多维协方差Σ（n×n矩阵），一个是均值向量μ（n维）

好的，现在我们把维度都设为n维，那么对于多维正态分布来说，有

接着我们需要建立起来高斯判别分析模型来解决分类问题，前提是x是连续的随机变量

这个模型如图所示：

通过上面的概率分布我们可以写出概率密度函数

现在看一下我们模型的参数，有

可以写出关于这四个参数的对数似然函数

在这里补充一点，我们现在是在进行极大似然估计，当我们知道样本变量的分布之后却不知道他们的参数，那就可以用极大似然估计来估计他们的参数。

很显然这里有多个变量，现在需要计算似然函数的极值，可以通过求偏导数来获得参数的极大似然估计

对第一个参数求偏导

令偏导等于0，得

对第二个参数求偏导

令偏导数=0，可以得到

这里我再给出另外得两个参数得极大似然估计

其中1{true}=1，1{false}=0

至此我们通过极大似然估计能够得到四个参数，再利用我们之前的结论就可以求出f(y|x),通过求出期望便可以求出预测值。至此，你应该对生成学习算法，以及高斯判别分析模型有一定的了解了。

发布了45 篇原创文章 · 获赞 12 · 访问量 4万+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

首批！Zilliz 获得亚马逊云科技生成式 AI 合作伙伴能力认证

Zilliz 正式宣佈通過亞馬遜雲科技生成式 AI 能力認證！這一認證不僅肯定了 Zilliz 在人工智能和非結構化數據領域的卓越能力，也標誌着 Zilliz 在推動 AI 技術創新和應用的道路上邁出了重要一步。亞馬遜雲科技生

2024-06-06 14:16:04

Opal 机器学习平台：爱奇艺数智一体化实践

01 綜述 Opal 是愛奇藝大數據團隊研發的機器學習平臺，包含特徵生產、樣本構建、模型訓練、模型部署在內的多環節 Bigdata + AI 開發服務，內置多種訓練鏡像、

愛奇藝技術產品團隊

2024-06-01 02:21:16

基于对比稀疏扰动技术的时间序列解释框架 ContraLSP

開篇近日，由阿里雲計算平臺大數據基礎工程技術團隊主導，與南京大學、賓夕法尼亞州立大學、清華大學等高校合作，解釋時間序列預測模型的論文《Explaining Time Series via Contrastive and Locally

2024-06-01 00:25:50

儿童节变身小小音乐家*用ModelArts制作一张AIGC音乐专辑

本文分享自華爲雲社區《兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯》*作者* 華爲雲社區精選。兒童節*如何給小朋友準備一份特別的禮物* 這份AIGC音樂專輯製作攻略一定要收下一段文字靈感就能編織出一曲悠揚悅耳的旋

2024-05-31 11:04:39

金融反欺诈指南：车险欺诈为何如此猖獗？

青島市人民檢察院在其官方微信公衆號上發佈的梁某保險詐騙案顯示，2020 年以來，某汽修廠負責人梁某、某汽車服務公司負責人孫某，與保險公司的趙某等人相互勾結，收購二手北汽等品牌新能源汽車，併爲這些車輛購買車損險。隨後，他們利用暴雨天氣，故意製

2024-05-30 00:16:51

还能报名！风靡硅谷开发者的 Unstructured Data Meetup 即将登陆中国！

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過 80% 的

2024-05-29 02:18:59

AI安全志：英国AI骗保事件增加300%！

最近，英國《衛報》報道稱，一些騙子正在利用人工智能照片編輯軟件篡改照片，以進行保險欺詐活動。這一發現令保險公司震驚，因爲這可能導致汽車保險費用飆升至歷史最高水平。安聯保險公司表示，從2021年至2023年期間，利用應用程序篡

2024-05-28 00:15:50

文心大模型免费辣，动手搓点啥庆祝一下吧

5月21日下午，百度智能雲宣佈文心大模型的兩款主力模型ENIRE Speed、ENIRE Lite全面免費，即刻生效。這兩款大模型都是今年3月剛剛發佈的，均支持8K和128k上下文長度。可以說，這是百度最新的模型

2024-05-24 12:13:22

风控指南：国内车险欺诈呈现四大趋势

2024年4月11日，國家金融監督管理總局官網發佈國家金融監督管理總局關於《反保險欺詐工作辦法（徵求意見稿）》公開徵求意見的公告。《徵求意見》共6章、37條，明確反保險欺詐工作目標是建立“監管引領、機構爲主、行業聯防、各方協同”四位一體的

2024-05-23 12:16:45

五款扩展组件齐发 —— Volcano、Keda、Crane-scheduler 等，邀你体验

今年 3 月，KubeSphere 啓動了首屆擴展組件開發者訓練營，吸引了 60 名開發者報名。經過一個半月的密集培訓和實戰演練，這些開發者成功打造了五款創新的擴展組件，現已全部上架至 KubeSphere Marketplace，歡迎大家

2024-05-23 11:17:40

基于 Milvus + LlamaIndex 实现高级 RAG

隨着大語言模型（LLM）技術的發展，RAG（Retrieval Augmented Generation）技術得到了廣泛探討和研究，越來越多的高級 RAG 檢索方法也隨之被人發現，相對於普通的 RAG 檢索，高級 RAG 通過更深化的技術細

2024-05-22 21:25:18

站在岸上学不会游泳 | 算法校招生的高效成长总结

在這個由數據編織、由算法驅動的時代，AI大模型正成爲推動社會進步的重要力量。我們不僅是變革的見證者，更是推動者和塑造者。感謝零售UP技術人欄目的邀請，本文藉此機會回顧一下自己的算法之路上的一些故事和思考，希望能帶給讀者一些幫助。介紹自

2024-05-22 11:56:42

全球厂商之最，华为17篇论文入选国际数据库顶会ICDE

本文分享自華爲雲社區《全球廠商之最，華爲GaussDB&GeminiDB，17篇論文入選國際數據庫頂會ICDE》，作者：GaussDB 數據庫。 5月13-17日，國際數據庫頂級學術會議 ICDE 2024 於荷蘭烏得勒支舉行。華爲Gau

2024-05-22 10:58:13

Gen AI 连接非结构化数据，Unstructured Data Meetup 第二场官宣杭州！

定了！6 月 15 日，備受硅谷開發者喜愛的 Unstructured Data Meetup 第二場將在杭州舉辦！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 202

2024-05-20 21:25:07

探索未知：风靡硅谷开发者的 Unstructured Data Meetup 即将登陆中国

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過

2024-05-15 21:26:01

24小時熱門文章

最新文章

最新評論文章