機器學習理解(六)

原創

2020-02-26 14:49

9.AdaBoost分類器----有監督學習
AdaBoost也是一種分類算法，它是一種迭代算法，通過訓練多個弱分類器，來得到強分類器，利用最終的強分類器來對數據進行分類，它的基本步驟爲：
1.賦予每個訓練樣本相同的權重，訓練第一個弱分類器,此時個樣本的權重爲1/N（N爲樣本總數），將弱分類器得到的各樣本的分類結果與其真實結果進行比較，分類錯誤的各樣本的權重之和即爲a，利用如下公式得到第一個弱分類器的權重；

2.訓練樣本重新賦予不同的權重，若在前一次的弱分類器中得到的分類結果正確，則減小該樣本的權重；否則增大該樣本的權重，訓練第二個弱分類器，將弱分類器得到的各樣本的分類結果與其真實結果進行比較，分類錯誤各樣本的誤差之和即爲a，利用上述公式得到第二個弱分類器的權重；權重的更新公式爲：其中表示前一個弱分類器中樣本i的權重，表示當前弱分類器中該樣本i的權重，表示前一個弱分類器的權重
3.重複第2步，直至滿足迭代結束條件；
4.將新的樣本輸入到已經訓練好的每一個弱分類f器中，將每個弱分類器得到的結果（分類結果可以數值化處理）乘以其自身的權重作爲最終結果；如若要對樣本j分類，則分類表達式爲：

弱分類器可以爲決策樹，或者設置閾值等分類方法。。。
AdaBoost的損失函數爲指數損失函數，即

優點：易於實現；分類準確率較高；沒有太多人爲定義的參數；
缺點：要進行多次迭代，所需的計算量會比較大；對邊緣點比較敏感；

參考博客：數盟微信羣

10.最大期望EM算法---無監督學習相似的還有HMM(隱馬爾科夫模型)

EM算法用來在概率參數模型中求得未知參數的最大似然估計，即通過已知參數來求得未知參數，未知的參數即爲隱藏變量，它總共有兩步：E步和M步
E步：選取一組參數，求出在該參數下未知參數的條件概率值；
M步：結合E步求出的未知參數的條件概率，求出似然函數下界函數的最大值
重複上面兩步，直至收斂

關於EM算法，我覺得不是那麼理解，也還沒有找到比較好的學習資源，我看過的博客都不能讓我對這個問題有很好的瞭解，哎。。。或許是人太笨了。。

參考博客：http://www.cnblogs.com/zhangchaoyang/articles/2623364.html

機器學習算法可以分爲如下兩種模型：
判別式模型：邏輯線性迴歸支持向量機傳統的神經網絡最近鄰
生成式模型：高斯模型 LDA 樸素貝葉斯 HMM

機器學習這部分寫的差不多了，以後有了新的理解或者學習到了新的知識會持續更新的，下面開始寫自己在找實習以及找工作的過程中所做的準備，包括自己的一些心得體會，還有準備的各種資料等等。。。
未完待續。。。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

風控指南：國內車險欺詐呈現四大趨勢

2024年4月11日，國家金融監督管理總局官網發佈國家金融監督管理總局關於《反保險欺詐工作辦法（徵求意見稿）》公開徵求意見的公告。《徵求意見》共6章、37條，明確反保險欺詐工作目標是建立“監管引領、機構爲主、行業聯防、各方協同”四位一體的

2024-05-23 12:16:45

五款擴展組件齊發 —— Volcano、Keda、Crane-scheduler 等，邀你體驗

今年 3 月，KubeSphere 啓動了首屆擴展組件開發者訓練營，吸引了 60 名開發者報名。經過一個半月的密集培訓和實戰演練，這些開發者成功打造了五款創新的擴展組件，現已全部上架至 KubeSphere Marketplace，歡迎大家

2024-05-23 11:17:40

基於 Milvus + LlamaIndex 實現高級 RAG

隨着大語言模型（LLM）技術的發展，RAG（Retrieval Augmented Generation）技術得到了廣泛探討和研究，越來越多的高級 RAG 檢索方法也隨之被人發現，相對於普通的 RAG 檢索，高級 RAG 通過更深化的技術細

2024-05-22 21:25:18

站在岸上學不會游泳 | 算法校招生的高效成長總結

在這個由數據編織、由算法驅動的時代，AI大模型正成爲推動社會進步的重要力量。我們不僅是變革的見證者，更是推動者和塑造者。感謝零售UP技術人欄目的邀請，本文藉此機會回顧一下自己的算法之路上的一些故事和思考，希望能帶給讀者一些幫助。介紹自

2024-05-22 11:56:42

全球廠商之最，華爲17篇論文入選國際數據庫頂會ICDE

本文分享自華爲雲社區《全球廠商之最，華爲GaussDB&GeminiDB，17篇論文入選國際數據庫頂會ICDE》，作者：GaussDB 數據庫。 5月13-17日，國際數據庫頂級學術會議 ICDE 2024 於荷蘭烏得勒支舉行。華爲Gau

2024-05-22 10:58:13

Gen AI 連接非結構化數據，Unstructured Data Meetup 第二場官宣杭州！

定了！6 月 15 日，備受硅谷開發者喜愛的 Unstructured Data Meetup 第二場將在杭州舉辦！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 202

2024-05-20 21:25:07

探索未知：風靡硅谷開發者的 Unstructured Data Meetup 即將登陸中國

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過

2024-05-15 21:26:01

爲程序員和新手準備的 8 大 Python 工具

Python 是一種開源編程語言，用於 Web 編程、數據科學、人工智能和許多科學應用。學習 Python 使程序員能夠專注於解決問題，而不是專注於語法，其豐富的庫賦予它完成偉大任務所需的力量。 1) IDLE 安裝 Python 時

2024-05-14 01:06:43

我宣佈，這是我找到的史上AI最全論文體系！

在碎片化閱讀充斥眼球的時代，越來越少的人會去關注每篇論文背後的探索和思考。搞AI，不少人都進入一個誤區，那就是隻鑽研自己的代碼是否精進，而沒有注意提升自己的閱讀能力。實際上，一個專業的學術研究員或者AI研究員可能需要花費幾百個小

2024-05-13 21:33:50

探索未知：風靡硅谷開發者的 Unstructured Data Meetup 即將登陸中國l

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過 80% 的

2024-05-13 21:25:35

攻擊者正在利用AI，對保險公司發起大規模欺詐

保險欺詐一直是保險行業面臨的重要挑戰之一，尤其隨着技術的進步，欺詐者也在不斷更新其手段，利用AI技術，包括生成式模型、機器學習和數據分析工具等欺騙保險公司，而AI技術的應用正成爲他們的新工具，使其犯罪行爲更加隱蔽和複雜，挑戰保險行業的防欺詐

2024-05-10 00:55:17

理論+實踐，帶你瞭解分佈式訓練

本文分享自華爲雲社區《大模型LLM之分佈式訓練》，作者：碼上開花_Lancer。隨着語言模型參數量和所需訓練數據量的急速增長，單個機器上有限的資源已無法滿足大語言模型訓練的要求。需要設計分佈式訓練（Distributed Trainin

2024-05-08 22:38:41

2024年DataOps趨勢預測：AI不會取代數據工程師

APM digest收集了多位行業專家對DataOps在2024的發展形勢及對IT和業務的影響的預測，這些技術最高管理者，包括Confluent技術戰略負責人Andrew Sellers的深刻洞見可能與你的感覺一致嗎？快來探討一下。數據可

2024-04-30 11:49:29

數字化轉型新篇章：企業通往智能化的新範式

早在十多年前，一些具有前瞻視野的企業以實現“數字化”爲目標啓動轉型實踐。但時至今日，可以說尚無幾家企業能夠在真正意義上實現“數字化”。在實現“數字化”的征途上，人們發現，努力愈進，彷彿終點愈遠。究其原因，還在於轉型一直落後於技術邊界的拓展

2024-04-29 21:22:20

Stable Diffusion中的embedding

Stable Diffusion中的embedding 嵌入，也稱爲文本反轉，是在 Stable Diffusion 中控制圖像樣式的另一種方法。在這篇文章中，我們將學習什麼是嵌入，在哪裏可以找到它們，以及如何使用它們。什麼是嵌入embe

2024-04-25 21:31:13

24小時熱門文章

最新文章

最新評論文章