機器學習理解(一)

原創

2020-02-26 14:49

Spark這部分寫完了，忽然發現自己沒什麼可寫的了。。。還是把機器學習這部分寫下，雖然有關機器學習的博客有很多，而且有的博客寫的真的很好，但還是想將自己在學習機器學習時的一個理解記錄下來，可能存在許多不足，因此如果有了新的理解，我會進行更新，當然，更加希望的是能借助之後在工作中的一些經驗來逐步完善這方面的知識。。
1.分類決策樹---有監督學習
分類決策樹是一棵自上而下的樹，用來進行預測，分支節點包括根節點是數據集的各個屬性，屬性有幾個取值則節點就有幾個分支，葉子節點則爲分類結果，從根節點到葉子節點所走的路徑即爲一條規則，對新數據集的預測則是根據這棵樹而來，常用的建樹算法有ID3(Iterative Dichotomiser 3 迭代二叉樹3代)和C4.5
ID3算法的基本思想：選取信息增益最大的屬性作爲根節點，如屬性A，屬性A有幾個取值，就有幾個分支，接着再選取其餘屬性作爲各個分支下的子樹的根節點，根節點的選取都是根據信息增益最大來取，信息增益又是根據信息熵來求的(PS:熵就是系統有序化的度量，或者可以認爲熵=無序化，熵越大，無序化程度越高，有序化程度越低，即不穩定程度越大，或者更誇大一點就可以理解爲不知道去哪個值)，具體求法如下：

1.求出系統熵；
2.單獨求出屬性各個取值的信息熵；
3.加權上一步求得的屬性的各個取值的信息熵作爲屬性的信息熵；
4.求得信息增益：系統熵-屬性的信息熵；
5.信息增益最大的作爲根節點；
6.重複步驟2，直至所有屬性的信息熵爲0；
優點：原理比較簡單，易於理解；
缺點：用信息增益選擇屬性作爲樹或者子樹的根節點時偏向於選擇分支比較多的屬性，即取值多的屬性;需要重複掃描數據庫，效率不高;
C4.5是對ID3算法的改進，它是選取信息增益率最大的屬性作爲樹或者子樹的根節點，解決了ID3中偏向於選擇分支比較多的屬性作爲根節點的缺點，同時C4.5在處理屬性爲連續值的情況下比ID3更加有效率，C4.5也是將連續值轉換爲離散值，它先將屬性的取值進行排序，在結果發生改變的取值處進行劃分，這樣就會形成多個取值段，這些取值段就爲屬性的離散取值
PS：互信息=I(X,Y)=entropy(X)+entropy(Y)-entropy(X,Y)

信息增益率=信息增益/分裂度
比如屬性A有A1，A2，A3三個取值,屬性A有7個樣例，其中A1有2個樣例,A2有2個樣例,A3有3個樣例,則分裂度=-(2/7log2/7)-(2/7log2/7)-(3/7log3/7)

參考博客：http://www.cnblogs.com/zhangchaoyang/articles/2196631.html
http://www.cnblogs.com/zhangchaoyang/articles/2842490.html
CART分類迴歸樹：實質上也是一棵決策樹，不過不同的是它是一棵二叉樹，同時非葉子節點多有兩個孩子，因此對於某屬性有多個取值時，我們要對這些屬性值進行處理，如某屬性A有B1，B2，B3三個屬性，那就按照B1和非B1，B2和非B2，B3和非B3進行劃分，分別求得各個情況下的GINI指數值，選取GINI指數值最小的作爲分類情況，其餘的大致上和決策樹類似
2.樸素貝葉斯分類器---有監督學習
樸素貝葉斯分類器的基本原理是利用貝葉斯公式，即條件概率的公式：，求得給定條件下，其所屬各個分類的概率，哪個分類下的概率最大，則其就爲哪個分類，如事件所給定的條件爲B1，B2，B3,分類爲A1，A2，則該事件的分類結果可以通過如下公式求得：

因爲P(B)都一樣，因此只需比較分母的大小即可

若，則該事件屬於分類A2，否則屬於分類A1
若某屬性的取值中出現了零頻問題，可以通過數據平滑的方法來解決，最簡單的就爲拉普拉斯估計--即爲每個計數加1；
若某屬性爲連續取值，則一可以將其像決策樹那樣轉換爲離散取值，二可以通過計算該分類下給定的相應屬性取值的概率密度函數作爲其概率；

優點：思路比較簡單，有效；
缺點：樸素貝葉斯分類器假設屬性之間是相互獨立的，當屬性之間不獨立的時候結果可能就會產生誤差
參考博客：http://www.cnblogs.com/zhangchaoyang/articles/2586402.html

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

文心大模型免費辣，動手搓點啥慶祝一下吧

5月21日下午，百度智能雲宣佈文心大模型的兩款主力模型ENIRE Speed、ENIRE Lite全面免費，即刻生效。這兩款大模型都是今年3月剛剛發佈的，均支持8K和128k上下文長度。可以說，這是百度最新的模型

2024-05-24 12:13:22

風控指南：國內車險欺詐呈現四大趨勢

2024年4月11日，國家金融監督管理總局官網發佈國家金融監督管理總局關於《反保險欺詐工作辦法（徵求意見稿）》公開徵求意見的公告。《徵求意見》共6章、37條，明確反保險欺詐工作目標是建立“監管引領、機構爲主、行業聯防、各方協同”四位一體的

2024-05-23 12:16:45

五款擴展組件齊發 —— Volcano、Keda、Crane-scheduler 等，邀你體驗

今年 3 月，KubeSphere 啓動了首屆擴展組件開發者訓練營，吸引了 60 名開發者報名。經過一個半月的密集培訓和實戰演練，這些開發者成功打造了五款創新的擴展組件，現已全部上架至 KubeSphere Marketplace，歡迎大家

2024-05-23 11:17:40

基於 Milvus + LlamaIndex 實現高級 RAG

隨着大語言模型（LLM）技術的發展，RAG（Retrieval Augmented Generation）技術得到了廣泛探討和研究，越來越多的高級 RAG 檢索方法也隨之被人發現，相對於普通的 RAG 檢索，高級 RAG 通過更深化的技術細

2024-05-22 21:25:18

站在岸上學不會游泳 | 算法校招生的高效成長總結

在這個由數據編織、由算法驅動的時代，AI大模型正成爲推動社會進步的重要力量。我們不僅是變革的見證者，更是推動者和塑造者。感謝零售UP技術人欄目的邀請，本文藉此機會回顧一下自己的算法之路上的一些故事和思考，希望能帶給讀者一些幫助。介紹自

2024-05-22 11:56:42

全球廠商之最，華爲17篇論文入選國際數據庫頂會ICDE

本文分享自華爲雲社區《全球廠商之最，華爲GaussDB&GeminiDB，17篇論文入選國際數據庫頂會ICDE》，作者：GaussDB 數據庫。 5月13-17日，國際數據庫頂級學術會議 ICDE 2024 於荷蘭烏得勒支舉行。華爲Gau

2024-05-22 10:58:13

Gen AI 連接非結構化數據，Unstructured Data Meetup 第二場官宣杭州！

定了！6 月 15 日，備受硅谷開發者喜愛的 Unstructured Data Meetup 第二場將在杭州舉辦！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 202

2024-05-20 21:25:07

探索未知：風靡硅谷開發者的 Unstructured Data Meetup 即將登陸中國

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過

2024-05-15 21:26:01

爲程序員和新手準備的 8 大 Python 工具

Python 是一種開源編程語言，用於 Web 編程、數據科學、人工智能和許多科學應用。學習 Python 使程序員能夠專注於解決問題，而不是專注於語法，其豐富的庫賦予它完成偉大任務所需的力量。 1) IDLE 安裝 Python 時

2024-05-14 01:06:43

我宣佈，這是我找到的史上AI最全論文體系！

在碎片化閱讀充斥眼球的時代，越來越少的人會去關注每篇論文背後的探索和思考。搞AI，不少人都進入一個誤區，那就是隻鑽研自己的代碼是否精進，而沒有注意提升自己的閱讀能力。實際上，一個專業的學術研究員或者AI研究員可能需要花費幾百個小

2024-05-13 21:33:50

探索未知：風靡硅谷開發者的 Unstructured Data Meetup 即將登陸中國l

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過 80% 的

2024-05-13 21:25:35

攻擊者正在利用AI，對保險公司發起大規模欺詐

保險欺詐一直是保險行業面臨的重要挑戰之一，尤其隨着技術的進步，欺詐者也在不斷更新其手段，利用AI技術，包括生成式模型、機器學習和數據分析工具等欺騙保險公司，而AI技術的應用正成爲他們的新工具，使其犯罪行爲更加隱蔽和複雜，挑戰保險行業的防欺詐

2024-05-10 00:55:17

理論+實踐，帶你瞭解分佈式訓練

本文分享自華爲雲社區《大模型LLM之分佈式訓練》，作者：碼上開花_Lancer。隨着語言模型參數量和所需訓練數據量的急速增長，單個機器上有限的資源已無法滿足大語言模型訓練的要求。需要設計分佈式訓練（Distributed Trainin

2024-05-08 22:38:41

2024年DataOps趨勢預測：AI不會取代數據工程師

APM digest收集了多位行業專家對DataOps在2024的發展形勢及對IT和業務的影響的預測，這些技術最高管理者，包括Confluent技術戰略負責人Andrew Sellers的深刻洞見可能與你的感覺一致嗎？快來探討一下。數據可

2024-04-30 11:49:29

數字化轉型新篇章：企業通往智能化的新範式

早在十多年前，一些具有前瞻視野的企業以實現“數字化”爲目標啓動轉型實踐。但時至今日，可以說尚無幾家企業能夠在真正意義上實現“數字化”。在實現“數字化”的征途上，人們發現，努力愈進，彷彿終點愈遠。究其原因，還在於轉型一直落後於技術邊界的拓展

2024-04-29 21:22:20

24小時熱門文章

最新文章

最新評論文章