AI十大數據挖掘算法

原創

Munger6

2020-06-20 13:57

C4.5 data mining algorithm

C4.5以決策樹的形式構造分類器。爲了做到這一點，C4.5給出了一組表示已經分類的事物的數據。是數據挖掘中的一種工具，它使用一組數據表示我們要分類的東西，並試圖預測新數據屬於哪個類。·

案例：假設一個數據集包含一羣病人。我們瞭解每個病人的各種情況，如年齡、脈搏、血壓、最大攝氧量、家族史等。這些被稱爲屬性。然後根據其特性把得癌症和不得癌症的進行分類；新的病人來了就將屬性輸入進行分類，得到結果；

k-means data mining algorithm

是什麼？k-means從一組對象創建k個組，以便組中的成員更加相似。它是研究數據集的一種流行的聚類分析技術。可以把向量看成是我們所知道的關於病人的數字列表。這個列表也可以解釋爲多維空間中的座標。脈搏可以是一個維度，血壓可以是另一個維度；

使用：只需要告訴其需要多少個簇，就可以得到相似的病人；

SVM data mining algorithm

是什麼？支持向量機(SVM)學習一個超平面（y= m*x + b）將數據分類爲兩類。在高層次上，支持向量機執行類似於C4.5的任務，只是支持向量機根本不使用決策樹。

案例：如果我們有一個病人數據集，每個病人都可以通過各種測量來描述，比如脈搏、膽固醇水平、血壓等等。每一個測量值都是一個維度。底線是:

Apriori data mining algorithm

是什麼？ Apriori算法學習關聯規則，並應用於包含大量事務的數據庫。是一種學習數據庫中變量之間關係的數據挖掘技術。這是一個無監督學習

使用場景：找到一個超時購買記錄數據庫中一個人的購買商品關聯性，以提高產品關聯購買；

EM data mining algorithm

是什麼？在數據挖掘中，期望最大化(EM)通常被用作知識發現的聚類算法(類似於k-均值)。這是無監督學習

使用場景：測算某一得分的學生個數

案例：我將模型視爲描述如何生成觀察到的數據的東西。例如，考試的成績可以符合鐘形曲線，因此假設成績是通過鐘形曲線(又稱正態分佈)生成的模型。用均值和方差描述這個正態分佈；

PageRank data mining algorithm

是什麼？ PageRank是一種鏈接分析算法，用於確定在一個對象網絡中鏈接的某些對象的相對重要性。是無監督學習

使用場景：網絡分析方法，用於探索事物之間的關聯

案例：谷歌搜索引擎確定網頁重要性；確定哪些網頁是相關的，哪些網頁是受歡迎-排名，優先級；

AdaBoost data mining algorithm

是什麼？ AdaBoost是一種構造分類器的增強算法。您可能還記得，分類器獲取一組數據，並嘗試預測或分類新數據元素屬於哪個類。屬於監督學習

案例：預測一個病人是否會得癌症

第一步：獲取第一次中預測成功率最高的學習者，其他預測失敗的案例提高權重；

第二步：循環上一步的過程；然後剩下一組加權學習者

特點：簡單僅需要指定循環次數，執行快，靈活多變可以用於學習任何算法；

是什麼？ kNN，或k近鄰，是一種分類算法。然而，它與前面描述的分類器不同，因爲它是一個懶惰的學習者。在訓練過程中除了存儲訓練數據外沒有做什麼。只有輸入新的未標記的數據時，這類學習者纔會進行分類，分類採用相鄰最近的方式進行判斷。爲了得到相鄰，對於連續數據，kNN使用了類似於歐氏距離的距離度量。距離度量的選擇在很大程度上取決於數據。有些人甚至建議學習基於訓練數據的距離度量。還有很多關於kNN距離度量的細節和論文。對於離散數據，其思想是將離散數據轉換爲連續數據。 KNN屬於監督學習，因爲kNN提供了一個標記的訓練數據集。

使用場景：

Naive Bayes data mining algorithm

是什麼？樸素貝葉斯不是一個單一的算法，而是一組分類算法，它們共享一個共同的假設:被分類數據的每個特徵都獨立於給定類的所有其他特徵。

使用場景：該定理允許我們使用概率來預測給定一組特徵的類。儘管樸素貝葉斯很簡單，但它可以驚人地準確。例如，它被發現是有效的垃圾郵件過濾。

案例：根據長度、顏色、甜度區分（香蕉，橘子，其他）

樸素貝葉斯實現過程：
①計算出頻率表：該水果在長度顏色-黃色甜度上的概率

②將所有的概率相乘，

③在需要的時候除以分母，這個案例中忽略分母

④貝葉斯分類，計算出來的概率值多少爲香蕉多少爲其他，多少爲橘子；

CART data mining algorithm

是什麼？CART代表分類和迴歸樹。它是一種輸出分類樹或迴歸樹的決策樹學習技術。和C4.5一樣，CART也是一個分類器。

使用場景？在預測場景中，與分類樹預測類別不同，迴歸樹預測數值或連續值；

案例：手機的價格、病人的住院時間

原文地址： https://hackerbits.com/data/top-10-data-mining-algorithms-in-plain-english/

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

AI十大數據挖掘算法

C4.5 data mining algorithm

k-means data mining algorithm

SVM data mining algorithm

Apriori data mining algorithm

EM data mining algorithm

PageRank data mining algorithm

AdaBoost data mining algorithm

kNN data mining algorithm

Naive Bayes data mining algorithm

CART data mining algorithm

MySQL 核心模塊揭祕 | 18 期 | 鎖在內存里長什麼樣*

使用perf工具生成火焰圖

大齡程序員思考

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

HttpSecurity 是如何組裝過濾器鏈的

數說海南——近6年海南各市縣人口簡單看

長序列中Transformers的高級注意力機制總結

WebStorm 創建 Vue 項目

比特幣-一種點對點的電子現金系統

lock源碼分析

SpringMVC前後端接口使用規範

concurrent包阻塞隊列詳解

CurrentHashMap源碼分析

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結