AI十大數據挖掘算法

C4.5 data mining algorithm

C4.5以決策樹的形式構造分類器。爲了做到這一點,C4.5給出了一組表示已經分類的事物的數據。是數據挖掘中的一種工具,它使用一組數據表示我們要分類的東西,並試圖預測新數據屬於哪個類。·

案例:假設一個數據集包含一羣病人。我們瞭解每個病人的各種情況,如年齡、脈搏、血壓、最大攝氧量、家族史等。這些被稱爲屬性。然後根據其特性把得癌症和不得癌症的進行分類;  新的病人來了就將屬性輸入進行分類,得到結果;

 

k-means data mining algorithm

是什麼?k-means從一組對象創建k個組,以便組中的成員更加相似。它是研究數據集的一種流行的聚類分析技術。可以把向量看成是我們所知道的關於病人的數字列表。這個列表也可以解釋爲多維空間中的座標。脈搏可以是一個維度,血壓可以是另一個維度;

使用:只需要告訴其需要多少個簇,就可以得到相似的病人;

 

SVM data mining algorithm

是什麼? 支持向量機(SVM)學習一個超平面(y= m*x + b)將數據分類爲兩類。在高層次上,支持向量機執行類似於C4.5的任務,只是支持向量機根本不使用決策樹。

案例:如果我們有一個病人數據集,每個病人都可以通過各種測量來描述,比如脈搏、膽固醇水平、血壓等等。每一個測量值都是一個維度。底線是:

 

Apriori data mining algorithm

是什麼?  Apriori算法學習關聯規則,並應用於包含大量事務的數據庫。是一種學習數據庫中變量之間關係的數據挖掘技術。這是一個無監督學習

使用場景:找到一個超時購買記錄數據庫中一個人的購買商品關聯性,以提高產品關聯購買;

 

 

EM data mining algorithm

是什麼? 在數據挖掘中,期望最大化(EM)通常被用作知識發現的聚類算法(類似於k-均值)。 這是無監督學習

使用場景:測算某一得分的學生個數

案例: 我將模型視爲描述如何生成觀察到的數據的東西。例如,考試的成績可以符合鐘形曲線,因此假設成績是通過鐘形曲線(又稱正態分佈)生成的模型。用均值和方差描述這個正態分佈;

 

PageRank data mining algorithm

是什麼?  PageRank是一種鏈接分析算法,用於確定在一個對象網絡中鏈接的某些對象的相對重要性。是無監督學習

使用場景:網絡分析方法,用於探索事物之間的關聯

案例:谷歌搜索引擎確定網頁重要性;確定哪些網頁是相關的,哪些網頁是受歡迎-排名,優先級;

 

 

AdaBoost data mining algorithm

是什麼?   AdaBoost是一種構造分類器的增強算法。您可能還記得,分類器獲取一組數據,並嘗試預測或分類新數據元素屬於哪個類。屬於監督學習

案例: 預測一個病人是否會得癌症

       第一步:獲取第一次中預測成功率最高的學習者,其他預測失敗的案例提高權重;

       第二步:循環上一步的過程;然後剩下一組加權學習者

特點:簡單僅需要指定循環次數,執行快,靈活多變可以用於學習任何算法;

 

kNN data mining algorithm

是什麼?    kNN,或k近鄰,是一種分類算法。然而,它與前面描述的分類器不同,因爲它是一個懶惰的學習者。在訓練過程中除了存儲訓練數據外沒有做什麼。只有輸入新的未標記的數據時,這類學習者纔會進行分類,分類採用相鄰最近的方式進行判斷。爲了得到相鄰,   對於連續數據,kNN使用了類似於歐氏距離的距離度量。距離度量的選擇在很大程度上取決於數據。有些人甚至建議學習基於訓練數據的距離度量。還有很多關於kNN距離度量的細節和論文。    對於離散數據,其思想是將離散數據轉換爲連續數據。  KNN屬於監督學習,因爲kNN提供了一個標記的訓練數據集。

使用場景:

 

Naive Bayes data mining algorithm

是什麼?樸素貝葉斯不是一個單一的算法,而是一組分類算法,它們共享一個共同的假設:被分類數據的每個特徵都獨立於給定類的所有其他特徵。

使用場景:該定理允許我們使用概率來預測給定一組特徵的類。儘管樸素貝葉斯很簡單,但它可以驚人地準確。例如,它被發現是有效的垃圾郵件過濾。

案例:根據長度、顏色、甜度區分(香蕉,橘子,其他)

樸素貝葉斯實現過程:
         ①計算出頻率表:該水果在 長度 顏色-黃色   甜度上的概率

         ②將所有的概率相乘,

         ③在需要的時候除以分母,這個案例中忽略分母

         ④貝葉斯分類,計算出來的概率值多少爲香蕉 多少爲其他,多少爲橘子;

 

CART data mining algorithm

是什麼?CART代表分類和迴歸樹。它是一種輸出分類樹或迴歸樹的決策樹學習技術。和C4.5一樣,CART也是一個分類器。

使用場景?在預測場景中,與分類樹預測類別不同,迴歸樹預測數值或連續值;

案例:手機的價格、病人的住院時間

 

 

原文地址: https://hackerbits.com/data/top-10-data-mining-algorithms-in-plain-english/

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章