分類預測&聚類

分類預測&聚類

分類和聚類的不同,點擊進行學習。

分類

概念

建立模型,描述預定的數據類集或概念集;之後使用模型進行分類。

預測

構造和使用模型評估無標號樣本類,或評估給定樣本可能具有的屬性值或值區間。

有監督學習(分類)

  • 訓練集是帶有類標籤的
  • 新的數據是基於訓練集進行分類的

無監督學習(聚類)

  • 訓練集是沒有類標籤的
  • 提供一組屬性,然後尋找出訓練集中存在類別或者聚集。

關於分類和預測的問題

  • 數據準備
    • 數據清洗:對數據進行預處理,消除噪音和丟失值
    • 相關性分析(屬性選擇):去掉不相關或者冗餘的屬性
    • 數據轉換:泛化或者對數據進行標準化
  • 評估、比較分類方法
    • 預測的準確率
    • 速度:創建速度、使用速度
    • 健壯性:處理噪聲數據和缺失值數據的能力
    • 伸縮性:對大量數據,對磁盤駐留數據的處理能力
    • 可解釋性:對模型的k可理解和解釋的程度
    • 規則好壞的評價:決策樹的大小、分類規則的簡明性

決策樹

思想(貪心)

  • 自上而下分而治之的方法
  • 開始時,所有的數據都在根節點上
  • 屬性都是離散值字段(if 連續 : 離散化)
  • 所有記錄用所選屬性遞歸進行分割
  • 屬性的選擇是基於一個啓發式規則或者一個統計的度量

停止分割的條件

  • 每一個節點上的數據都是屬於同一個類別
  • 沒有屬性可以在用於對數據進行分割

Overfitting

生成的原因

  • 太多的分支,有些可能是對異常例外的反應
  • 在進行預測的時候準確率較低

解決方法

  • 預剪枝
    • 難點:選擇一個閾值比較困難
  • 後修建
    • 使用另外一個測試集來決定那個樹最好

SLIQ算法

點擊進行學習。

貝葉斯分類算法

粗糙集算法

  • 解決不確定性問題,是對某一對象集合的近似。
  • 處理不確定問題的最大優點:它不需要關於數據的預先或附加的信息,而且易於掌握和使用
  • 可用於從數據庫(數據倉庫)中發現分類規則。

聚類

什麼是聚類分析

一個數據對象的集合

聚類分析(無監督)
  • 把一個給定的數據對象分成不同的簇
  • 在同一個簇中,對象之間具有相似性
  • 不同簇的對象之間是相異的
典型應用
  • 模式識別
  • 空間數據分析
  • 圖像處理
  • 經濟學(市場研究)
  • 分檔分類

eg:市場營銷、土地使用、保險、城市規劃、地震研究

數據挖掘對聚類的要求
  • 可伸縮性
  • 能夠處理不同類型的屬性
  • 能發現任意形狀的簇
  • 能夠處理噪聲和異常
  • 對輸入數據隨想的順序不敏感
  • 能處理高維數據
  • 能產生一個好的,滿足用戶指定約束的聚類結果
  • 結果是可解釋的、可理解的和可用的
評價方法

一個好的聚類方法要能產生高質量的聚類結果—簇,這些簇具有一下兩個特點:

  • 高的簇內相似性
  • 低的簇間相似性
So,如何計算相似性

通常使用距離來衡量兩個對象之間的相異度。

  • 明考斯基距離(Minkowski distance):

20200601222639161

相似性

So,如何計算相似性

通常使用距離來衡量兩個對象之間的相異度。

  • 明考斯基距離(Minkowski distance):

    [外鏈圖片轉存中…(img-kSASuJsQ-1591021899119)]

  • 簡單匹配係數----評價二元變量之間的相似性

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章