根據挖掘目標和數據形式可以建立以下幾種模型:
- 分類與預測
- 聚類分析
- 關聯規則
- 時序模式
- 離羣點檢測
5.1分類預測
5.1.1實現過程
比如說我們現在要進行預測的分析,首先第一步,我們先要基於一定數量的樣本來訓練出一個訓練模型,這個模型訓練的如何,我們還要對其進行檢測一下,如何測試的樣本數據與我們想象中的差別太大,那麼我們就要重新進行訓練這個預測模型,但是如果我們的預測模型符合我們的預先的期望,那麼我們就可以用這個模型進行預測的操作。
5.1.2常用分類與預測算法
算法名稱 | 算法描述 |
迴歸分析 | 迴歸分析是確定預測屬性與其他變量間相互依賴的定量關係最常用的統計學方法。包括線性迴歸、非線性迴歸、Logistic(
邏輯斯蒂)迴歸、嶺迴歸、主成分迴歸、偏最小二乘迴歸 |
決策樹 | 決策樹採用自頂向下的遞歸方式,在內部節點進行屬性值的比較,並根據不同的屬性值從該節點向下分支,最終得到的葉節點是學習劃分的類 |
人工神經網絡 | 人工神經網絡是一種模仿大腦神經網絡結構和功能而建立的信息處理系統,表示神經網絡的輸入與輸出變量之間關係的模型 |
貝葉斯網絡 | 貝葉斯網絡又稱信度網絡,是Bayes方法的擴展,是目前不確定知識表達和推理領域最有效的理論模型之一 |
支持向量機 | 支持向量機是一種通過某種非線性映射,把低維的非線性可分轉化爲高維的線性可分,在高維空間進行線性分析的算法 |
5.1.3迴歸分析
迴歸分析是一種預測性的建模技術,它研究的是因變量(目標)和自變量(預測器)之間的關係。
迴歸分析是一種通過建立模型來研究變量之間的相互關係的密切程度、結構狀態及進行模型預測的有效工具。
按研究方法劃分如圖所示:
主要回歸模型
在數據挖掘環境下,自變量與因變量具有相關關係,自變量的值是已知的,因變量的使我們想要預測的
迴歸模型名稱 |
適用條件 |
算法描述 |
線性迴歸 |
自變量與因變量是線性關係 |
對一個或多個自變量和因變量之間的線性關係進行建模,可用最小二乘法求解模型係數 |
非線性迴歸 | 自變量與因變量不都是線性關係 | 對一個或多個自變量和因變量之間的非線性關係進行建模。如果非線性關係可以通過簡單的函數變換轉化成線性關係,用線性迴歸的思想求解;如果不能轉化,用非線性最小二乘法求解 |
Logistic迴歸 | 一邊是因變量的取值有1和0(是與否)兩種 | 廣義線性迴歸模型的特例,利用Logistic函數將因變量的取值範圍控制在0和1之間,表示取值爲1的概率 |
嶺迴歸 | 參與建模的自變量之間具有多重共線性 | 一種改進最小二乘估計的方法 |
主成分迴歸 | 參與建模的自變量之間具有多重共線性 | 主成分迴歸是根據主成分分析的思路提出來的,是對最小二乘法的一種改進,它是參數估計的一種有偏估計。可以消除自變量之間的多重共線性 |