數據挖掘的流程與方法
1.任務:
2.方法:
3.步驟:
1.任務:
- 關聯分析
- 聚類分析
- 分類分析
- 異常分析
- 特異組羣分析
- 演變分析
2.方法:
- 統計
- 在線處理分析
- 情報檢索
-
機器學習
-
分類
- 實際應用: 應用分類/趨勢預測/推薦關聯類商品
-
迴歸分析
- 實際應用: 預測銷售趨勢
-
聚類
- 實際應用: 分類
-
關聯規則
- 包括兩個階段: 從海量數據中找到高頻項目組/產生關聯規則
- 實際應用: 預測客戶需求
-
Web數據挖掘
- 常用算法: PageRank算法/HITS算法/LOGSOM算法
- 問題: 用戶分類/用戶頁面停留時間/內容時效性/頁面鏈入鏈出/
-
- 專家系統
- 模式識別
-
神經網絡方法
-
神經網絡模型的種類:
- 用於分類預測和模式識別的前饋式: 函數型網絡/感知機
- 用於聯想記憶和優化算法的反饋式: 離散模型/連續模型
- 用於聚類的自組織映射: ART模型
-
3.步驟:
-
數據準備
-
數據預處理:
- 理解數據和數據的來源
- 獲取相關知識與技術
-
數據的淨化
- 去除錯誤或不一定的數據
- 數據格式轉換
-
變量整合
- 整合與檢查數據
- 數據表的鏈接
-
-
規律尋找-數據挖掘
- 建立模型和假設
- 實際數據挖掘工作
- 測試和驗證挖掘結果
-
規律表示-結果表達和解釋
- 解釋和應用