數據挖掘學習筆記一

原創

2018-09-12 05:27

數據挖掘學習筆記一

前期主要學習的是數據預處理，可視化，預測建模，聚類和異常檢測。學習基本概念和算法。

數據挖掘：在大型數據存儲庫中，自動發現有用信息的過程。

信息檢索：主要依賴傳統的計算機科學技術和數據的明顯特徵來穿件索引結構。從而有效組織和檢索信息。（如百度收索引擎查找特定的Web網頁）

數據挖掘任務

預測任務：根據其他屬性（自變量）的值，預測特定屬性（因變量）的值。

描述任務：到處概括數據中潛在聯繫的模式（相關，趨勢，聚類，軌跡和異常）

預測建模(predictive ,modeling)：涉及以說明變量函數的方式爲目標建立模型，有兩類預測建模任務。

分類(classification)：預測離散的目標變量。（鳶尾花的類型。）

迴歸(regression)：預測連續的目標變量。（如某隻股票的未來價格）

關聯分析(association analysis)：用來發現描述數據中強關聯特徵的模式。所發現的模式通常用蘊含規則或特徵子集的形式表示。

聚類分析（cluster analysis）：發現緊密線管的觀測值組羣，似的與屬於不同簇的觀測值相比，屬於同一簇的觀測值相互之間儘可能類似。

異常檢測(anomaly detection) 是識別其特徵顯著不同於其他數據的觀測值。這樣的觀測值稱爲異常點或離羣點。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.