數據挖掘學習筆記一

數據挖掘學習筆記一

前期主要學習的是數據預處理,可視化,預測建模,聚類和異常檢測。學習基本概念和算法。

數據挖掘:在大型數據存儲庫中,自動發現有用信息的過程。

信息檢索:主要依賴傳統的計算機科學技術和數據的明顯特徵來穿件索引結構。從而有效組織和檢索信息。(如百度收索引擎查找特定的Web網頁)

數據挖掘任務

預測任務:根據其他屬性(自變量)的值,預測特定屬性(因變量)的值。

描述任務:到處概括數據中潛在聯繫的模式(相關,趨勢,聚類,軌跡和異常)

預測建模(predictive ,modeling):涉及以說明變量函數的方式爲目標建立模型,有兩類預測建模任務。

分類(classification):預測離散的目標變量。(鳶尾花的類型。)

迴歸(regression):預測連續的目標變量。(如某隻股票的未來價格)

關聯分析(association analysis):用來發現描述數據中強關聯特徵的模式。所發現的模式通常用蘊含規則或特徵子集的形式表示。

聚類分析cluster analysis):發現緊密線管的觀測值組羣,似的與屬於不同簇的觀測值相比,屬於同一簇的觀測值相互之間儘可能類似。

異常檢測(anomaly detection) 是識別其特徵顯著不同於其他數據的觀測值。這樣的觀測值稱爲異常點或離羣點。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章