數據挖掘學習筆記一
前期主要學習的是數據預處理,可視化,預測建模,聚類和異常檢測。學習基本概念和算法。
數據挖掘:在大型數據存儲庫中,自動發現有用信息的過程。
信息檢索:主要依賴傳統的計算機科學技術和數據的明顯特徵來穿件索引結構。從而有效組織和檢索信息。(如百度收索引擎查找特定的Web網頁)
數據挖掘任務
預測任務:根據其他屬性(自變量)的值,預測特定屬性(因變量)的值。
描述任務:到處概括數據中潛在聯繫的模式(相關,趨勢,聚類,軌跡和異常)
預測建模(predictive ,modeling):涉及以說明變量函數的方式爲目標建立模型,有兩類預測建模任務。
分類(classification):預測離散的目標變量。(鳶尾花的類型。)
迴歸(regression):預測連續的目標變量。(如某隻股票的未來價格)
關聯分析(association analysis):用來發現描述數據中強關聯特徵的模式。所發現的模式通常用蘊含規則或特徵子集的形式表示。
聚類分析(cluster analysis):發現緊密線管的觀測值組羣,似的與屬於不同簇的觀測值相比,屬於同一簇的觀測值相互之間儘可能類似。
異常檢測(anomaly detection) 是識別其特徵顯著不同於其他數據的觀測值。這樣的觀測值稱爲異常點或離羣點。