1、數據挖掘的定義:
1.技術層面:從大數據中提取有用信息。2.商業層面:對大數據進行抽取、轉換、分析和建模,從中提取輔助商業決策的關鍵性數據。
2、數據挖掘的任務:
1.預測型任務:根據已知的屬性值預測特定的屬性值和類別。(分類、迴歸分析)2.描述型任務:尋找數據中潛在的聯繫和未知的屬性(類別)。(聚類、關聯分析)
3、數據挖掘的過程:
1.數據清洗(清除噪音及無關數據)2.數據集成(合併多個數據源)
3.數據選擇(選取符合目標的數據)
4.數據轉換(轉換爲方便數據挖掘的數據存儲形式)
5.數據挖掘(用智能方法挖掘數據模式或規律知識)
6.模式評估(根據評估標準從挖掘結果中篩選有意義的知識)
7.知識表示(可視化展示所挖掘的知識)
4、數據挖掘的智能方法:
1.分類分析:根據已知屬性建立分類器,預測未知類別的對象屬於哪個預定義的類別。(取值爲類別值)2.迴歸分析:根據已知屬性值,預測對象未來的屬性值。(連續取值)
3.聚類分析:根據數據取多個相似度最大化的小組,並以此獲得未知的屬性進行分類。
4.關聯分析:尋找數據中潛在的聯繫。
5.離散點挖掘:挖掘離羣點潛在的信息。