數據挖掘:概念與技術 自學章節總結(一)

1.什麼是數據挖掘(Knowledge Discovery in Database)?
數據挖掘是從大量數據中挖掘有趣模式和知識的過程。數據源包括數據庫、數據倉庫、Web、其他信息存儲庫或動態地流入系統的數據。

數據挖掘可以視爲數據中的知識發現,知識發現的過程由以下步驟的迭代序列組成:
1-數據清理(消除噪聲和刪除不一致數據);
2-數據集成(多種數據源可以組合在一起);
3-數據選擇(從數據庫中提取與分析任務相關的數據);
4-數據變換(通過彙總或聚集操作,把數據變換和統一成適合挖掘的形式);
5-數據挖掘(基本步驟,使用智能方法提取數據模式);
6-模式評估(根據某種興趣度度量,識別代表知識的真正有趣的模式。)
7-知識表示(使用可視化和只是表示技術,向用戶提供挖掘的知識)。

2.數據挖掘模式:
有趣的模式表示知識。一個模式是有趣的,如果它:1-易於被人理解;2-在某種置信度上,對於新的或檢驗數據都是有效的;3-是潛在有用的(例如,可以據之行動,或者驗證了用戶關注的某種預感);4-是新穎的。一個模式的有趣與否需要結合客觀度量和客戶的主觀度量。
2-1-類/概念描述:特徵化(data charaterization)與區分(data discrimination)(如數據立方體的OLAP上卷和下鑽形式)。
2-2-頻繁模式(frequency pattern)。挖掘頻繁模式以發現數據中有趣的關聯和相關性。
2-3-用於預測分析的分類和迴歸。用於預測類標號未知對象的類標號。
2-4-聚類分析,根據數據組羣相似性進行聚類或分組。
2-5-離羣點分析,罕見的事件可能比正常出現的事件更令人感興趣,包含更大的信息量,離羣點數據分析稱離羣點分析或異常挖掘。

(詳細的模式總結會在後序章節持續更新……)

3.數據挖掘能做什麼?
數據挖掘作爲一個應用驅動的學科,在許多應用中獲得巨大的成功,非常成功和流行的例子如:商務智能,搜索引擎。
對於商務,較好地理解分析顧客、市場和競爭對手的商務背景至關重要,商務智能(BI)技術提供商務運作的歷史、現狀、和預測視圖。例子包括報告、聯機分析處理、商務業績管理、競爭情報、標杆管理和預測分析。
對於搜索引擎,本質上是大型數據挖掘應用,利用各種數據挖掘技術,包括爬蟲(決定爬過哪些頁面和爬行頻率)、索引(選擇被索引的頁面和決定構建索引的範圍)和搜索(確定如何排列各個頁面、加載何種廣告、如何把搜索結果個性化或使之“環境敏感”)。

4.數據挖掘的主要問題(研究問題、挑戰、趨勢)
挖掘方法、用戶交互、有效性與可伸縮性、處理各種數據類型
PASS;

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章