數據倉庫的特點:
- 面向主題
- 集成
- 相對穩定
- 反映歷史變化
ETL抽取過程:
- 抽取
- 轉換
- 加載
建立數據倉庫的步驟:
- 收集和分析業務需求
- 建立數據模型和數據倉庫的物理設計
- 定義數據源
- 選擇數據倉庫技術和平臺
- 從操作型數據庫中抽取,清洗及轉換數據到數據倉庫
- 選擇訪問和報表工具,選擇數據庫連接軟件,選擇數據分析和數據展示軟件
- 更新數據倉庫
自動摘要:
- 主題摘要
- 信息摘要
- 綱目摘要
- 摘錄型摘要
- 評論型摘要
WEB挖掘
- WEB內容挖掘
- 文本挖掘
- 多媒體挖掘
- WEB結構挖掘
- 超鏈接挖掘
- 頁面結構挖掘
- WEB使用挖掘
- 用戶訪問模式挖掘
- 分析定製WEB站點
神經網絡
- 計算總體誤差對於每個參數的有序倒數公式(函數)
- 任意選擇一組數據作爲初始參數
- 根據當前參數計算總體誤差
- 計算各參數的增量,並計算調整後的參數大小,把調整後的參數作爲當前參數
ID3:
信息增益的缺點是傾向於取值較多的屬性
只能對描述屬性爲離散型屬性的數據集構造決策樹
支持度≥SUP(min)的項集稱爲頻繁項集。
如果L2 = { {A,B},{A,C},{B,C},{B,D},{A,D} };
則連接產生的C3 = abc ,adb,acd ,bcd //子集沒有cd,去掉CD
修剪C3 = ABC ABD