數據倉庫-筆記

數據倉庫的特點:

  1. 面向主題
  2. 集成
  3. 相對穩定
  4. 反映歷史變化

ETL抽取過程:

  1. 抽取
  2. 轉換
  3. 加載

建立數據倉庫的步驟:

  1. 收集和分析業務需求
  2. 建立數據模型和數據倉庫的物理設計
  3. 定義數據源
  4. 選擇數據倉庫技術和平臺
  5. 從操作型數據庫中抽取,清洗及轉換數據到數據倉庫
  6. 選擇訪問和報表工具,選擇數據庫連接軟件,選擇數據分析和數據展示軟件
  7. 更新數據倉庫

自動摘要:

  1. 主題摘要
  2. 信息摘要
  3. 綱目摘要
  4. 摘錄型摘要
  5. 評論型摘要

WEB挖掘

  • WEB內容挖掘
    • 文本挖掘
    • 多媒體挖掘
  • WEB結構挖掘
    • 超鏈接挖掘
    • 頁面結構挖掘
  • WEB使用挖掘
    • 用戶訪問模式挖掘
    • 分析定製WEB站點

神經網絡

  1. 計算總體誤差對於每個參數的有序倒數公式(函數)
  2. 任意選擇一組數據作爲初始參數
  3. 根據當前參數計算總體誤差
  4. 計算各參數的增量,並計算調整後的參數大小,把調整後的參數作爲當前參數

ID3:

信息增益的缺點是傾向於取值較多的屬性
只能對描述屬性爲離散型屬性的數據集構造決策樹

支持度≥SUP(min)的項集稱爲頻繁項集。

如果L2 = { {A,B},{A,C},{B,C},{B,D},{A,D} };
則連接產生的C3 = abc ,adb,acd ,bcd //子集沒有cd,去掉CD
修剪C3 = ABC ABD

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章