數據倉庫技術及其演變

原因

  • 精細化競爭
    • 精準
      • 用戶精準定位
      • 列表內容
      • 競爭對手、外部情報
    • 速度
      • 客戶需求
      • 產品開發
      • 市場投放
    • 可用
      • 時間延長
      • 不可用時間減少
      • 強度加大
  • 數據增長
    • 來源的多樣化
      • 人工操作
      • PC、手機生成
      • 機器生成
    • 數據的多樣化
      • 結構化、半結構、非結構化數據
      • 數據量增長
        • 每兩年翻番
        • 數據單位:G->T->P->E
    • 軟硬件技術進步,價格降價
      • 需求帶來供給
      • 供給帶來新需求

總體

  • 與OLTP共用到分離
    • 硬件使用方式不同
    • 處理能力有限
    • 從多處OLTP系統獲取數據
    • 未來會不會合?
      • Hana等內存數據庫
      • 雲平臺
      • Oracle ExaData一體機
  • dw->dw2.0

    • 原因
      • 歷史數據管理
      • 企業精細化競爭需求
    • 變化
      • 增加了半結構化、非結構化數據
      • 分交互層、集成層、近線層、離線層
  • 總體-DW架構

這裏寫圖片描述
來自:http://www.oracle.com/technetwork/cn/community/developer-day/1-edw-refer-architecture-case-454566-zhs.pdf

  • 總體-DW2.0

這裏寫圖片描述
來自:DW 2.0 – The Architecture for the Next Generation of Data Warehouse

  • dw3.0什麼樣?

  • 集中式->分佈式->雲

    • 原因
      • 單機處理能力有限
      • 高可用 這裏寫圖片描述
      • 應用複雜
    • 挑戰
      • 多服務器協作
      • 跨服務器數據關聯
      • 單機不可靠
      • 雲服務的遷移
    • 反向於集中式?
    • 雲是否合適大數據?
  • 結構化數據->半結構化、非結構化數據

    • 體量大(Volume)
    • 類型多樣化(Variety)
    • 處理速度快(Velocity)
    • 價值密度低(Value)
    • 如何高效利用半結構化、非結構化數據?
  • 批處理->實時

    • 小時、天、周計算頻率到現在的分鐘、秒甚至毫秒
    • 主要用於決策到用於生產
    • 挑戰
      • 獲取數據
      • 與歷史數據集成、一致性、完整性
      • 異常處理
      • 提供高併發實時服務
    • 批處理、實時可不可以用一套框架處理?

數據庫

  • SMP->MPP
    • SMP代表:oracle、db2、sql server
    • MPP代表:teradata、greenplum、netezza
  • MPP->NoSQL
    • 集羣擴展能力有限
    • 對非結構化數據支持不好
    • 引擎較單一
    • NoSQL和MPP會不會融合到一起?
  • RDBMS->專有數據庫
    • 圖數據庫、多維數據庫
  • Hadoop
    • 優點
      • 較早解決了利用PC服務器擴展到上千臺服務器
      • 生態系統發展良好
      • 大量的使用
    • 缺點
      • MR效率低
      • 複雜
      • 學習成本高
      • 穩定性較差
  • Spark
    • 優點
      • 速度快
      • 高級API,開發效率高
      • 集成流式處理、數據挖掘、SQL
    • 缺點
      • 快速開發中
      • 複雜
  • 大數據框架的發展方向
    • 效率
      • 總體效率
      • 單機效率
    • 規範
      • SQL
      • 事務
      • JDBC、ODBC
    • 穩定、易用
      • 降低安裝複雜度
      • 降低維護難度
      • 不可用時間減少
    • 大一統VS專業化
      • 大一統帶來易使用、易維護、規範化,同時特定應用效率、成果會比較低
      • 專業化帶來更專業的處理方式,效率更高,同時部署、維護難度更大
  • 數據庫的發展方向
    • 大規模橫向擴展
    • 半結構、非結構化數據支持
    • 與大數據架構的配合
  • 數據庫配合使用

這裏寫圖片描述

數據庫-其他技術

  • 列式存儲
    • 只掃描用到的列
  • 混合使用多種存儲介質
    • 磁帶、光盤、HDD、SSD、內存
  • 壓縮
    • CPU換IO,大部分不是時間換空間
  • 分區
  • Load
  • Bitmap索引
  • 無主外鍵
  • 不記日誌(弱日誌)
  • 預統計(inforbright knowledge grid)
  • 部分信息統計後放入系統表,查詢直接走系統表
  • 還有哪些技術可以引入?

Spark是未來嗎?

這裏寫圖片描述

ETL

  • 趨勢分析->生產應用
  • 批處理->實時處理
  • 粗略->精準
  • 單一類型->多種類型數據同時使用

    • 同時使用文本文件、專有格式文件、多種數據庫
  • ETL工具

    • 專有工具,獨立服務器
    • 代表
      • IBM DataStage、Informatica PowerCenter、Pentaho Kettle
    • 優點
      • 集成度高
      • 學習門檻低
      • 多種數據源協同工作
    • 缺點
      • 複雜問題靈活不夠
      • 單獨學習
    • 演進同數據庫路線類似
      • SMP、MPP
      • HA
      • 多種數據源混合使用
  • ETL-數據倉庫
    • 直接利用數據倉庫的存儲與計算能力
    • 優點
      • 學習成本低
      • 充分利用資源
      • 實現靈活
    • 缺點
      • 必須入庫纔可操作
      • 調度等需要單獨開發
      • 與其他服務爭搶資源
  • 基於工具或數據倉庫,哪種方式在大數據處理方面佔優勢?

BI

  • 第三方開發->自服務
    • 工具更容易使用
    • 用戶要求響應時間更短
  • PC->移動

    • 一切前端應用移動化
  • BI工具

    • MOLAP生成Cube文件,需要獨立服務器
    • 代表
      • IBM cognos、SAP BO、oracle BIEE、tableau
    • 優缺點同ETL工具
    • 自帶數據集市
    • 專有格式->通用格式
    • 專有服務器->通用服務器
  • 我們需要什麼樣的BI?

數據挖掘

  • 完整工具->類庫
    • 工具:SAS、SPSS
    • 類庫:Apache Mahour、Apache Spark Mllib\ GraphX
  • 專有語言->通用語言
    • 專有語言:SAS、R
    • 通用:Python
  • 我們如何進行數據挖掘?

硬件

  • 小機+盤陣->PC Server->雲
    • SMP結構是小型機+盤陣
    • MPP也是多臺小型機+盤陣
    • Hadoop、Spark等使用PC服務器、雲
  • CPU
    • 摩爾定律
    • 綠色化
  • HDD->SSD->Memory
    • HDD存儲在線;磁帶存儲離線數據
    • HDD存儲順序訪問、速度慢;隨機訪問且要求高的用SSD硬盤
    • HDD存儲順序訪問、速度慢;隨機訪問且要求高的用SSD硬盤;性能要求極高的用內存
  • 網絡100M->1000M->10G->40G->100G
    • 目前主流是1000M向10G遷移階段,機架交換機
    • 40G、100G核心交換機
發佈了42 篇原創文章 · 獲贊 29 · 訪問量 14萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章