原因
- 精細化競爭
- 精準
- 用戶精準定位
- 列表內容
- 競爭對手、外部情報
- 速度
- 客戶需求
- 產品開發
- 市場投放
- 可用
- 時間延長
- 不可用時間減少
- 強度加大
- 精準
- 數據增長
- 來源的多樣化
- 人工操作
- PC、手機生成
- 機器生成
- 數據的多樣化
- 結構化、半結構、非結構化數據
- 數據量增長
- 每兩年翻番
- 數據單位:G->T->P->E
- 軟硬件技術進步,價格降價
- 需求帶來供給
- 供給帶來新需求
- 來源的多樣化
總體
- 與OLTP共用到分離
- 硬件使用方式不同
- 處理能力有限
- 從多處OLTP系統獲取數據
- 未來會不會合?
- Hana等內存數據庫
- 雲平臺
- Oracle ExaData一體機
dw->dw2.0
- 原因
- 歷史數據管理
- 企業精細化競爭需求
- 變化
- 增加了半結構化、非結構化數據
- 分交互層、集成層、近線層、離線層
- 原因
總體-DW架構
- 總體-DW2.0
來自:DW 2.0 – The Architecture for the Next Generation of Data Warehouse
dw3.0什麼樣?
集中式->分佈式->雲
- 原因
- 單機處理能力有限
- 高可用
- 應用複雜
- 挑戰
- 多服務器協作
- 跨服務器數據關聯
- 單機不可靠
- 雲服務的遷移
- 反向於集中式?
- 雲是否合適大數據?
- 原因
結構化數據->半結構化、非結構化數據
- 體量大(Volume)
- 類型多樣化(Variety)
- 處理速度快(Velocity)
- 價值密度低(Value)
- 如何高效利用半結構化、非結構化數據?
批處理->實時
- 小時、天、周計算頻率到現在的分鐘、秒甚至毫秒
- 主要用於決策到用於生產
- 挑戰
- 獲取數據
- 與歷史數據集成、一致性、完整性
- 異常處理
- 提供高併發實時服務
- 批處理、實時可不可以用一套框架處理?
數據庫
- SMP->MPP
- SMP代表:oracle、db2、sql server
- MPP代表:teradata、greenplum、netezza
- MPP->NoSQL
- 集羣擴展能力有限
- 對非結構化數據支持不好
- 引擎較單一
- NoSQL和MPP會不會融合到一起?
- RDBMS->專有數據庫
- 圖數據庫、多維數據庫
- Hadoop
- 優點
- 較早解決了利用PC服務器擴展到上千臺服務器
- 生態系統發展良好
- 大量的使用
- 缺點
- MR效率低
- 複雜
- 學習成本高
- 穩定性較差
- 優點
- Spark
- 優點
- 速度快
- 高級API,開發效率高
- 集成流式處理、數據挖掘、SQL
- 缺點
- 快速開發中
- 複雜
- 優點
- 大數據框架的發展方向
- 效率
- 總體效率
- 單機效率
- 規範
- SQL
- 事務
- JDBC、ODBC
- 穩定、易用
- 降低安裝複雜度
- 降低維護難度
- 不可用時間減少
- 大一統VS專業化
- 大一統帶來易使用、易維護、規範化,同時特定應用效率、成果會比較低
- 專業化帶來更專業的處理方式,效率更高,同時部署、維護難度更大
- 效率
- 數據庫的發展方向
- 大規模橫向擴展
- 半結構、非結構化數據支持
- 與大數據架構的配合
- 數據庫配合使用
數據庫-其他技術
- 列式存儲
- 只掃描用到的列
- 混合使用多種存儲介質
- 磁帶、光盤、HDD、SSD、內存
- 壓縮
- CPU換IO,大部分不是時間換空間
- 分區
- Load
- Bitmap索引
- 無主外鍵
- 不記日誌(弱日誌)
- 預統計(inforbright knowledge grid)
- 部分信息統計後放入系統表,查詢直接走系統表
- 還有哪些技術可以引入?
Spark是未來嗎?
ETL
- 趨勢分析->生產應用
- 批處理->實時處理
- 粗略->精準
單一類型->多種類型數據同時使用
- 同時使用文本文件、專有格式文件、多種數據庫
ETL工具
- 專有工具,獨立服務器
- 代表
- IBM DataStage、Informatica PowerCenter、Pentaho Kettle
- 優點
- 集成度高
- 學習門檻低
- 多種數據源協同工作
- 缺點
- 複雜問題靈活不夠
- 單獨學習
- 演進同數據庫路線類似
- SMP、MPP
- HA
- 多種數據源混合使用
- ETL-數據倉庫
- 直接利用數據倉庫的存儲與計算能力
- 優點
- 學習成本低
- 充分利用資源
- 實現靈活
- 缺點
- 必須入庫纔可操作
- 調度等需要單獨開發
- 與其他服務爭搶資源
- 基於工具或數據倉庫,哪種方式在大數據處理方面佔優勢?
BI
- 第三方開發->自服務
- 工具更容易使用
- 用戶要求響應時間更短
PC->移動
- 一切前端應用移動化
BI工具
- MOLAP生成Cube文件,需要獨立服務器
- 代表
- IBM cognos、SAP BO、oracle BIEE、tableau
- 優缺點同ETL工具
- 自帶數據集市
- 專有格式->通用格式
- 專有服務器->通用服務器
- 我們需要什麼樣的BI?
數據挖掘
- 完整工具->類庫
- 工具:SAS、SPSS
- 類庫:Apache Mahour、Apache Spark Mllib\ GraphX
- 專有語言->通用語言
- 專有語言:SAS、R
- 通用:Python
- 我們如何進行數據挖掘?
硬件
- 小機+盤陣->PC Server->雲
- SMP結構是小型機+盤陣
- MPP也是多臺小型機+盤陣
- Hadoop、Spark等使用PC服務器、雲
- CPU
- 摩爾定律
- 綠色化
- HDD->SSD->Memory
- HDD存儲在線;磁帶存儲離線數據
- HDD存儲順序訪問、速度慢;隨機訪問且要求高的用SSD硬盤
- HDD存儲順序訪問、速度慢;隨機訪問且要求高的用SSD硬盤;性能要求極高的用內存
- 網絡100M->1000M->10G->40G->100G
- 目前主流是1000M向10G遷移階段,機架交換機
- 40G、100G核心交換機