數據倉庫技術及其演變

原創

2020-02-21 01:49

原因

精細化競爭
- 精準
  - 用戶精準定位
  - 列表內容
  - 競爭對手、外部情報
- 速度
  - 客戶需求
  - 產品開發
  - 市場投放
- 可用
  - 時間延長
  - 不可用時間減少
  - 強度加大
數據增長
- 來源的多樣化
  - 人工操作
  - PC、手機生成
  - 機器生成
- 數據的多樣化
  - 結構化、半結構、非結構化數據
  - 數據量增長
    - 每兩年翻番
    - 數據單位：G->T->P->E
- 軟硬件技術進步，價格降價
  - 需求帶來供給
  - 供給帶來新需求

總體

與OLTP共用到分離
- 硬件使用方式不同
- 處理能力有限
- 從多處OLTP系統獲取數據
- 未來會不會合？
  - Hana等內存數據庫
  - 雲平臺
  - Oracle ExaData一體機
dw->dw2.0
- 原因
  - 歷史數據管理
  - 企業精細化競爭需求
- 變化
  - 增加了半結構化、非結構化數據
  - 分交互層、集成層、近線層、離線層
總體-DW架構

來自：http://www.oracle.com/technetwork/cn/community/developer-day/1-edw-refer-architecture-case-454566-zhs.pdf

總體-DW2.0

來自：DW 2.0 – The Architecture for the Next Generation of Data Warehouse

dw3.0什麼樣？
集中式->分佈式->雲
- 原因
  - 單機處理能力有限
  - 高可用
  - 應用複雜
- 挑戰
  - 多服務器協作
  - 跨服務器數據關聯
  - 單機不可靠
  - 雲服務的遷移
- 反向於集中式？
- 雲是否合適大數據？
結構化數據->半結構化、非結構化數據
- 體量大(Volume)
- 類型多樣化(Variety)
- 處理速度快(Velocity)
- 價值密度低(Value)
- 如何高效利用半結構化、非結構化數據？
批處理->實時
- 小時、天、周計算頻率到現在的分鐘、秒甚至毫秒
- 主要用於決策到用於生產
- 挑戰
  - 獲取數據
  - 與歷史數據集成、一致性、完整性
  - 異常處理
  - 提供高併發實時服務
- 批處理、實時可不可以用一套框架處理？

數據庫

SMP->MPP
- SMP代表：oracle、db2、sql server
- MPP代表：teradata、greenplum、netezza
MPP->NoSQL
- 集羣擴展能力有限
- 對非結構化數據支持不好
- 引擎較單一
- NoSQL和MPP會不會融合到一起？
RDBMS->專有數據庫
- 圖數據庫、多維數據庫
Hadoop
- 優點
  - 較早解決了利用PC服務器擴展到上千臺服務器
  - 生態系統發展良好
  - 大量的使用
- 缺點
  - MR效率低
  - 複雜
  - 學習成本高
  - 穩定性較差
Spark
- 優點
  - 速度快
  - 高級API，開發效率高
  - 集成流式處理、數據挖掘、SQL
- 缺點
  - 快速開發中
  - 複雜
大數據框架的發展方向
- 效率
  - 總體效率
  - 單機效率
- 規範
  - SQL
  - 事務
  - JDBC、ODBC
- 穩定、易用
  - 降低安裝複雜度
  - 降低維護難度
  - 不可用時間減少
- 大一統VS專業化
  - 大一統帶來易使用、易維護、規範化，同時特定應用效率、成果會比較低
  - 專業化帶來更專業的處理方式，效率更高，同時部署、維護難度更大
數據庫的發展方向
- 大規模橫向擴展
- 半結構、非結構化數據支持
- 與大數據架構的配合
數據庫配合使用

數據庫－其他技術

列式存儲
- 只掃描用到的列
混合使用多種存儲介質
- 磁帶、光盤、HDD、SSD、內存
壓縮
- CPU換IO，大部分不是時間換空間
分區
Load
Bitmap索引
無主外鍵
不記日誌（弱日誌）
預統計（inforbright knowledge grid）
部分信息統計後放入系統表，查詢直接走系統表
還有哪些技術可以引入？

Spark是未來嗎？

ETL

趨勢分析->生產應用
批處理->實時處理
粗略->精準
單一類型->多種類型數據同時使用
- 同時使用文本文件、專有格式文件、多種數據庫
ETL工具
- 專有工具，獨立服務器
- 代表
  - IBM DataStage、Informatica PowerCenter、Pentaho Kettle
- 優點
  - 集成度高
  - 學習門檻低
  - 多種數據源協同工作
- 缺點
  - 複雜問題靈活不夠
  - 單獨學習
- 演進同數據庫路線類似
  - SMP、MPP
  - HA
  - 多種數據源混合使用
ETL-數據倉庫
- 直接利用數據倉庫的存儲與計算能力
- 優點
  - 學習成本低
  - 充分利用資源
  - 實現靈活
- 缺點
  - 必須入庫纔可操作
  - 調度等需要單獨開發
  - 與其他服務爭搶資源
基於工具或數據倉庫，哪種方式在大數據處理方面佔優勢？

BI

第三方開發->自服務
- 工具更容易使用
- 用戶要求響應時間更短
PC->移動
- 一切前端應用移動化
BI工具
- MOLAP生成Cube文件，需要獨立服務器
- 代表
  - IBM cognos、SAP BO、oracle BIEE、tableau
- 優缺點同ETL工具
- 自帶數據集市
- 專有格式->通用格式
- 專有服務器->通用服務器
我們需要什麼樣的BI？

數據挖掘

完整工具->類庫
- 工具：SAS、SPSS
- 類庫：Apache Mahour、Apache Spark Mllib\ GraphX
專有語言->通用語言
- 專有語言：SAS、R
- 通用：Python
我們如何進行數據挖掘？

硬件

小機+盤陣->PC Server->雲
- SMP結構是小型機+盤陣
- MPP也是多臺小型機+盤陣
- Hadoop、Spark等使用PC服務器、雲
CPU
- 摩爾定律
- 綠色化
HDD->SSD->Memory
- HDD存儲在線；磁帶存儲離線數據
- HDD存儲順序訪問、速度慢；隨機訪問且要求高的用SSD硬盤
- HDD存儲順序訪問、速度慢；隨機訪問且要求高的用SSD硬盤；性能要求極高的用內存
網絡100M->1000M->10G->40G->100G
- 目前主流是1000M向10G遷移階段，機架交換機
- 40G、100G核心交換機

發佈了42 篇原創文章 · 獲贊 29 · 訪問量 14萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

阿里雲 MaxCompute 2020-11 月刊

【11月新功能發佈】1、MaxCompute支持以RAM角色身份訪問使用服務在雲賬號、RAM用戶基礎上，支持以RAM角色身份訪問服務，滿足跨雲服務的安全數據交換以及與企業已有身份系統實現SSO對接訪問需求。適用客戶已自建身份系統需要以R

2020-12-03 09:55:49

阿里雲 MaxCompute 2020-10 月刊

【10月新功能發佈】 1、MaxCompute 支持 sort by 不帶 distribute by MaxCompute 支持 sort by 不帶 distribute by，提供數據重排的解決方案，提高SQL執行的過濾性能。適用客

2020-11-09 12:19:53

數據湖 VS 數據倉庫之爭？阿里提出大數據架構新概念：湖倉一體

隨着近幾年數據湖概念的興起，業界對於數據倉庫和數據湖的對比甚至爭論就一直不斷。有人說數據湖是下一代大數據平臺，各大雲廠商也在紛紛的提出自己的數據湖解決方案，一些雲數倉產品也增加了和數據湖聯動的特性。但是數據倉庫和數據湖的區別到底是什麼，是技

雲棲號資訊小哥

2020-10-15 15:34:46

阿里雲 MaxCompute 2020-9 月刊

【9月新功能發佈】 1. MaxCompute作業監控診斷工具Logview功能升級發佈此次Logview功能升級，擴展了MaxCompute作業的監控指標，提供作業回放功能，新增Fuxi Sensor支持查看作業內存及CPU使用。適用

2020-10-10 10:31:48

【雲棲號直播】本週重磅：阿里雲CDN產品解讀及全站加速在遊戲行業的最佳實踐

雲棲號在線課堂，及時瞭解行業動態！阿里雲推出疫情專題方案，爲企業業務護航，讓你足不出戶瞭解行業動態。在這裏可以走近阿里雲基礎產品，瞭解更多應用方案，還能遇見大咖分享洞見及故事！也可以通過視頻的形式讓你高效、生動的瞭解場景化的上雲最佳實

雲棲號資訊小編

2020-09-09 14:43:55

基於 Flink 的典型 ETL 場景實現

作者：買蓉 · 美團點評高級技術專家整理：趙陽（Flink 社區志願者）校對：苗浩衝（Flink 社區志願者）本文將從數倉誕生的背景、數倉架構、離線與實時數倉的對比着手，綜述數倉發展演進，然後分享基於 Flink 實現典型 ETL 場景的

雲棲號資訊小編

2020-09-08 14:31:49

阿里雲 MaxCompute 2020-8 月刊

【8月新功能發佈】 1. MaxCompute 數據備份與恢復功能中國大陸區域（商業化）發佈 MaxCompute備份與恢復功能提供持續備份用戶修改/刪除歷史數據，支持快速恢復，持續保護數據安全。適用客戶· 對數據保護有強需求客戶· 擔

2020-09-04 14:25:55

【雲棲號直播】本週重磅：阿里雲“升艙計劃”重磅發佈

雲棲號在線課堂，及時瞭解行業動態！阿里雲推出疫情專題方案，爲企業業務護航，讓你足不出戶瞭解行業動態。在這裏可以走近阿里雲基礎產品，瞭解更多應用方案，還能遇見大咖分享洞見及故事！也可以通過視頻的形式讓你高效、生動的瞭解場景化的上雲最佳實

雲棲號資訊小編

2020-08-17 11:49:49

阿里雲 MaxCompute 2020-6 月刊

導讀【6月新發布功能】【6月新發布文檔】【6月精選技術文章】【7月精選活動預告】【6月新發布功能】 1. MaxCompute備份與恢復功能（公測）發佈 MaxCompute備份與恢復功能提供持續備份用戶修改/刪除歷史數據，支持快速恢

2020-08-12 14:01:49

【雲棲號直播】本週重磅：阿里雲容器安全能力全面升級

雲棲號在線課堂，及時瞭解行業動態！阿里雲推出疫情專題方案，爲企業業務護航，讓你足不出戶瞭解行業動態。在這裏可以走近阿里雲基礎產品，瞭解更多應用方案，還能遇見大咖分享洞見及故事！也可以通過視頻的形式讓你高效、生動的瞭解場景化的上雲最佳實

雲棲號資訊小編

2020-08-10 14:40:50

SaaS 模式雲數據倉庫 MaxCompute 數據安全最佳實踐

本文作者阿里雲智能項目管理專家王璀什麼是 MaxCompute? MaxCompute 是一款雲原生、高效能的SaaS模式企業級數據倉庫服務，被廣泛用於構建現代化企業數據平臺，開展BI分析、數據化運營、畫像及推薦、智能預測等應用場景

雲棲號資訊小編

2020-08-07 11:58:54

【雲棲號直播】本週重磅：手把手教你玩轉阿里雲通信號碼認證服務！

雲棲號在線課堂，及時瞭解行業動態！阿里雲推出疫情專題方案，爲企業業務護航，讓你足不出戶瞭解行業動態。在這裏可以走近阿里雲基礎產品，瞭解更多應用方案，還能遇見大咖分享洞見及故事！也可以通過視頻的形式讓你高效、生動的瞭解場景化的上雲最佳實

雲棲號資訊小編

2020-08-03 11:31:55

【雲棲號直播】本週重磅：新一代雲原生數據倉庫AnalyticDB 全新升級發佈會！

雲棲號在線課堂，及時瞭解行業動態！阿里雲推出疫情專題方案，爲企業業務護航，讓你足不出戶瞭解行業動態。在這裏可以走近阿里雲基礎產品，瞭解更多應用方案，還能遇見大咖分享洞見及故事！也可以通過視頻的形式讓你高效、生動的瞭解場景化的上雲最佳實

雲棲號資訊小編

2020-07-20 12:34:51

數據分層/ODS/DW/DM

數據分層/ODS/DW/DM數據分層數據分層的目的ODS層（Operational Data Store 又稱數據運營層）DW層（data warehouse 數據倉庫）DM層 (data market 數據集市）數據分層數

2020-07-07 23:55:04

淺談數倉

什麼叫數據倉庫？數據倉庫是一個面向主題的（Subject Oriented）、集成的（Integrate）、相對穩定的（Non-Volatile）、反映歷史變化（Time Variant）的數據集合，它用於支持企業或組織的決策分析處理。

2020-07-07 21:46:09

24小時熱門文章

最新文章

最新評論文章