基於關係數據庫的傳統數倉
➢ 基本特點
• 數據源:關係數據庫(如Oracle、DB2、MySQL等)
• 數據倉庫和數據集市:關係數據庫或MPP(如Teradata、Vertica、Greenplum)
• 數據類型:結構化數據
• 數據規模:GB~TB級
• 數據分析:用SQL進行簡單的統計報表分析
✓ 數據規模巨大(Volume)
✓ 生成和處理速度極快(Velocity)
✓ 數據類型多樣(Variety)
✓ 價值巨大但密度較低(Value)
傳統數倉面臨的挑戰- 越來越多樣的業務需求
離線業務與在線業務並存
分析型業務與檢索型業務並存
結構化數據與非結構化數據並存
對事務支持的需求
傳統數倉面臨的挑戰- 四個能力不足
- 存儲管理能力不足
無法支撐海量多源異構數據的靈活高效存儲
無法實現基於SQL的異構數據統一管理和訪問
- 綜合搜索能力不足
無法實現PB級半/非結構化數據的組合、全文和語義搜索
無法實現千億級數據搜索的秒級返回
- 分析挖掘能力不足
計算任務井噴式增長,系統不堪重負
無法支撐PB級異構數據的快速分析和深度挖掘
- 實時處理能力不足
無法實現流式數據的實時接入、複雜事件處理和機器學習
開發門檻高,不支持用SQL編寫流應用