大数据平台与传统数仓的区别

基于关系数据库的传统数仓
➢ 基本特点
• 数据源:关系数据库(如Oracle、DB2、MySQL等)
• 数据仓库和数据集市:关系数据库或MPP(如Teradata、Vertica、Greenplum)
• 数据类型:结构化数据
• 数据规模:GB~TB级
• 数据分析:用SQL进行简单的统计报表分析

 

✓ 数据规模巨大(Volume)
✓ 生成和处理速度极快(Velocity)
✓ 数据类型多样(Variety)
✓ 价值巨大但密度较低(Value)

传统数仓面临的挑战- 越来越多样的业务需求

离线业务与在线业务并存

分析型业务与检索型业务并存

结构化数据与非结构化数据并存

对事务支持的需求

 

传统数仓面临的挑战- 四个能力不足 

  • 存储管理能力不足

无法支撑海量多源异构数据的灵活高效存储
无法实现基于SQL的异构数据统一管理和访问

  • 综合搜索能力不足

无法实现PB级半/非结构化数据的组合、全文和语义搜索
无法实现千亿级数据搜索的秒级返回

  • 分析挖掘能力不足

计算任务井喷式增长,系统不堪重负
无法支撑PB级异构数据的快速分析和深度挖掘

  • 实时处理能力不足

无法实现流式数据的实时接入、复杂事件处理和机器学习
开发门槛高,不支持用SQL编写流应用

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章