大数据系统由哪些核心组件构成

  大数据是新一代信息技术的核心方面和竞争前沿,也是制约大数据产业快速发展的关键瓶颈。大数据技术创新能力已经成为后信息时代衡量国家竞争力的重要指标。与传统信息产业的发展过程相似,大数据必将逐渐形成一个相对独立、体系完善的产业形态,完成传统信息产业的升级换代。今天我们就在来了解一下,数据系统的主要业务以及存储方法。

大数据系统由哪些核心组件构成

 

  数据系统主要对业务数据及其他数据进行汇总和处理,对接BI、推荐或风控等系统。整个系统架构中,会包含以下比较常见的几大核心组件:

 

  关系数据库:用于主业务数据存储,提供事务型数据处理,是应用系统的核心数据存储。

 

  高速缓存:对复杂或操作代价昂贵的结果进行缓存,加速访问。

 

  搜索引擎:提供复杂条件查询和全文检索。

 

  队列:用于将数据处理流程异步化,衔接上下游对数据进行实时交换。异构数据存储之间进行上下游对接的核心组件,例如数据库系统与缓存系统或搜索系统间的数据对接。也用于数据的实时提取,在线存储到离线存储的实时归档。

 

  非结构化大数据存储:用于海量图片或视频等非结构化数据的存储,同时支持在线查询或离线计算的数据访问需求。

 

  结构化大数据存储:在线数据库也可作为结构化数据存储,但这里提到的结构化数据存储模块,更偏在线到离线的衔接,特征是能支持高吞吐数据写入以及大规模数据存储,存储和查询性能可线性扩展。可存储面向在线查询的非关系型数据,或者是用于关系数据库的历史数据归档,满足大规模和线性扩展的需求,也可存储面向离线分析的实时写入数据。

 

  批量计算:对非结构化数据和结构化数据进行数据分析,批量计算中又分为交互式分析和离线计算两类,离线计算需要满足对大规模数据集进行复杂分析的能力,交互式分析需要满足对中等规模数据集实时分析的能力。

 

  流计算:对非结构化数据和结构化数据进行流式数据分析,低延迟产出实时视图。

 

  在数据系统架构中,我们可以看到会存在多套存储组件。对于这些存储组件中的数据,有些是来自应用的直写,有些是来自其他存储组件的数据复制。例如业务关系数据库的数据通常是来自业务,而高速缓存和搜索引擎的数据,通常是来自业务数据库的数据同步与复制。不同用途的存储组件有不同类型的上下游数据链路,我们可以大概将其归类为主存储和辅存储两类,这两类存储有不同的设计目标,主要特征为:

 

  主存储:数据产生自业务或者是计算,通常为数据先落地的存储。ACID等事务特性可能是强需求,提供在线应用所需的低延迟业务数据查询。

 

  辅存储:数据主要来自主存储的数据同步与复制,辅存储是主存储的某个视图,通常面向数据查询、检索和分析做优化。

 

  数据来源途径越来越丰富,而且类型也很多花样,存储和数据处理的需求量很大,对于数据展现也非常的高,并且很看重数据处理的高效性和可用性。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章