Spark,Hbase和Hadoop之间的关系

简单的介绍:

Spark:

Aparche Shark是专为大规模数据处理而设计的快速通用的计算引擎。由UC Berkeley AMP Lab所开源的类Hadoop MapReduce的通用并行框架。


HBase:

HBase是一个分布式的、面向列的开源数据库,该技术来源于Fay Chang所撰写的Google论文BigTable(一个结构化数据的分布式存储系统)。HBase是Apache的Hadoop项目的子项目。Hbase不同于一般的关系数据库,它是一个非结构化数据存储的数据库。另一个不同的是HBase是基于列的,而不是基于行的模式。


Hadoop是一个有Apache基金会所开发的分布式系统基础架构


正文:

        对于数据的处理,归结于三个问题:数据从哪儿来,要对数据做什么,数据到哪儿去。

        大数据,是多类数据的复杂集合体。大数据之大,在于两点:种类多(大类),数量多(大量)。

关于大数据的这两点,在计算机操作技术上讲,是如何存储/读取大数据,以及如何对大数据进行操作。

对大数据的操作包括:抓取大数据,挖掘大数据,计算大数据。

对于大数据的去处:依据行业分为【舆情】、【金融】、【科技】、【文化】等方面。


Spark作为计算引擎,是承载大数据操作的框架媒介。作为程序体的框架,调用配置所处位置下的机器的硬件设施来实现调用配置。

HBase作为数据库,是大数据存储和读取的存储(读取)媒介。

Hadoop作为分布式系统架构,则是对大量机器进行管理控制的管理者。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章