Spark,Hbase和Hadoop之間的關係

簡單的介紹:

Spark:

Aparche Shark是專爲大規模數據處理而設計的快速通用的計算引擎。由UC Berkeley AMP Lab所開源的類Hadoop MapReduce的通用並行框架。


HBase:

HBase是一個分佈式的、面向列的開源數據庫,該技術來源於Fay Chang所撰寫的Google論文BigTable(一個結構化數據的分佈式存儲系統)。HBase是Apache的Hadoop項目的子項目。Hbase不同於一般的關係數據庫,它是一個非結構化數據存儲的數據庫。另一個不同的是HBase是基於列的,而不是基於行的模式。


Hadoop是一個有Apache基金會所開發的分佈式系統基礎架構


正文:

        對於數據的處理,歸結於三個問題:數據從哪兒來,要對數據做什麼,數據到哪兒去。

        大數據,是多類數據的複雜集合體。大數據之大,在於兩點:種類多(大類),數量多(大量)。

關於大數據的這兩點,在計算機操作技術上講,是如何存儲/讀取大數據,以及如何對大數據進行操作。

對大數據的操作包括:抓取大數據,挖掘大數據,計算大數據。

對於大數據的去處:依據行業分爲【輿情】、【金融】、【科技】、【文化】等方面。


Spark作爲計算引擎,是承載大數據操作的框架媒介。作爲程序體的框架,調用配置所處位置下的機器的硬件設施來實現調用配置。

HBase作爲數據庫,是大數據存儲和讀取的存儲(讀取)媒介。

Hadoop作爲分佈式系統架構,則是對大量機器進行管理控制的管理者。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章