簡單的介紹:
Spark:
Aparche Shark是專爲大規模數據處理而設計的快速通用的計算引擎。由UC Berkeley AMP Lab所開源的類Hadoop MapReduce的通用並行框架。
HBase:
HBase是一個分佈式的、面向列的開源數據庫,該技術來源於Fay Chang所撰寫的Google論文BigTable(一個結構化數據的分佈式存儲系統)。HBase是Apache的Hadoop項目的子項目。Hbase不同於一般的關係數據庫,它是一個非結構化數據存儲的數據庫。另一個不同的是HBase是基於列的,而不是基於行的模式。
Hadoop是一個有Apache基金會所開發的分佈式系統基礎架構。
正文:
對於數據的處理,歸結於三個問題:數據從哪兒來,要對數據做什麼,數據到哪兒去。
大數據,是多類數據的複雜集合體。大數據之大,在於兩點:種類多(大類),數量多(大量)。
關於大數據的這兩點,在計算機操作技術上講,是如何存儲/讀取大數據,以及如何對大數據進行操作。
對大數據的操作包括:抓取大數據,挖掘大數據,計算大數據。
對於大數據的去處:依據行業分爲【輿情】、【金融】、【科技】、【文化】等方面。
Spark作爲計算引擎,是承載大數據操作的框架媒介。作爲程序體的框架,調用配置所處位置下的機器的硬件設施來實現調用配置。
HBase作爲數據庫,是大數據存儲和讀取的存儲(讀取)媒介。
Hadoop作爲分佈式系統架構,則是對大量機器進行管理控制的管理者。