Apache Spark-[概述和安裝]

概述

Spark是一個快如閃電的統一分析引擎(計算框架)用於大規模數據集的處理。Spark在做數據的批處理計算,計算性能大約是Hadoop MapReduce的10~100倍,因爲Spark使用比較先進的基於DAG任務調度,可以將一個任務拆分成若干個階段,然後將這些階段分批次交給集羣計算節點處理。
在這裏插入圖片描述
MapReduce VS Spark

MapReduce作爲第一代大數據處理框架,在設計初期只是爲了滿足基於海量數據級的海量數據計算的迫切需求。自2006年剝離自Nutch(Java搜索引擎)工程,主要解決的是早期人們對大數據的初級認知所面臨的問題。
在這裏插入圖片描述
整個MapReduce的計算實現的是基於磁盤的IO計算,隨着大數據技術的不斷普及,人們開始重新定義大數據的處理方式,不僅僅滿足於能在合理的時間範圍內完成對大數據的計算,還對計算的實效性提出了更苛刻的要求,因爲人們開始探索使用Map Reduce計算框架完成一些複雜的高階算法,往往這些算法通常不能通過1次性的Map Reduce迭代計算完成。由於Map Reduce計算模型總是把結果存儲到磁盤中,每次迭代都需要將數據磁盤加載到內存,這就爲後續的迭代帶來了更多延長。

2009年Spark在加州伯克利AMP實驗室誕生,2010首次開源後該項目就受到很多開發人員的喜愛,2013年6月份開始在Apache孵化,2014年2月份正式成爲Apa

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章