Spark簡介

Spark簡介

原創

2018-09-04 12:35

Spark是Apache的一個開源項目，是一個適用於大數據處理的快速、通用的引擎，號稱Lightning-fast cluster computing（快如閃電的集羣計算）。
Spark也有強大的社區支持，誰讓它是Apache的頂級項目呢？

速度

Spark進行MapReduce作業的內存計算時比Hadoop快100倍，即使在磁盤上進行計算也比Hadoop快10倍左右。
因爲Spark擁有一個支持非循環數據和內存計算的高級有向無環圖DAG(Directed Acyclic Graph)執行引擎。

Logistic regression in Hadoop and Spark

易用性

    Spark可以使用Java, Scala, Python, R等語言進行應用的快速開發。
    Spark提供超過80種高級算子使得構建並行應用十分簡單，你也可以在Scala、Python、R的交互式shell種使用Spark。
    我們可以在Scala Shell中使用一句代碼完成WordCount:
sc.textFile(fileName).flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _).collect

通用性

Spark融合了SQL、流計算和複雜的分析。
Spark提供了超級強大的一些內庫，包括SQL、數據框、機器學習庫、圖計算和Spark流計算，我們可以在同一個應用中無縫的融合這些庫。

到處運行

Spark可以運行在Hadoop、Mesos、單機或者雲服務器上，它可以從HDFS、Cassandra、HBase和S3中獲取各種各樣的數據源。
我們可以在EC2、Hadoop Yarn、Apache Mesos上使用Spark的獨立集羣模式運行Spark，從HDFS、Cassandra、 HBase、Hive、 Tachyon和其他任何Hadoop支持的數據源中獲取數據。

參考

Apache Spark官網

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Spark簡介

Spark簡介

速度

易用性

通用性

到處運行

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

Python 安裝庫指令大全

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

基於 Milvus + LlamaIndex 實現高級 RAG

【2024-05-21】以茶會友

makefile學習 (三)

makefile學習 (二)

makefile 學習 (一)

我所理解的三次握手與四次揮手

Java綜合應用：線程與信號量實現數據管道傳輸

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結