Spark的組件介紹
1.Spark Core(任務調度,內存管理)
Spark Core 實現了Spark 的基本功能,包括任務調度,內存管理,錯誤恢復,和存儲系統交互等模塊。Spark Core 包括了彈性分佈式數據集RDD的API定義,
2.Spark SQL(結構化數據)
Spark SQL 是Spark用來操作結構化數據的程序包,通過spark sql 可以使用SQL或者Hive查詢數據,
3.Spark Streaming(實時計算)
Spark Streaming是Spark 提供的實時數據進行流式計算的組件,
4.MLlib(機器學習)
MLlib提供機器學習的程序庫,它提供了很多機器學習的算法, 包括分類、迴歸、聚類、協同過濾等,還提供了模型評估,數據導入等支持功能
5.GraphX(圖計算)
GraphX是用來操作圖的程序庫,可以進行並行的圖計算。它擴展了Spark的RDD API,能用來創建一個頂點和邊都包含任意屬性的有向圖。