工具彙總
當前Spark的Notebook工具主要有四個,
- Jupyter:
- Zeppelin
- Spark Notebook:
- 安裝:github地址
- HUE
優缺點
上述四個工具都可以作爲Spark代碼的notebook工具,但特點不同。
Jupyter是輕量級別的,打開關閉都很快,並且開啓的是相當於是一個最小Spark集羣,故適合代碼快速測試。
Zeppelin發展迅速,特別時候數據分析,數據可視化。
Spark-notebook的資源最爲豐富,提供適用於所有環境的所有版本,並且自帶很多機器學習等示例。唯一的缺點是有時候界面加載特別慢。
HUE的notebook發展比較慢,比如即使是最新的3.10版,其雖然支持spark notebook,但還需自己手動配置,比較麻煩。但HUE中整合了其它的許多大數據資源,比如HDFS,Job,Hive等,提供了數據提取、分析的一站式平臺,所以其非常適合作爲生產環境的Notebook工具。
總結
上述軟件不同的定位使得其有了各自的不同的應用場景,大家根據自己的需要來自己選取。
當然,上述四個工具還在飛速發展中,軟件的功能也不僅僅只是作爲Spark Notebook。