原创 spark踩坑 轉

一.經驗 1.Spark Streaming包含三種計算模式:nonstate .stateful .window 2.kafka可通過配置文件使用自帶的zookeeper集羣 3.Spark一切操作歸根結底是對RDD的操作 4.部署Sp

原创 Zeppelin-在Flink和Spark集羣的安裝 轉

該教程主要面向Zeppelin的入門者。不需要太多的關於 Linux, git, 或其它工具的基礎知識。如果你按照這裏的方法逐項執行,就可以將 Zeppelin 正常運行起來。 安裝Zeppelin爲Flink/Spark集羣模式 本教程假

原创 CDH5.13離線並行安裝Spark2.3 轉

簡介: 在我的CDH5.13集羣中,默認安裝的spark是1.6版本,這裏需要將其升級爲spark2.x版本。經查閱官方文檔,發現spark1.6和2.x是可以並行安裝的,也就是說可以不用刪除默認的1.6版本,可以直接安裝2.x版本,它們

原创 scala中hdfs文件的操作 轉

對於org.apache.hadoop.fs.Path來說,      path.getName只是文件名,不包括路徑      path.getParent也只是父文件的文件名,同樣不包括路徑      path.toString纔是文件