Spark環境搭建
上一篇《大數據最火的Spark你確定不來了解一下嗎?(1)》給大家詳細介紹了Spark,下面教給大家怎樣去搭建Spark的環境.
鐵子話不多說,開整 ↓↓↓↓↓↓
local本地模式(單機)–開發測試使用
■我們選擇目前企業中使用最多的穩定版Spark2.2.0
■使用Apache版還是CDH版?
1.Apache版直接下載官方編譯好的基於Apache Hadoop的Spark即可
2.自己下載Spark源碼基於CDH Hadoop重新編譯
因爲CDH5.14版 Spark基於Spark1.6版本較低,且爲了推廣自家的Impala對Spark SQL進行了閹割,所以要重新編譯
★注意1:
大家之前安裝的如果是CDH的Hadoop那麼安裝Spark的時候使用紅線標出的重新編譯之後的CDH版Spark即可
這裏給大家提供的是編譯好的安裝包,鐵子們直接拿去用。
(鏈接失效請私信博主)
鏈接:https://pan.baidu.com/s/1WjG5fFxKp3W14PyAdIxqvw
提取碼:xzm5
local本地模式-Spark初體驗
安裝
(先將spark安裝包上傳)
1、解壓
cd /export/servers
tar -zxvf spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz
●注意:
如果有權限問題,可以修改爲root,方便學習時操作,實際中使用運維分配的用戶和權限即可
chown -R root /export/servers/spark
chgrp -R root /export/servers/spark
●解壓目錄說明:
bin 可執行腳本
conf 配置文件
data 示例程序使用數據
examples 示例程序
jars 依賴 jar 包
python pythonAPI
R R 語言 API
sbin 集羣管理命令
yarn 整合yarn需要的東東
2、啓動spark-shell
●開箱即用
直接啓動bin目錄下的spark-shell:
./spark-shell
●spark-shell說明
1.直接使用./spark-shell
表示使用local 模式啓動,在本機啓動一個SparkSubmit進程
2.還可指定參數 --master,如:
spark-shell --master local[N] 表示在本地模擬N個線程來運行當前任務
spark-shell --master local[*] 表示使用當前機器上所有可用的資源
3.不攜帶參數默認就是
spark-shell --master local[*]
4.後續還可以使用--master指定集羣地址,表示把任務提交到集羣上運行,如
./spark-shell --master spark://node01:7077
5.退出spark-shell
使用 :quit
3、初體驗-讀取本地文件
●準備數據
vim /opt/words.txt
hello me you her
hello you her
hello her
hello
val textFile = sc.textFile("file:///opt/words.txt")
val counts = textFile.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)
counts.collect//收集結果
// Array[(String, Int)] = Array((you,2), (hello,4), (me,1), (her,3))
4、初體驗-讀取HDFS文件
●準備數據
上傳文件到hdfs
hadoop fs -put /opt/words.txt /wordcount/input/words.txt
目錄如果不存在可以創建
hadoop fs -mkdir -p /wordcount/input
結束後可以刪除測試文件夾
hadoop fs -rm -r /wordcount
val textFile = sc.textFile("hdfs://node01:8020/wordcount/input/words.txt")
val counts = textFile.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)
counts.saveAsTextFile("hdfs://node01:8020/wordcount/output")
(運行完可以進入output目錄查看)
就這麼簡單鐵子們,下篇更新standalone集羣模式,點個贊再走加個關注啊鐵子們,拜拜┏(^0^)┛!!!!!!