快速搭建Spark環境之local本地模式-Spark初體驗(2)

Spark環境搭建

上一篇《大數據最火的Spark你確定不來了解一下嗎?(1)》給大家詳細介紹了Spark,下面教給大家怎樣去搭建Spark的環境.

在這裏插入圖片描述

鐵子話不多說,開整 ↓↓↓↓↓↓

local本地模式(單機)–開發測試使用

■我們選擇目前企業中使用最多的穩定版Spark2.2.0
在這裏插入圖片描述
■使用Apache版還是CDH版?

1.Apache版直接下載官方編譯好的基於Apache Hadoop的Spark即可
2.自己下載Spark源碼基於CDH Hadoop重新編譯

因爲CDH5.14版 Spark基於Spark1.6版本較低,且爲了推廣自家的Impala對Spark SQL進行了閹割,所以要重新編譯

在這裏插入圖片描述

★注意1:
大家之前安裝的如果是CDH的Hadoop那麼安裝Spark的時候使用紅線標出的重新編譯之後的CDH版Spark即可

在這裏插入圖片描述

這裏給大家提供的是編譯好的安裝包,鐵子們直接拿去用。
(鏈接失效請私信博主)

鏈接:https://pan.baidu.com/s/1WjG5fFxKp3W14PyAdIxqvw 
提取碼:xzm5

local本地模式-Spark初體驗

安裝

(先將spark安裝包上傳)
1、解壓
cd /export/servers
tar  -zxvf spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz


●注意:

如果有權限問題,可以修改爲root,方便學習時操作,實際中使用運維分配的用戶和權限即可
chown -R root /export/servers/spark 
chgrp -R root /export/servers/spark  


●解壓目錄說明:

bin        可執行腳本
conf       配置文件
data       示例程序使用數據
examples   示例程序
jars       依賴 jar 包
python     pythonAPI
R          R 語言 API
sbin       集羣管理命令
yarn       整合yarn需要的東東
2、啓動spark-shell
●開箱即用

直接啓動bin目錄下的spark-shell: 
./spark-shell 


●spark-shell說明

1.直接使用./spark-shell 
表示使用local 模式啓動,在本機啓動一個SparkSubmit進程

2.還可指定參數 --master,如:
spark-shell --master local[N] 表示在本地模擬N個線程來運行當前任務
spark-shell --master local[*] 表示使用當前機器上所有可用的資源

3.不攜帶參數默認就是
spark-shell --master local[*]

4.後續還可以使用--master指定集羣地址,表示把任務提交到集羣上運行,如
./spark-shell --master spark://node01:7077 

5.退出spark-shell
使用 :quit
3、初體驗-讀取本地文件

●準備數據

vim /opt/words.txt

hello me you her 
hello you her
hello her 
hello 
val textFile = sc.textFile("file:///opt/words.txt")

val counts = textFile.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)

counts.collect//收集結果

// Array[(String, Int)] = Array((you,2), (hello,4), (me,1), (her,3))
4、初體驗-讀取HDFS文件

●準備數據

上傳文件到hdfs
hadoop fs -put /opt/words.txt /wordcount/input/words.txt
目錄如果不存在可以創建
hadoop fs -mkdir -p /wordcount/input
結束後可以刪除測試文件夾
hadoop fs -rm -r /wordcount
val textFile = sc.textFile("hdfs://node01:8020/wordcount/input/words.txt")

val counts = textFile.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)

counts.saveAsTextFile("hdfs://node01:8020/wordcount/output")

(運行完可以進入output目錄查看)

就這麼簡單鐵子們,下篇更新standalone集羣模式,點個贊再走加個關注啊鐵子們,拜拜┏(^0^)┛!!!!!!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章