快速搭建Spark環境之local本地模式-Spark初體驗（2）

原創

2020-04-18 23:11

Spark環境搭建

上一篇《大數據最火的Spark你確定不來了解一下嗎？（1）》給大家詳細介紹了Spark，下面教給大家怎樣去搭建Spark的環境.

鐵子話不多說，開整 ↓↓↓↓↓↓

local本地模式-Spark初體驗

安裝

（先將spark安裝包上傳）

1、解壓

cd /export/servers
tar  -zxvf spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz


●注意：

如果有權限問題，可以修改爲root，方便學習時操作，實際中使用運維分配的用戶和權限即可
chown -R root /export/servers/spark 
chgrp -R root /export/servers/spark  


●解壓目錄說明:

bin        可執行腳本
conf       配置文件
data       示例程序使用數據
examples   示例程序
jars       依賴 jar 包
python     pythonAPI
R          R 語言 API
sbin       集羣管理命令
yarn       整合yarn需要的東東

2、啓動spark-shell

●開箱即用

直接啓動bin目錄下的spark-shell: 
./spark-shell 


●spark-shell說明

1.直接使用./spark-shell 
表示使用local 模式啓動，在本機啓動一個SparkSubmit進程

2.還可指定參數 --master，如：
spark-shell --master local[N] 表示在本地模擬N個線程來運行當前任務
spark-shell --master local[*] 表示使用當前機器上所有可用的資源

3.不攜帶參數默認就是
spark-shell --master local[*]

4.後續還可以使用--master指定集羣地址，表示把任務提交到集羣上運行，如
./spark-shell --master spark://node01:7077 

5.退出spark-shell
使用 :quit

3、初體驗-讀取本地文件

●準備數據

vim /opt/words.txt

hello me you her 
hello you her
hello her 
hello

val textFile = sc.textFile("file:///opt/words.txt")

val counts = textFile.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)

counts.collect//收集結果

// Array[(String, Int)] = Array((you,2), (hello,4), (me,1), (her,3))

4、初體驗-讀取HDFS文件

●準備數據

上傳文件到hdfs
hadoop fs -put /opt/words.txt /wordcount/input/words.txt
目錄如果不存在可以創建
hadoop fs -mkdir -p /wordcount/input
結束後可以刪除測試文件夾
hadoop fs -rm -r /wordcount

val textFile = sc.textFile("hdfs://node01:8020/wordcount/input/words.txt")

val counts = textFile.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)

counts.saveAsTextFile("hdfs://node01:8020/wordcount/output")

（運行完可以進入output目錄查看）

就這麼簡單鐵子們，下篇更新standalone集羣模式，點個贊再走加個關注啊鐵子們，拜拜┏(＾0＾)┛！！！！！！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

快速搭建Spark環境之local本地模式-Spark初體驗（2）

Spark環境搭建

目錄:

local本地模式-Spark初體驗

安裝

1、解壓

2、啓動spark-shell

3、初體驗-讀取本地文件

4、初體驗-讀取HDFS文件

dotnet C# 創建 X11 應用時設置窗口背景顏色

vue3組件通信與props

sapui5

Alpine Linux apk add DNS lookup error

部分JDK版本的發佈時間

工作中用到的腳本合集

合併代碼時Beyond Compare設置

Navicat安裝與激活教程

go語言 defer延遲機制

華爲交換機配置實驗項目筆記

教你快速搭建Kafka集羣（2）——Kafka集羣安裝部署

ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing （Hbase報錯）

怎樣修改Linux主機名？

修改主機名和IP的映射關係 /etc/hosts

Hbase詳細安裝步驟（Hbase入門第二篇）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結