Spark安装-ubuntu 18.04下安装

原創

修改资料-昵称

2019-06-27 08:25

在安装spark之前，首先需要安装配置Hadoop,这个就不做详细介绍了，可以参看另一篇：

https://blog.csdn.net/weixin_42001089/article/details/81865101

本文参考：https://blog.csdn.net/weixin_42001089/article/details/82346367

一、查看Hadoop安装情况

1. 打开终端

2. 查看hadoop版本:hadoop version

3. 启动hdfs文件系统：start-dfs.sh

4. 启动yarn资源调度器：start-yarn.sh

5. 使用jps查看是否启动成功：jps

说明：

ResourceManager和NodeManager是yarn资源调度器启动的

DataNode、 NameNode和SecondaryNameNode是hdfs文件系统启动的

所以如果有哪项没有启动成功，就说明对应（yarn或hdfs）的配置文件没有配置成功，需要去看日志手动解决

二者都有相应的web即：

yarn:

http://localhost:8088/cluster

hdfs:

http://localhost:50070/

二、Scala安装

1. 下载地址：https://www.scala-lang.org/download/2.11.8.html

2. 下载好后解压到：/home/wangsiyao/

sudo tar zxvf '/home/wangsiyao/下载/scala-2.11.8.tgz' -C /home/wangsiyao/

3. 重命名为：scala

4. 配置环境变量

sudo vim /etc/profile

结尾位置添加：

SCALA_HOME=/home/wangsiyao/scala

export SCALA_HOME

$SCALA_HOME/bin

5. 配置文件

source /etc/profile

6. 测试：

scala -version

三、Spark安装：

1. 下载地址：http://spark.apache.org/downloads.html

点击3. Download Spark: ****

点击加粗部分

等待下载

2. 下载好后解压到：/home/wangsiyao/

sudo tar zxvf  '/home/wangsiyao/下载/spark-2.3.3-bin-hadoop2.7.tgz'  -C  /home/wangsiyao/

3. 重命名为：spark

4. 配置环境

sudo vim /etc/profile

添加：

SPARK_HOME=/home/wangsiyao/spark

:$SPARK_HOME/bin

export SPARK_HOME

即：

配置：

source /etc/profile

5. 配置spark-env.sh

进入到spark/conf/：

cd spark/conf/

sudo cp spark-env.sh.template spark-env.sh

sudo vim spark-env.sh

注：具体配置按照个人路径

6. 配置Slave

sudo cp slaves.template  slaves

vim slaves

默认就是localhost

7. 启动

前提是之前的伪分布式已经启动

即：

进入spark/sbin/

cd spark/sbin/

启动start-master.sh以及start-slaves.sh

sudo ./start-master.sh

sudo ./start-slaves.sh

在启动start-slaves.sh出现错误！！

root@localhost's password:localhost:permission denied,please try again。

解决办法：https://www.cnblogs.com/hmy-blog/p/6500909.html

重新尝试本步骤：

Spark的web界面：http://127.0.0.1:8099/

8. 启动bin目录下的spark-shell

注意：这里是bin目录，而不是sbin了！！！

进入scala环境：

可以编写代码了！！！

spark-shell的web界面http://127.0.0.1:4040

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

在spark，MapReduce 或 Flink 程序里面制定环境变量

以jdk來舉例，當我們需要更高版本的jdk時，而默認的環境引用的是低版本的jdk，會引發如下錯誤： Exception in thread "main" java.lang.UnsupportedClassVersionError:

梦里却知是客

2020-07-08 11:59:58

[Spark] 学习笔记 (一)

1. 分區爲了讓多個執行器並行地工作，Spark 將數據分解成多個數據塊，每個數據塊叫做一個分區。分區是位於集羣中的一臺物理機上的多行數據的集合，DataFrame 的分區也說明了在執行過程中，數據在集羣中的物理分佈。如果只

風の唄を聴け

2020-07-08 04:26:33

Spark系列：Spark学习笔记

Spark 閱讀官方文檔 Spark Quick Start Spark Programming Guide Spark SQL, DataFrames and Datasets Guide Cluster Mode Overv

2020-07-08 12:17:40

Spark 线性回归模型异常

java.lang.AssertionError: assertion failed: lapack.dppsv returned 9. at scala.Predef$.assert(Predef.scala:179)

2020-07-08 12:17:29

spark日常报错问题-持续性更新

1：spark運行過程中出現與driver鏈接異常，並存在磁盤讀寫一場: java.io.IOException: Failed to delete: /mnt/sd04/yarn/nm/usercache/hdfs/appcache/a

梦里却知是客

2020-07-08 11:59:58

pySpark DataFrame简介

1. 列名類型 pyspark.sql.types module DataType NullType StringType BinaryType BooleanType DateType TimestampType Decimal

2020-07-08 09:36:34

Spark实现xgboost多分类(python)

1. spark-xgboost Java包主要需要xgboost4j-spark-0.90.jar, xgboost4j-0.90.jar, 以及調用代碼 sparkxgb.zip. GitHub上面有xgboost jav

2020-07-08 09:36:34

实战|使用Spark结构化流写入Hudi

https://zhuanlan.zhihu.com/p/133316667 歡迎關注微信公衆號：ApacheHudi 1. 項目背景傳統數倉的組織架構是針對離線數據的OLAP（聯機事務分析）需求設計的，常用的導入數據方式爲採用sqoo

2020-07-08 05:50:47

Apache Hudi：统一批和近实时分析的存储和服务

https://blog.csdn.net/wypblog/article/details/104890482?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommend

2020-07-08 05:50:47

一次查询

應該是有一小部分數據需要特殊處理嘗試90天，反覆重試3個task: 其實處理很快，就是shuffle read時間很久第一次150天數據量嘗試後期效果：怎麼知道爲什麼會超出內存太多？ combin

2020-07-08 05:39:30

spark-sql使用hive的自定函数配置

1、spark-sql可以直接使用hive的自定義函數，而不需要重新寫一套spark-sql的自定義函數，這裏較大家一個簡單的配置方式即可 2、將hive的自定義函數jar拷貝到/usr/lib/spark-current/jars，我們

2020-07-08 05:08:59

Spark中DataFrame强制类型转换

最近從MongoDB讀取數據然後插入到Clickhouse中，存在數值類型不一致的問題。因此需要進行強制類型轉換： df = df.select(dataset.col("cnt").cast(IntegerType).as("cnt"

2020-07-08 04:49:41

[Spark] Spark/PySpark 的安装及配置

1. 安裝 JAVA 詳細步驟可以參考: [Linux] 安裝 JAVA 2. 安裝 Spark 下載單機版 Spark, 當前最新版本 spark-2.4.4-bin-hadoop2.7.tgz wget http://mi

風の唄を聴け

2020-07-08 04:26:33

MLlib主要概念之ML Pipelines

ML Pipelines 前言：在這一節中，我們介紹一個叫做ML Pipelines管道的概念。ML Pipelines提供了一套建立在 DataFrames 之上的高級APIs來幫助用戶創造和協調機器學習中實際實用的管道技術。

2020-07-08 04:26:05

Spark机器学习MLlib系列１（for python）－－数据类型，向量，分布式矩阵，API

Spark機器學習MLlib系列１（for python）－－數據類型，向量，分佈式矩陣，API 關鍵詞：Local vector，Labeled point，Local matrix，Distributed matrix，Row

2020-07-08 04:26:05

24小時熱門文章

最新文章

最新評論文章