Spark：安裝及環境配置指南！

原創

CDA·数据分析师

2020-05-26 17:09

前篇文章介紹了scala的安裝與配置、接下來介紹一下spark的安裝及環境配置。

1、Apache spark下載

在瀏覽器輸入網址https://spark.apache.org/downloads.html進入spark的下載頁面，如下圖所示：

下載時需要注意的是在第1步選擇完spark版本之後的第2步“choose a package type ”時，spark與hadoop版本必須配合使用。因爲spark會讀取hdfs文件內容而且spark程序還會運行在HadoopYARN上。所以必須按照我們目前安裝的hadoop版本來選擇package type。我們目前使用的hadoop版本爲hadoop2.7.5,所以選擇Pre-built for Apache Hadoop 2.7 and later。

點擊第3步Download Spark後的連接 spark-2.1.2-bin-hadoop2.7.tgz進入下圖所示的頁面。在國內我們一般選擇清華的服務器下載，這下載速度比較快，連接地址如下：

https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.1.2/spark-2.1.2-bin-hadoop2.7.tgz

2、安裝spark

通過WinSCP將spark-2.1.2-bin-hadoop2.7.tgz上傳到master虛擬機的Downloads目錄下，然後解壓到用戶主目錄下並更改解壓後的文件名（改文件名目的是名字變短，容易操作）。解壓過程需要一點時間，耐心等待哈。

解壓完成後通過ls命令查看當前用戶主目錄，如下圖所示增加了spark-2.1.2-bin-hadoop2.7文件目錄

通過mv命令更改spark-2.1.2-bin-hadoop2.7名爲spark

3、配置spark環境變量

通過命令vim .bashrc編輯環境變量

在文件末尾增加如下內容，然後保存並退出

重新加載環境變量配置文件，使新的配置生效(僅限當前終端，如果退出終端新的環境變量還是不能生效，重啓虛擬機系統後變可永久生效)

通過spark-shell展示spark是否正確安裝，Spark-shell是添加了一些spark功能的scala REPL交互式解釋器，啓動方式如下圖所示。啓動過程中會打印spark相關信息如版本。

退出spark-shell使用命令：quit

4、在其他節點安裝spark

在master節點安裝完成後只需複製spark文件目錄及.bashrc文件到其他節點即可，具體操作命令可按下圖操作

最後重啓slave1、slave2即可使配置文件生效。到這裏spark安裝完成，接下來就是根據spark運行模式來配置spark相關配置文件使集羣正常工作。

5、配置spark相關文件

第一步：spark-env.sh文件

通過環境變量配置確定的Spark設置。環境變量從Spark安裝目錄下的conf/spark-env.sh腳本讀取。

可以在spark-env.sh中設置如下變量：

Spark相關配置

首先開啓三個虛擬機master 、slave1、slave2，接下來在master主機上配置，配置完成之後將spark/conf發送到其他節點即可。

我們先跳轉到spark/conf目錄下看看我們需要配置哪些文件。如下圖所示通過ls命令查看文件列表，我們今天主要用到的有spark-env.sh.template、slaves.template，我們還可以用log4j.properties.template來修改輸出信息。

注意，當Spark安裝時，conf/spark-env.sh默認是不存在的。你可以複製conf/spark-env.sh.template創建它。

通過vim編輯器編輯spark-env.sh，在終端中我們可以只輸入前幾個字母然後按tab鍵來給我們自動補全。

在文件末尾添加如下內容，保存並退出

第二步：log4j.properties

spark在啓動過程中會有大量日誌信息打印出來，如果我們只想看警告或者錯誤，而不是一般信息可以在log4j.properties中設置，同樣的spark爲我們提供了一個模板文件，需要通過模板複製出log4j.properties

設置方法爲將文件第二行INFO改爲WARN

更改完成後文件內容如下圖所示，記得保存並退出。

第三步：slaves文件

slaves文件主要作用是告訴spark集羣哪些節點是工作節點worker，這裏slaves文件也需要由模板文件複製過來，操作如下圖所示

使用vim編輯器編輯slaves

文件中輸入如下內容，表示工作節點爲slave1和slave2,保存並退出。

最後將spark/conf目錄移動到slave1 slave2節點spark目錄下,操作如下圖所示

現在就可以啓動集羣了，先啓動hadoop集羣(也可以不用hadoop，但是在實際應用中大部分spark還是會用到hadoop的資源管理YARN)再啓動spark集羣，操作如下所示。

通過jps查看啓動的進程，在master節點上spark的進程是Master，在slave節點上spark相關進程是Worker。

停止集羣時要先停止spark集羣

再停止hadoop集羣

spark相關的內容就到這裏，關於spark的詳細應用會有單獨系列文章介紹，敬請期待。

小提示：每天虛擬機和集羣不用了儘量正常關閉，而不是暴力關閉Vmware軟件。不然集羣容易崩潰😂。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

樸素貝葉斯（Naive Bayes）和校正曲線（Calibration Curve）

算法回顧圖片來源：https://medium.com/machine-learning-101/chapter-1-supervised-learning-and-naive-bayes-classification-part

CDA·数据分析师

2020-06-16 12:22:43

Pandas數據結構：DataFrame

剛剛接觸pandas的朋友，想了解數據結構，就一定要認識DataFrame，接下來給大家詳細介紹！初識DataFrame import numpy as np import pandas as pd data = {"name

CDA·数据分析师

2020-06-16 12:22:43

調整超參數：決定模型是“金子”還是“垃圾”！

數據清洗以後，你也許會困惑應該從哪裏開始建模。一般情況下它的下一步應該是特徵選擇，但特徵工程和模型訓練是相互影響的。好的特徵選擇可以使模型得到好的效果，而不同的模型又對數據有不同的要求。因此，特徵工程和模型訓練是兩個不可分割的部分。由於

CDA·数据分析师

2020-06-27 11:33:21

五月天線上演唱會：用Python解讀，分析這裏有你的青春嗎？

【導語】：今天我們來聊聊五月天這場刷屏朋友圈的線上演唱會，Python技術部分請看第四部分。 Show me data，用數據說話！在五月的最後一天，五月天實現了他們2020年的“五月之約”。5月31日一場席捲朋友圈的線上演唱會如約上

CDA·数据分析师

2020-06-16 12:22:44

聚類算法：Affinity Propogation算法學習指南！

Affinity Propogation最初是由Brendan Frey 和 Delbert Dueck於2007年在Science上提出的。相比其它的聚類算法，Affinity Propogation算法不需要預先指定聚類個數。

CDA·数据分析师

2020-06-16 12:22:44

機器學習基礎之新奇和異常值檢測

異常值檢測一般要求新發現的數據是否與現有觀測數據具有相同的分佈或者不同的分佈，相同的分佈可以稱之爲內點（inlier），具有不同分佈的點可以稱之爲離羣值。離羣點和新奇點檢測是不同的，有一個重要的區分必須掌握：離羣點檢測:訓練數據包含離羣

CDA·数据分析师

2020-06-16 12:22:43

自我監督學習：提高深度學習數據效率的計劃

儘管深度學習在人工智能領域做出了巨大貢獻，但它還是有一個不太好的地方：它需要大量數據。這是深度學習的先驅者和批評家都同意的一件事。實際上，由於有用數據的有限可用性有限以及處理該數據的計算能力不足，深度學習直到幾年前才成爲領先的A

CDA·数据分析师

2020-06-16 12:22:43

Linux系統：那些常見的硬鏈接和軟鏈接！

在Linux系統中，有些常見的硬連接和軟連接，你知道嗎？今天就帶大家來認識一下！先從Linux系統中的文件系統說起。 1. 在Linux中一切皆爲文件在Linux中有且只有一個根目錄，它就是 / （斜槓），它的子目錄有如下這些： bin

CDA·数据分析师

2020-06-16 12:22:43

Pandas數據結構：Series

Pandas有Series和DataFrame兩種數據結構，我們之前已經講過了DataFrame，接下來給大家介紹下另一種數據結構Series。什麼是Series？ import numpy as np import pandas a

CDA·数据分析师

2020-06-16 12:22:43

Python解讀：地攤經濟火了，你想好擺攤去賣什麼了嗎？

【導語】：今天我們來聊聊地攤經濟，Python技術部分請看第四部分。Show me data，用數據說話！知乎上有一個問題：疫情結束後，你最想做的一件事是什麼？有人這樣回答，最想見的人就是家樓下燒烤店的老闆；最想做的事，就是來一紮啤酒，

CDA·数据分析师

2020-06-16 12:22:43

機器學習數據降維方法：PCA主成分分析

PCA在機器學習中很常用，是一種無參數的數據降維方法。PCA步驟：將原始數據按列組成n行m列矩陣X 將X的每一行（代表一個屬性字段）進行零均值化，即減去這一行的均值求出協方差矩陣求出協方差矩陣的特徵值及對應的特徵向量將特徵向量按對

CDA·数据分析师

2020-06-16 12:22:43

SQL面試經典50題：帶你從聚合和分組開始！

前面我們介紹了MySQL數據庫中的建表導表的步驟以及基礎的SELECT語句，本篇再基於第一篇文章的數據基礎上我們梳理下聚合和分組。對錶進行聚合學習重點使用聚合函數對錶中的列進行計算合計值或者平均值等的彙總操作。通常，聚合函

CDA·数据分析师

2020-06-16 12:22:43

交叉驗證：評估模型表現

註明：本文章所有代碼均來自scikit-learn官方網站在實際情況中，如果一個模型要上線，數據分析員需要反覆調試模型，以防止模型僅在已知數據集的表現較好，在未知數據集上的表現較差。即要確保模型的泛化能力，它指機器學習對新鮮樣本的適應能

CDA·数据分析师

2020-06-16 12:22:43

Linux瀏覽文件命令：cat、less、more詳解！

今天我們來詳細講解下，Linux瀏覽文件的三種命令，它們分別是：cat、less、more！ cat命令: 一次性在終端中顯示文件的所有內容 cat Facebook首席運營官桑德伯格《Lean\ In》.txt cat命令顯示出多少

CDA·数据分析师

2020-06-16 12:22:43

ML基礎：高斯混合模型是什麼？

高斯混合模型是一種概率模型，它假設所有數據點都是從有限數量的高斯分佈的混合參數中生成的。 1.高斯混合模型概念實際上，可以將混合模型視爲對 k-means聚類算法的擴展，它包含了數據的協方差結構以及隱高斯模型中心的信息。該方法使

CDA·数据分析师

2020-06-16 12:22:43

24小時熱門文章

最新文章

最新評論文章