Spark 安裝與卸載 (windows 10)


Apache Spark是一個快速通用的集羣計算系統。它提供了Java、Scala、Python和R語言的高級API,擁有優化了的通用圖計算引擎。它還擁有豐富的其他高級工具,如:用於SQL和結構化數據處理的Spark SQL 、用於機器學習的MLlib、用於圖計算的GraphX、以及用於流式批處理的Spark Streaming。
本文將介紹在 Windows 10 操作系統上安裝Apache Spark的過程。
在這裏插入圖片描述

先決條件

本指南假定您使用的是Windows 10,並且用戶具有管理權限。

系統要求

  • Windows 10操作系統
  • 至少4GB 內存
  • 至少20GB 的磁盤空間

安裝步驟

  • 步驟1:下載

轉到Apache Spark官方下載 頁面,選擇最新版本。對於包類型,選擇“Pre-build for Apache Hadoop”(預編譯版本)。頁面如下所示:
在這裏插入圖片描述

  • 步驟2:解壓縮

下載完成後,使用WinZip、WinRAR或7-ZIP解壓縮文件。

  • 步驟3:創建目錄

在用戶目錄下創建一個名爲Spark的文件夾(如:C:\Users\Spark強烈建議:文件目錄不要包含中文、空格等 ),如下所示。然後從解壓縮的文件中,把所有內容複製粘貼過去。
複製粘貼到Spark目錄後如下所示。
在這裏插入圖片描述

  • ##步驟4:修改日誌配置(可選)

轉到conf文件夾並打開名爲log4j.properties.template的文件。將“INFO”更改爲“WARN”(“ERROR ”會使日誌更少)。此步驟和下面的步驟是可選的。
刪除所有文件的“.template”後綴,這樣Spark才能加載這些文件。
在刪除“.template”之前,所有文件如下所示。
在這裏插入圖片描述
刪除“.template”之後,所有文件如下所示。
在這裏插入圖片描述

  • 步驟5: 配置環境變量

轉到“控制面板”->“系統和安全”->“系統”->“高級設置”->“環境變量”。
在新用戶變量(或系統變量)下面添加(要添加新用戶變量,請單擊“用戶變量”下的“新建”按鈕):
在這裏插入圖片描述
單擊“確定”。
將%SPARK_HOME%\bin添加到PATH變量。
在這裏插入圖片描述
單擊“確定”。

  • 步驟6:Hadoop在Windows下的工具包下載

Spark運行需要依賴Hadoop。對於Hadoop 2.7,需要安裝winutils.exe。
您可以在下面的頁面 找到winutils.exe,請下載下來。

  • 步驟7:將工具包放在正確位置

在C盤中創建一個名爲winutils的文件夾,並在其中創建一個名爲bin的文件夾。然後,將下載的winutils.exe移動到bin文件夾。 (C:\winutils\bin)
在這裏插入圖片描述
添加用戶(或系統)變量%HADOOP_HOME%,就像SPARK_HOME一樣。
在這裏插入圖片描述
在這裏插入圖片描述
單擊“確定”。

  • 步驟8:安裝java

要安裝Apache Spark,您的計算機上需要安裝Java。如果您的系統中沒有安裝java。請按照以下流程安裝

Java安裝步驟:(已安裝可跳過)

  • 轉到Java官網
  • 接受許可協議(Accept Licence Agreement for Java SE Development Kit 8u201)
  • 下載jdk-8u201-windows-x64.exe文件
  • 雙擊下載的.exe文件,您將看到如下窗口。
    在這裏插入圖片描述
  • 單擊“下一步”。
  • 然後將顯示下面的窗口。
    在這裏插入圖片描述
  • 單擊“下一步”。
  • 等待運行結束,將顯示下面的窗口。
    在這裏插入圖片描述
  • 單擊“關閉”。

測試Java安裝:(已安裝可跳過)

打開命令行並鍵入java-version,然後應該顯示已安裝的java版本
在這裏插入圖片描述
您還應該檢查一下用戶變量(或系統變量)中包含的JAVA_HOME和PATH變量中的%JAVA_HOME%\bin。


  1. 執行完上述步驟後,環境變量有3個新路徑(JAVA_HOME,SPARK_HOME和HADOOP_HOME)。
    在這裏插入圖片描述
    在這裏插入圖片描述
  2. 創建c:\tmp\hive目錄。這一步對於最新版本的Spark是不必要的。當你第一次啓動Spark時,它會自己創建文件夾。但是,最好自己創建一個文件夾。(C:\tmp\hive)

測試安裝結果:

打開命令行(cmd),輸入 spark-shell,應該得到如下結果。
在這裏插入圖片描述
至此我們已經在Windows系統上完成了spark的安裝。讓我們創建RDD和Dataframe來做一次完整的最終測試。

  1. 共有三種方法創建RDD,我們將使用其中一種。
    定義任意類型的List,然後將其並行化(parallelize)。代碼如下:
val list = Array(1,2,3,4,5)
val rdd = sc.parallelize(list)

這樣就創建了RDD。
2. 接下來將從RDD創建一個Dataframe。步驟如下:

import spark.implicits._
val df = rdd.toDF("id")

上面的代碼將創建一個以id爲列的Dataframe。
要顯示Dataframe中的數據,可以使用下面的命令:

Df.show()

運行後將顯示:
在這裏插入圖片描述

從Windows 10系統中卸載Spark:

可以按照以下步驟在Windows 10上卸載 Spark。

  • 從系統中刪除以下系統/用戶變量。
  • SPARK_HOME
  • HADOOP_HOME

刪除系統/用戶變量步驟:

  • 進入“控制面板”->“系統和安全”->“系統”->“高級設置”->“環境變量”,找到SPARK_HOME和HADOOP_HOME,然後選擇它們,然後按“刪除”按鈕。
  • 查找PATH變量編輯->選擇%SPARK_HOME%\bin->按刪除按鈕
  • 選擇%HADOOP_HOME%\bin->按刪除按鈕->確定按鈕
  • 打開命令提示符輸入spark-shell,然後回車(enter),然後會得到一個錯誤。現在我們可以確認Spark已成功從系統中卸載。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章