Spark 安裝與卸載 (windows 10)

文章目錄

刪除系統/用戶變量步驟：

Apache Spark是一個快速通用的集羣計算系統。它提供了Java、Scala、Python和R語言的高級API，擁有優化了的通用圖計算引擎。它還擁有豐富的其他高級工具，如：用於SQL和結構化數據處理的Spark SQL 、用於機器學習的MLlib、用於圖計算的GraphX、以及用於流式批處理的Spark Streaming。
本文將介紹在 Windows 10 操作系統上安裝Apache Spark的過程。

先決條件

本指南假定您使用的是Windows 10，並且用戶具有管理權限。

系統要求

Windows 10操作系統
至少4GB 內存
至少20GB 的磁盤空間

安裝步驟

步驟1：下載

轉到Apache Spark官方下載頁面，選擇最新版本。對於包類型，選擇“Pre-build for Apache Hadoop”(預編譯版本)。頁面如下所示：

步驟2：解壓縮

下載完成後，使用WinZip、WinRAR或7-ZIP解壓縮文件。

在用戶目錄下創建一個名爲Spark的文件夾（如：C:\Users\Spark，強烈建議：文件目錄不要包含中文、空格等 ），如下所示。然後從解壓縮的文件中，把所有內容複製粘貼過去。
複製粘貼到Spark目錄後如下所示。

##步驟4：修改日誌配置（可選）

轉到conf文件夾並打開名爲log4j.properties.template的文件。將“INFO”更改爲“WARN”（“ERROR ”會使日誌更少）。此步驟和下面的步驟是可選的。
刪除所有文件的“.template”後綴，這樣Spark才能加載這些文件。
在刪除“.template”之前，所有文件如下所示。

刪除“.template”之後，所有文件如下所示。

步驟5：配置環境變量

轉到“控制面板”->“系統和安全”->“系統”->“高級設置”->“環境變量”。
在新用戶變量（或系統變量）下面添加（要添加新用戶變量，請單擊“用戶變量”下的“新建”按鈕）:

單擊“確定”。
將%SPARK_HOME%\bin添加到PATH變量。

單擊“確定”。

步驟6：Hadoop在Windows下的工具包下載

Spark運行需要依賴Hadoop。對於Hadoop 2.7，需要安裝winutils.exe。
您可以在下面的頁面找到winutils.exe，請下載下來。

步驟7：將工具包放在正確位置

在C盤中創建一個名爲winutils的文件夾，並在其中創建一個名爲bin的文件夾。然後，將下載的winutils.exe移動到bin文件夾。（C:\winutils\bin）

添加用戶（或系統）變量%HADOOP_HOME%，就像SPARK_HOME一樣。

單擊“確定”。

步驟8：安裝java

要安裝Apache Spark，您的計算機上需要安裝Java。如果您的系統中沒有安裝java。請按照以下流程安裝

Java安裝步驟：（已安裝可跳過）

轉到Java官網
接受許可協議(Accept Licence Agreement for Java SE Development Kit 8u201)
下載jdk-8u201-windows-x64.exe文件
雙擊下載的.exe文件，您將看到如下窗口。
單擊“下一步”。
然後將顯示下面的窗口。
單擊“下一步”。
等待運行結束，將顯示下面的窗口。
單擊“關閉”。

測試Java安裝：（已安裝可跳過）

打開命令行並鍵入java-version，然後應該顯示已安裝的java版本

您還應該檢查一下用戶變量（或系統變量）中包含的JAVA_HOME和PATH變量中的%JAVA_HOME%\bin。

執行完上述步驟後，環境變量有3個新路徑（JAVA_HOME，SPARK_HOME和HADOOP_HOME）。
創建c:\tmp\hive目錄。這一步對於最新版本的Spark是不必要的。當你第一次啓動Spark時，它會自己創建文件夾。但是，最好自己創建一個文件夾。（C:\tmp\hive）

測試安裝結果：

打開命令行（cmd），輸入 spark-shell，應該得到如下結果。

至此我們已經在Windows系統上完成了spark的安裝。讓我們創建RDD和Dataframe來做一次完整的最終測試。

共有三種方法創建RDD，我們將使用其中一種。
定義任意類型的List，然後將其並行化(parallelize)。代碼如下：

val list = Array(1,2,3,4,5)
val rdd = sc.parallelize(list)

這樣就創建了RDD。
2. 接下來將從RDD創建一個Dataframe。步驟如下：

import spark.implicits._
val df = rdd.toDF("id")

上面的代碼將創建一個以id爲列的Dataframe。
要顯示Dataframe中的數據，可以使用下面的命令：

Df.show()

運行後將顯示：

從Windows 10系統中卸載Spark：

可以按照以下步驟在Windows 10上卸載 Spark。

從系統中刪除以下系統/用戶變量。

SPARK_HOME

HADOOP_HOME

刪除系統/用戶變量步驟：

進入“控制面板”->“系統和安全”->“系統”->“高級設置”->“環境變量”，找到SPARK_HOME和HADOOP_HOME，然後選擇它們，然後按“刪除”按鈕。
查找PATH變量編輯->選擇%SPARK_HOME%\bin->按刪除按鈕
選擇%HADOOP_HOME%\bin->按刪除按鈕->確定按鈕
打開命令提示符輸入spark-shell，然後回車（enter），然後會得到一個錯誤。現在我們可以確認Spark已成功從系統中卸載。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Spark 安裝與卸載 (windows 10)

文章目錄

先決條件

系統要求

安裝步驟

步驟1：下載

步驟2：解壓縮

步驟3：創建目錄

步驟5：配置環境變量

步驟6：Hadoop在Windows下的工具包下載

步驟7：將工具包放在正確位置

步驟8：安裝java

Java安裝步驟：（已安裝可跳過）

測試Java安裝：（已安裝可跳過）

測試安裝結果：

從Windows 10系統中卸載Spark：

刪除系統/用戶變量步驟：

Piranha介紹：過期代碼自動刪除的開源工具

如何理解神經網絡裏的反向傳播

Retrieve top n in each group of a DataFrame in pyspark/ scala

Spark 安裝與卸載 (windows 10)

快速入門（spark 2.4.5）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

Spark 安裝與卸載 (windows 10)

文章目錄

先決條件

系統要求

安裝步驟

步驟1：下載

步驟2：解壓縮

步驟3：創建目錄

步驟5： 配置環境變量

步驟6：Hadoop在Windows下的工具包下載

步驟7：將工具包放在正確位置

步驟8：安裝java

Java安裝步驟：（已安裝可跳過）

測試Java安裝：（已安裝可跳過）

測試安裝結果：

從Windows 10系統中卸載Spark：

刪除系統/用戶變量步驟：

步驟5：配置環境變量