文章目錄
Apache Spark是一個快速通用的集羣計算系統。它提供了Java、Scala、Python和R語言的高級API,擁有優化了的通用圖計算引擎。它還擁有豐富的其他高級工具,如:用於SQL和結構化數據處理的Spark SQL 、用於機器學習的MLlib、用於圖計算的GraphX、以及用於流式批處理的Spark Streaming。
本文將介紹在 Windows 10 操作系統上安裝Apache Spark的過程。
先決條件
本指南假定您使用的是Windows 10,並且用戶具有管理權限。
系統要求
- Windows 10操作系統
- 至少4GB 內存
- 至少20GB 的磁盤空間
安裝步驟
轉到Apache Spark官方下載 頁面,選擇最新版本。對於包類型,選擇“Pre-build for Apache Hadoop”(預編譯版本)。頁面如下所示:
下載完成後,使用WinZip、WinRAR或7-ZIP解壓縮文件。
在用戶目錄下創建一個名爲Spark的文件夾(如:C:\Users\Spark,強烈建議:文件目錄不要包含中文、空格等 ),如下所示。然後從解壓縮的文件中,把所有內容複製粘貼過去。
複製粘貼到Spark目錄後如下所示。
- ##步驟4:修改日誌配置(可選)
轉到conf文件夾並打開名爲log4j.properties.template的文件。將“INFO”更改爲“WARN”(“ERROR ”會使日誌更少)。此步驟和下面的步驟是可選的。
刪除所有文件的“.template”後綴,這樣Spark才能加載這些文件。
在刪除“.template”之前,所有文件如下所示。
刪除“.template”之後,所有文件如下所示。
轉到“控制面板”->“系統和安全”->“系統”->“高級設置”->“環境變量”。
在新用戶變量(或系統變量)下面添加(要添加新用戶變量,請單擊“用戶變量”下的“新建”按鈕):
單擊“確定”。
將%SPARK_HOME%\bin添加到PATH變量。
單擊“確定”。
Spark運行需要依賴Hadoop。對於Hadoop 2.7,需要安裝winutils.exe。
您可以在下面的頁面 找到winutils.exe,請下載下來。
在C盤中創建一個名爲winutils的文件夾,並在其中創建一個名爲bin的文件夾。然後,將下載的winutils.exe移動到bin文件夾。 (C:\winutils\bin)
添加用戶(或系統)變量%HADOOP_HOME%,就像SPARK_HOME一樣。
單擊“確定”。
要安裝Apache Spark,您的計算機上需要安裝Java。如果您的系統中沒有安裝java。請按照以下流程安裝
Java安裝步驟:(已安裝可跳過)
- 轉到Java官網
- 接受許可協議(Accept Licence Agreement for Java SE Development Kit 8u201)
- 下載jdk-8u201-windows-x64.exe文件
- 雙擊下載的.exe文件,您將看到如下窗口。
- 單擊“下一步”。
- 然後將顯示下面的窗口。
- 單擊“下一步”。
- 等待運行結束,將顯示下面的窗口。
- 單擊“關閉”。
測試Java安裝:(已安裝可跳過)
打開命令行並鍵入java-version,然後應該顯示已安裝的java版本
您還應該檢查一下用戶變量(或系統變量)中包含的JAVA_HOME和PATH變量中的%JAVA_HOME%\bin。
- 執行完上述步驟後,環境變量有3個新路徑(JAVA_HOME,SPARK_HOME和HADOOP_HOME)。
- 創建c:\tmp\hive目錄。這一步對於最新版本的Spark是不必要的。當你第一次啓動Spark時,它會自己創建文件夾。但是,最好自己創建一個文件夾。(C:\tmp\hive)
測試安裝結果:
打開命令行(cmd),輸入 spark-shell,應該得到如下結果。
至此我們已經在Windows系統上完成了spark的安裝。讓我們創建RDD和Dataframe來做一次完整的最終測試。
- 共有三種方法創建RDD,我們將使用其中一種。
定義任意類型的List,然後將其並行化(parallelize)。代碼如下:
val list = Array(1,2,3,4,5)
val rdd = sc.parallelize(list)
這樣就創建了RDD。
2. 接下來將從RDD創建一個Dataframe。步驟如下:
import spark.implicits._
val df = rdd.toDF("id")
上面的代碼將創建一個以id爲列的Dataframe。
要顯示Dataframe中的數據,可以使用下面的命令:
Df.show()
運行後將顯示:
從Windows 10系統中卸載Spark:
可以按照以下步驟在Windows 10上卸載 Spark。
- 從系統中刪除以下系統/用戶變量。
- SPARK_HOME
- HADOOP_HOME
刪除系統/用戶變量步驟:
- 進入“控制面板”->“系統和安全”->“系統”->“高級設置”->“環境變量”,找到SPARK_HOME和HADOOP_HOME,然後選擇它們,然後按“刪除”按鈕。
- 查找PATH變量編輯->選擇%SPARK_HOME%\bin->按刪除按鈕
- 選擇%HADOOP_HOME%\bin->按刪除按鈕->確定按鈕
- 打開命令提示符輸入spark-shell,然後回車(enter),然後會得到一個錯誤。現在我們可以確認Spark已成功從系統中卸載。