Spark之Spark入門

Scala是一門多範式的編程語言,一種類似java的編程語言,設計初衷是實現可伸縮的語言、並集成面向對象編程和函數式編程的各種特性。由於Spark本身是用Scala語言開發的,所以選擇了用Scala來開發應用。

1.Scala下載

Scala官網: http://www.scala-lang.org/download/all.html
選擇自己需要的版本下載即可,本次採用2.10.5以作學習所用

3.Scala安裝

Spark的開發可以通過Intellij或者Eclipse IDE進行,在環境配置的開始階段,還需要安裝相應的Scala插件。本次我們用Intellij IDEA。
1.首先確定,本機環境安裝配置了JDK
2.將scala解壓到D:scala
SCALA_HOME= D:\scala\scala-2.10.5\scala-2.10.5
說明:“D:\scala\scala-2.10.5\scala-2.10.5”是我本地Scala解壓路徑。
最後在path變量添加:“;SCALA_HOME%\bin”,追加也可以。

4.在intellij IDEA中做設置

1.Scala插件配置
在"開始"----“程序"裏打開我們的IEDA,一路默認進入到如下界面:
在這裏插入圖片描述
選擇"Configure”—>“Plugins”—>"Browse repositories"命令,在彈出的界面中輸入"Scala"搜索插件,如下圖,然後點擊相應的安裝按鈕進行安裝,重啓Intellij使配置生效。
在這裏插入圖片描述

2.配置Spark應用開發環境

1.在Intellij IDEA中創建Scala Project,名稱爲SparkTest
2.選擇菜單中的"File"–>“project structure”–>“Libraries”,然後選擇"+"導入spark-assembly-1.6.0-hadoop2.6.0.jar(在我們之前解壓的Spark的lib路徑下)。
3.如果IDE無法識別Scala庫,需要要以同樣的方式將scala庫的jar包導入,之後就可以進行開發了,

3.運行Spark程序

1.本地運行
編寫完Scala程序後,可以直接在IDEA中以本地(local)模式運行,方法是設置setMaster,此處建議設置一下setAppName,即運行時名字。
2.在集羣中運行Spark應用程序jar包
如果想把程序打成jar包,在Spark集羣中運行,可以按照以下步驟操作。
1)選擇“File”—>“Project Structure”命令,然後選擇“Artifact”,單擊“+”按鈕,選擇“Jar”—>“From Modules with dependencies”,如下圖所示。在這裏插入圖片描述
點擊“OK”按鈕,進入如下界面:
在這裏插入圖片描述
選擇Main Class,在彈出的對話框中選擇輸入Jar位置,並單擊“OK”按鈕。如下圖:
在這裏插入圖片描述
在上圖所示對話框中通過OutPut layout中的“+”選擇依賴的Jar包後,點擊“OK”按鈕即可。
2)在主菜單中選擇“Build”—>“Build Artifact”命令,編譯生成Jar包。
3)在集羣的主節點,通過下面命令執行生成的Jar包
Spark jar xxx.jar 輸入目錄 輸出目錄

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章