在Ubuntu 14.04 64bit上搭建單機本地節點Spark 1.3.0環境

1.準備工作:
(1)安裝JVM
(2)安裝Scala
(3)安裝Python或者IPython


2.官網下載Spark最新版並解壓
登陸官網
http://spark.apache.org/downloads.html
選擇包類型爲"Pre-built for Hadoop 2.4 and later"並下載對應的tarball文件spark-1.3.0-bin-hadoop2.4.tgz







解壓下載的文件spark-1.3.0-bin-hadoop2.4.tgz 到指定目錄
  1. cp -f spark-1.3.0-bin-hadoop2.4.tgz  ~/program
複製代碼
  1. tar -xf spark-1.3.0-bin-hadoop2.4.tgz -C ~/program
複製代碼
  1. cd spark-1.3.0-bin-hadoop2.4
複製代碼
  1. ls
複製代碼




由上易見, Spark版本是1.3.0, Hadoop版本是2.4

3.利用Spark自帶的Python shell
使用PySpark shell, 在Spark解壓的源碼路徑下,運行
bin/pyspark
在提示符下,依次輸入下面的命令
>>> lines = sc.textFile("README.md")
>>> lines.count()
>>> lines.first()





按Ctrl-D退出shell環境

4.修改打印日誌的級別
經過上面的運行,發現shell環境中打印的日誌過多, 爲此我需要調整以下日誌的級別.爲此,我在
conf目錄下面新建一個文件log4j.properties,它是log4j.properties.template的副本,將其中
下面的行
log4j.rootCategory=INFO, console
改爲
log4j.rootCategory=WARN, console



然後重新打開shell,發現調試信息少了很多

5.使用IPython或者IPython Notebook
在命令行, 我們可以使用下面的命令來開啓IPython
IPYTHON=1 ./bin/pyspark



使用下面的命令來開啓IPython Notebook
IPYTHON_OPTS="notebook" ./bin/pyspark



這會在默認瀏覽器中打開如下頁面



點擊上面的"New Notebook"打開一個新的頁面標籤, 在其中輸入如下命令行,並按播放按鈕來執行結果



按Ctrl-D退出shell環境

6.使用Scala shell測試line count小程序
打開Scala版本的shell,運行
bin/spark-shell
scala> val lines = sc.textFile("README.md")
scala> lines.cout()
scala> lines.first()



按Ctrl-D退出shell環境


7.測試Spark性能
進入到Spark的conf目錄下面, 根據當前配置環境, 複製並修改spark_env.sh文件
cp -f spark-env.sh.template spark-env.sh
vim spark-env.sh
添加如下內容



export SCALA_HOME=/usr/local/spark/scala  (這個爲scala的安裝後的根目錄 )
export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_79(jdk的根目錄)
export SPARK_MASTER_IP=127.0.0.1
export SPARK_WORKER_MEMORY=1G


啓動主服務器節點
sbin/start-master.sh
啓動從服務器節點

sbin/start-slaves.sh spark://127.0.0.1:7077 

若啓動過程中報錯connect to host localhost port 22: Connection refused

造成這個錯誤的原因可能是ssh-server未安裝或者未啓動。ubuntu 11.10 默認安裝openssh-client,但是木有安裝server
運行 ps -e | grep ssh,查看是否有sshd進程
如果沒有,說明server沒啓動,通過 /etc/init.d/ssh -start 啓動server進程,如果提示ssh不存在 那麼就是沒安裝server
通過 sudo apt-get install openssh-server命令安裝即可

關閉分別使用
sbin/stop-master.sh
sbin/stop-slaves.sh



瀏覽master UI
http://127.0.0.1:8080/



http://127.0.0.1:8081/



運行樣例
run-example org.apache.spark.examples.SparkPi local
run-example org.apache.spark.examples.SparkPi spark://127.0.0.1:7077
run-example org.apache.spark.examples.SparkLR spark://127.0.0.1:7077
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章