ipythonnotebook + spark

已經過時
PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" ./bin/pyspark
即可

參考:http://blog.jobbole.com/86232/

測試sparkpython

在sparkhome下run-tests測試

在Spark中使用IPython Notebook

當搜索有用的Spark小技巧時,我發現了一些文章提到在PySpark中配置IPython notebook。IPython notebook對數據科學家來說是個交互地呈現科學和理論工作的必備工具,它集成了文本和Python代碼。對很多數據科學家,IPython notebook是他們的Python入門,並且使用非常廣泛,所以我想值得在本文中提及。

這裏的大部分說明都來改編自IPython notebook: 在PySpark中設置IPython。但是,我們將聚焦在本機以單機模式將IPtyon shell連接到PySpark,而不是在EC2集羣。如果你想在一個集羣上使用PySpark/IPython,查看並評論下文的說明吧!

1.爲Spark創建一個iPython notebook配置

~$ ipython profile create spark
[ProfileCreate] Generating default config file: u'$HOME/.ipython/profile_spark/ipython_config.py'
[ProfileCreate] Generating default config file: u'$HOME/.ipython/profile_spark/ipython_notebook_config.py'
[ProfileCreate] Generating default config file: u'$HOME/.ipython/profile_spark/ipython_nbconvert_config.py'

記住配置文件的位置,替換下文各步驟相應的路徑:

創建文件$HOME/.ipython/profile_spark/startup/00-pyspark-setup.py,並添加如下代碼:

import os
import sys

# Configure the environment
if 'SPARK_HOME' not in os.environ:
    os.environ['SPARK_HOME'] = '/srv/spark'

# Create a variable for our root path
SPARK_HOME = os.environ['SPARK_HOME']

# Add the PySpark/py4j to the Python Path
sys.path.insert(0, os.path.join(SPARK_HOME, "python", "build"))
sys.path.insert(0, os.path.join(SPARK_HOME, "python"))

3.使用我們剛剛創建的配置來啓動IPython notebook。

~$ ipython notebook --profile spark

這裏寫圖片描述

4.在notebook中,你應該能看到我們剛剛創建的變量。

print SPARK_HOME

5.在IPython notebook最上面,確保你添加了Spark context。

from pyspark import  SparkContext
sc = SparkContext( 'local', 'pyspark')

報錯!!

這裏寫圖片描述

安裝:(要安裝easyinstallhttp://blog.csdn.net/sadfasdgaaaasdfa/article/details/47070583)

[root@localhost ~]# easy_install py4j

還需要設置環境變量
參考自:http://stackoverflow.com/questions/27610367/pyspark-importerror-cannot-import-name-accumulators

PYTHONPATH=/usr/spark/python/lib/py4j-0.8.2.1-src.zip

這裏寫圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章