已經過時
PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" ./bin/pyspark
即可
參考:http://blog.jobbole.com/86232/
測試sparkpython
在sparkhome下run-tests測試
在Spark中使用IPython Notebook
當搜索有用的Spark小技巧時,我發現了一些文章提到在PySpark中配置IPython notebook。IPython notebook對數據科學家來說是個交互地呈現科學和理論工作的必備工具,它集成了文本和Python代碼。對很多數據科學家,IPython notebook是他們的Python入門,並且使用非常廣泛,所以我想值得在本文中提及。
這裏的大部分說明都來改編自IPython notebook: 在PySpark中設置IPython。但是,我們將聚焦在本機以單機模式將IPtyon shell連接到PySpark,而不是在EC2集羣。如果你想在一個集羣上使用PySpark/IPython,查看並評論下文的說明吧!
1.爲Spark創建一個iPython notebook配置
~$ ipython profile create spark
[ProfileCreate] Generating default config file: u'$HOME/.ipython/profile_spark/ipython_config.py'
[ProfileCreate] Generating default config file: u'$HOME/.ipython/profile_spark/ipython_notebook_config.py'
[ProfileCreate] Generating default config file: u'$HOME/.ipython/profile_spark/ipython_nbconvert_config.py'
記住配置文件的位置,替換下文各步驟相應的路徑:
創建文件$HOME/.ipython/profile_spark/startup/00-pyspark-setup.py,並添加如下代碼:
import os
import sys
# Configure the environment
if 'SPARK_HOME' not in os.environ:
os.environ['SPARK_HOME'] = '/srv/spark'
# Create a variable for our root path
SPARK_HOME = os.environ['SPARK_HOME']
# Add the PySpark/py4j to the Python Path
sys.path.insert(0, os.path.join(SPARK_HOME, "python", "build"))
sys.path.insert(0, os.path.join(SPARK_HOME, "python"))
3.使用我們剛剛創建的配置來啓動IPython notebook。
~$ ipython notebook --profile spark
4.在notebook中,你應該能看到我們剛剛創建的變量。
print SPARK_HOME
5.在IPython notebook最上面,確保你添加了Spark context。
from pyspark import SparkContext
sc = SparkContext( 'local', 'pyspark')
報錯!!
安裝:(要安裝easyinstallhttp://blog.csdn.net/sadfasdgaaaasdfa/article/details/47070583)
[root@localhost ~]# easy_install py4j
還需要設置環境變量
參考自:http://stackoverflow.com/questions/27610367/pyspark-importerror-cannot-import-name-accumulators
PYTHONPATH=/usr/spark/python/lib/py4j-0.8.2.1-src.zip