ipythonnotebook + spark

已經過時
PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" ./bin/pyspark
即可

測試sparkpython

在sparkhome下run-tests測試

在Spark中使用IPython Notebook

當搜索有用的Spark小技巧時，我發現了一些文章提到在PySpark中配置IPython notebook。IPython notebook對數據科學家來說是個交互地呈現科學和理論工作的必備工具，它集成了文本和Python代碼。對很多數據科學家，IPython notebook是他們的Python入門，並且使用非常廣泛，所以我想值得在本文中提及。

這裏的大部分說明都來改編自IPython notebook: 在PySpark中設置IPython。但是，我們將聚焦在本機以單機模式將IPtyon shell連接到PySpark，而不是在EC2集羣。如果你想在一個集羣上使用PySpark/IPython，查看並評論下文的說明吧！

1.爲Spark創建一個iPython notebook配置

~$ ipython profile create spark
[ProfileCreate] Generating default config file: u'$HOME/.ipython/profile_spark/ipython_config.py'
[ProfileCreate] Generating default config file: u'$HOME/.ipython/profile_spark/ipython_notebook_config.py'
[ProfileCreate] Generating default config file: u'$HOME/.ipython/profile_spark/ipython_nbconvert_config.py'

記住配置文件的位置，替換下文各步驟相應的路徑：

創建文件$HOME/.ipython/profile_spark/startup/00-pyspark-setup.py，並添加如下代碼：

import os
import sys

# Configure the environment
if 'SPARK_HOME' not in os.environ:
    os.environ['SPARK_HOME'] = '/srv/spark'

# Create a variable for our root path
SPARK_HOME = os.environ['SPARK_HOME']

# Add the PySpark/py4j to the Python Path
sys.path.insert(0, os.path.join(SPARK_HOME, "python", "build"))
sys.path.insert(0, os.path.join(SPARK_HOME, "python"))

3.使用我們剛剛創建的配置來啓動IPython notebook。

~$ ipython notebook --profile spark

4.在notebook中，你應該能看到我們剛剛創建的變量。

print SPARK_HOME

5.在IPython notebook最上面，確保你添加了Spark context。

from pyspark import  SparkContext
sc = SparkContext( 'local', 'pyspark')

報錯！！

安裝：（要安裝easyinstallhttp://blog.csdn.net/sadfasdgaaaasdfa/article/details/47070583）

[root@localhost ~]# easy_install py4j

還需要設置環境變量
參考自：http://stackoverflow.com/questions/27610367/pyspark-importerror-cannot-import-name-accumulators

PYTHONPATH=/usr/spark/python/lib/py4j-0.8.2.1-src.zip

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

ipythonnotebook + spark

測試sparkpython

在Spark中使用IPython Notebook

1.爲Spark創建一個iPython notebook配置

創建文件$HOME/.ipython/profile_spark/startup/00-pyspark-setup.py，並添加如下代碼：

3.使用我們剛剛創建的配置來啓動IPython notebook。

4.在notebook中，你應該能看到我們剛剛創建的變量。

5.在IPython notebook最上面，確保你添加了Spark context。

報錯！！

druid數據源 xml配置

vgg16 finetune tensorflow實現

sbt 安裝以及編譯spark程序

訓練CNN你需要知道的tricks/tips

tensorflow 動態分配內存以及設置使用那塊gpu的方法

tensorflow 基礎

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結