以zeppelin爲例,它是一個基於網頁的notebook,可以進行數據分析與可視化,zeppelin裏有個概念是解釋器,解釋器使得很多後端語言能夠像插件一樣在zeppelin中使用,例如 Spark,、Python、sql、shell等等。具體介紹看zeppelin官網。
添加zeppelin服務時不必關掉其他服務。
我要用到python,而支持python的話需要自己編譯zeppelin。
將編譯好的zeppelin打包命名爲zeppelin.tar.gz,拷貝到/tmp 文件夾下。
1. 下載服務嚮導包並解壓
代碼如下,其中,$VERSION 是HDP對應的版本號。
wget https://github.com/hortonworks-gallery/ambari-zeppelin-service/archive/master.zip -O /tmp/ZEPPELIN.zip
unzip /tmp/ZEPPELIN.zip -d /var/lib/ambari-server/resources/stacks/HDP/$VERSION/services
登入ambari 管理頁面後,左側一欄 點擊 Actions ,結果如圖:
勾選上zeppelin notebook:
選擇安在某臺機器上都可以,我選的master :
下一步,開始設置各項參數。
其中需要注意的有:
設置
zeppelin.install_python_packages=true
,表示要下載python包,
zeppelin.setup.prebuilt=true
, 表示我們用自己編譯的zeppelin,就是我們提前放到/tmp下的zeppelin.tar.gz。
zeppelin.setup.view=true
,表示有zeppelin view的快捷打開頁面。
下面 zeppelin.executor.mem在這兒以下,根據你自己的內存及任務需要內存設置即可。一般512m夠用。
在zeppelin-env template裏,需要注意的有:
export MASTER=yarn-client
代表zeppelin的任務要提交到yarn上執行。除了在yarn上執行,還可以本地執行,值爲local。
SPARK_HOME HADOOP_CONF_DIR
和PYTHONPATH
要確保這些沒有被註釋。
在custom zeppelin-config裏,添加一個屬性:
zeppelin.host.publicname
,值爲安裝zeppelin服務的機器的域名,對本集羣而言,是master.org.cn,如圖:
確認好配置信息後,下一步,
好了,開始安裝啦~
等它完事兒就好~~