spark on yarn的理解

最近在安裝調測CDH5.5,發現官方文檔明確不支持spark-sql(需要自己去編譯)和sparkR。到/opt/cloudera/parcels/CDH/lib/spark/目錄看裏面,沒有R文件夾,bin裏面也沒有spark-ql和sparkR。比較失望。

http://www.cloudera.com/content/www/en-us/documentation/enterprise/latest/topics/cdh_rn_spark_ki.html



不能因爲CDH5.5不支持spark-sql和sparkR就放棄CDH了吧,畢竟圖形化管理,Hue,hdfs和impala很好用。然後就搜能否替換spark。

看到網上有其他人用社區版的spark1.5.2獨立安裝,啓動。於是也打算試試。


在搜資料的過程中,發現spark on yarn,standalone方式。集羣已經啓動yarn,就沒有必要在獨立起standalone了。

於是搜spark on yarn結果,實在令人失望,很多spark on yarn的部署,看到後面都是全部節點部署,有些帖子並且還啓動了master 7077端口之類的,我就知道,這不是standalone麼?


Anyway,我嘗試只在一個節點上部署spark,scala並設置好環境變量。直接spark-sql和sparkR,然後看主機多了4040監控端口,連接上去,自動跳轉到yarn的RM界面上了。

看到Executors上列着3(1個Driver,2個Executor)。執行SQL或者R語句,可以返回結果。




這說明了,確實只要在一個節點上部署即可。至於如何實現的,還需要慢慢理解。

這種方式最大的好處,只要在原有hadoop集羣上部署一個節點,也能跑spark任務了。


另外:發現sparkR --master 3中方式(master URL,yarn,local),local方式,提交後,yarn日誌沒有任務,連接4040端口,也沒有跳轉到yarn的Application。然後Executors下,只看到Driver。R語句也是正常執行的。






發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章