Spark Standalone 以及 HDFS系統環境搭建

Hdfs環境搭建

下載最新版本的Hadoop編譯好的tar包：http://hadoop.apache.org/releases.html
確認HDFS namenode和datanode的角色，並將namenode以及datanode的ip機器名對應關係寫進每臺機器的/etc/hosts文件。

確認namenode可以不需要密碼就一個通過ssh聯通datanode結點。

執行如下命令
(1) ssh-keygen -t  rsa "" //生成sshkey
(2) 將 ~/.ssh/id_rsa.pub 公鑰文件的內容拷貝到每臺datanode機器的 ~/.ssh/authorized_keys文件中。
(3) 測試從namenode 到 datanode的連接，現在應該是通的了。

配置hadoop的配置文件。

(1) 在環境變量中配置HADOOP_HOME、JAVA_HOME、HADOOP_CONF_DIR,其中 HADOOP_CONF_DIR指向 $HADOOP_HOME/etc/hadoop
(2) 修改 HADOOP_CONF_DIR 目錄下的幾個*.site.xml文件，參考官網：http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/ClusterSetup.html
(3) 將配置好後的hadoop包分發到每個namenode和datanode結點，並相應的配置環境變量。
(4) 剩下的在namenode結點按照官網來啓動 sbin/目錄下的那些shell，參考上面的官網鏈接。
(5) 此時去每臺機器用JPS命令看下，結點進程應該都起來了。
(6) 訪問 namenode的50070端口，應該能看到相應的結點信息。

Spark環境搭建

Spark以Standalone的方式啓動，文件系統可以依賴上面搭建的HDFS文件系統。Spark Standalone搭建啓動方式如下：

    (1) 從官網：http://spark.apache.org/ 下載最新版本的spark 編譯好的 tar包。
    (2) 解壓後參考官網配置：http://spark.apache.org/docs/latest/spark-standalone.html
    (3) 注意master結點和worker結點的spark安裝包要在同一個linux文件系統路徑下。
    (4) 在master結點的 conf/slaves 文件中，將work結點的ip地址填寫好，每行一個。
    (5) 分別執行sbin/start-master.sh 和 sbin/start-slaves文件。
    (6) 此時可以看到master結點啓動了一個master進程，worker結點啓動了slave進程。

注意點

通過如下命令提交spark任務時，注意jar包如果是本地文件（即：還沒有put到hdfs文件系統中，file:/xxxx.jar 本地文件訪問協議），則需要這個jar包在每個結點都存在，並且是完全相同的路徑。如果是已經put到了hdfs文件系統中，則指定hdfs文件系統的路徑就可以了例如：hdfs://xxxx.jar

./bin/spark-submit \
  --class <main-class>
  --master <master-url> \
  --deploy-mode <deploy-mode> \
  --conf <key>=<value> \
  ... # other options
  <application-jar> \
  [application-arguments]

藍天的IT生涯

發佈了83 篇原創文章 · 獲贊 74 · 訪問量 47萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Spark Standalone 以及 HDFS系統環境搭建

Hdfs環境搭建

Spark環境搭建

注意點

CORS error 但是 status code 是200 OK

壓縮上傳的GPU數據的方案

使用skopeo同步鏡像

詳細的MongoDB學習資料

Spark Pipe使用方法（外部程序調用方法）

科目三考試掛掉原因分析

基於Nginx反向代理的SparkUI的訪問

Linux 指令：系統設置--export

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結