如何在CDH中啓用Spark Thrift

原創

2020-02-23 02:05

1.文檔編寫目的

CDH 自帶的Spark 不支持Spark Thrift，因爲spark-assembly jar中缺少Hive thrift相關的依賴包，導致CDH用戶沒法使用JDBC的方式連接Spark並使用Spark SQL。Apache Spark 1.6之後spark-assembly jar 中包含了 Hive 相關的依賴包了，而恰好 CDH5.13 的 spark也是 1.6，所以可以直接使用Apache Spark 1.6 之後的spark-assembly jar替換CDH的。

本次測試選用的spark-assembly jar 包是Apache Spark1.6.3版本，而CDH中的Spark是1.6.0。本篇文章主要講述如何在CDH中啓用Spark Thrift。

內容概述

1.部署spark-assembly Jar包

2.部署Spark ThriftServer啓動和停止腳本

3.Spark ThriftServer啓動與停止

4.總結

測試環境

1.CM和CDH版本爲5.13.0

2.採用root用戶操作

前置條件

1.Spark1.6.0 On Yarn模式

2.部署Spark-assembly Jar包

1.下載spark-1.6.3-bin-hadoop2.6.tgz，下載地址如下：

https://www.apache.org/dyn/closer.lua/spark/spark-1.6.3/spark-1.6.3-bin-hadoop2.6.tgz

2.將下載的spark-1.6.3-bin-hadoop2.6.tgz上傳至集羣的任意節點並解壓，這裏以cdh02節點爲例

[root@cdh02 ~]# tar -zxvf spark-1.6.3-bin-hadoop2.6.tgz

3.將解壓出來的spark-assembly-1.6.3-hadoop2.6.0.jar拷貝至CDH的jars目錄

[root@cdh02 spark-1.6.3-bin-hadoop2.6]# scp /root/spark-1.6.3-bin-hadoop2.6/lib/spark-assembly-1.6.3-hadoop2.6.0.jar /opt/cloudera/parcels/CDH/jars/

4.替換CDH中spark默認的spark-assembly jar包

[root@cdh02 lib]# cd /opt/cloudera/parcels/CDH/lib/spark/lib
[root@cdh02 lib]# rm -rf spark-assembly-1.6.0-cdh5.13.0-hadoop2.6.0-cdh5.13.0.jar
[root@cdh02 lib]# ln -s ../../../jars/spark-assembly-1.6.3-hadoop2.6.0.jar spark-assembly-1.6.0-cdh5.13.0-hadoop2.6.0-cdh5.13.0.jar

5.將spark-assembly-1.6.3-hadoop2.6.0.jar包上傳至HDFS目錄

[root@cdh02 lib]# sudo -u spark hadoop fs -mkdir -p /user/spark/share/lib
[root@cdh02 lib]# sudo -u spark hadoop fs -put /opt/cloudera/parcels/CDH/jars/spark-assembly-1.6.3-hadoop2.6.0.jar /user/spark/share/lib
[root@cdh02 lib]# sudo -u spark hadoop fs -chmod 755 /user/spark/share/lib/spark-assembly-1.6.3-hadoop2.6.0.jar

6.在CM上對Spark進行配置，配置如下：

保存配置並重啓Spark服務。

7.修改/etc/spark/conf/ classpath.txt文件在末尾增加如下內容

/opt/cloudera/parcels/CDH-5.13.0-1.cdh5.13.0.p0.29/jars/spark-lineage_2.10-1.6.0-cdh5.13.0.jar

由於CDH5.11以後版本，Navigator2.10增加了Spark的血緣分析，所以這裏需要添加spark-lineage_2.10-1.6.0-cdh5.13.0.jar包，否則連接Spark會報錯找不到com.cloudera.spark.lineage.ClouderaNavigatorListener類。

3.部署Spark ThriftServer啓動和停止腳本

1.拷貝Spark ThriftServer啓動和停止腳本

將 spark-1.6.3-bin-hadoop2.6/sbin/目錄下的 start-thriftserver.sh 和 stop-thriftserver.sh 腳本拷貝到/opt/cloudera/parcels/CDH/lib/spark/sbin目錄下，並設置執行權限。

[root@cdh02 sbin]# scp start-thriftserver.sh stop-thriftserver.sh /opt/cloudera/parcels/CDH/lib/spark/sbin/
[root@cdh02 sbin]# chmod +x /opt/cloudera/parcels/CDH/lib/spark/sbin/*thriftserver.sh
[root@cdh02 sbin]# ll /opt/cloudera/parcels/CDH/lib/spark/sbin/

2.修改 load-spark-env.sh 腳本，這個腳本是啓動 spark 相關服務時加載環境變量信息的

[root@ip-172-31-5-190 sbin]# cd /opt/cloudera/parcels/CDH/lib/spark/bin
[root@ip-172-31-5-190 bin]# pwd
/opt/cloudera/parcels/CDH/lib/spark/bin
[root@ip-172-31-5-190 bin]#

將註釋掉exec "$SPARK_HOME/bin/$SCRIPT""$@"，因爲在start-thriftserver.sh腳本中會執行這個命令

4.啓動與停止Spark ThriftServer

1.啓動Spark ThriftServer服務

[root@ip-172-31-5-190 sbin]# ./start-thriftserver.sh

檢查端口是否監聽

[root@ip-172-31-5-190 sbin]# netstat -an |grep 10000

注意：爲了防止跟HiveServer2的10000端口衝突，可以自己修改Spark ThriftServer的啓動端口。

通過Yarn查看

2.停止服務

[root@ip-172-31-5-190 sbin]# ./stop-thriftserver.sh

檢查端口是否已停止

5.測試Spark Thrift

1.使用beeline通過JDBC連接Spark，可以發現連接的是Spark SQL

[root@ip-172-31-5-190 ~]# beeline
beeline> !connect jdbc:hive2://ip-172-31-5-190:10000
Enter username for jdbc:hive2://ip-172-31-5-190:10000: hive
Enter password for jdbc:hive2://ip-172-31-5-190:10000:

2.運行SQL測試

0: jdbc:hive2://ip-172-31-5-190:10000> show tables;
0: jdbc:hive2://ip-172-31-5-190:10000> select count(*) from test_table;
0: jdbc:hive2://ip-172-31-5-190:10000> select * from test;
0: jdbc:hive2://ip-172-31-5-190:10000> select * from test_table;
0: jdbc:hive2://ip-172-31-5-190:10000> select count(test_table.s2) from test_table join test on test_table.s1=test.s1;

3.在Yarn的8088中查看Spark任務，可以發現都是通過Spark執行的。

6.總結

CDH默認不支持Spark Thrift，需要使用Spark原生的spark-assembly jar包替換CDH自帶的jar包
CDH5.11版本以後，Navigator2.10增加了Spark的血緣分析，所以需要將spark-lineage的jar加載的Spark的運行環境。否則連接Spark會報錯找不到com.cloudera.spark.lineage.ClouderaNavigatorListener類。CDH5.10或之前版本不用加載這個jar包。參考：

https://www.cloudera.com/documentation/enterprise/release- notes/topics/cn_rn_known_issues.html#spark

原文地址：

http://mp.weixin.qq.com/s?__biz=MzI4OTY3MTUyNg==&mid=2247485731&idx=1&sn=00014c98f0ace15018c82a79ea02a7d9&chksm=ec2ad92adb5d503c56dd0b7e42b84cc0690087f2eea0a698e7bd16890cc89f7e20e0a641c734&scene=21#wechat_redirect

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

如何在CDH中啓用Spark Thrift

【面試準備】又一次失敗的面試經歷，題目離譜～資深軟件測試工程師

dotnet 8 版本與銀河麒麟V10和UOS系統的 glibc 兼容性

Elasticsearch使用rescore重打分機制

spark中直接使用es的client

elasticsearch 過濾器

mybatiss原理

如何在CDH中啓用Spark Thrift

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結