在cdh5.14上裝好spark5.14後,如果使用pyspark的話,默認是使用系統的python,一般是python2.7
配置使用python3
1、在各個節點上安裝好python3,路徑要一致
2、在cdh的配置頁面
- 2.1、選擇spark2
- 2.2、選擇配置頁籤
- 2.3、搜索env
- 2.4、在spark2-conf/spark-env.sh 的 Spark 2 服務高級配置代碼段(安全閥) Spark 2(服務範圍) 下面的空欄增加(注意python3路徑)
export PYSPARK_PYTHON=/usr/bin/python3
export PYSPARK_DRIVER_PYTHON=/usr/bin/python3
配置spark讀取到hive表
1、hive已經安裝好並可正常使用
2、在cdh的配置頁面(和python3一個位置)
- 2.1、選擇spark2
- 2.2、選擇配置頁籤
- 2.3、搜索env
- 2.4、在spark2-conf/spark-env.sh 的 Spark 2 服務高級配置代碼段(安全閥) Spark 2(服務範圍) 下面的空欄增加
export HADOOP_CONF_DIR=/etc/hive/conf
ps. 這裏不是網上很多說的【/etc/hadoop/conf】因爲這個目錄下沒有hive-site.xml 還是讀取不到hive, 發現【/etc/hive/conf】包含hadoop的所有xml 也有hive的xml,所以使用這個路徑,其原理就是要包含hadoop和hive的site.xml,