Linux離線安裝pyspark與嘗試使用pyspark連接數據庫

針對於已經存在的java版本1.7, spark版本2.2.0,離線安裝pyspark
所需的安裝包都需自行另外尋找,本篇不提供下載地址

第一步(需保證pyspark相關依賴有): 安裝anconda離線版(保證得帶上pandas, numpy, scikit-learn這幾個pyspark所需庫)
1, 首先安裝anconda2
./Anaconda2-5.2.0-Linux-x86_64.sh
2, 配置全局變量
vi /etc/profile
將anaconda2的所在的bin加入到profile文件最後一行
export PATH=/home/anaconda2/bin:$PATH

第二步安裝Pyspark:
1, 安裝pyspark-2.1.2.tar.gz
2, tar -zxvf 解壓, 進入到pyspark-2.1.2.tar目錄, 使用python setup.py install 進行安裝
3, 發現報錯提示pypandoc沒安裝, 下載pypandoc-1.4.tar.gz進行, 再tar -zxvf 解壓, 進入到pypandoc-1.4目錄, 使用python setup.py install 進行安裝
4, 發現未找到py4j==0.10.4, 下載py4j-0.10.4.tar.gz, tar -zxvf解壓, 進入到py4j-0.10.4目錄, 使用python setup.py install 進行安裝

連接數據庫流程
from pyspark import SparkConf, SparkContext
from pyspark.sql import HiveContext

這裏地址需要按照所需的進行更改
conf = (SparkConf()
.setMaster(“spark://127.0.0.1:7077”)
.setAppName(“lychee”)
.set(“spark.executor.memory”, “1g”))
sc = SparkContext(conf = conf)
sqlContext = HiveContext(sc)
my_dataframe = sqlContext.sql(“Select count(1) from gdlq_hive.lq_tm_p_credit_score_sub_terminal”)
my_dataframe.show()

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章