Linux离线安装pyspark与尝试使用pyspark连接数据库

针对于已经存在的java版本1.7, spark版本2.2.0,离线安装pyspark
所需的安装包都需自行另外寻找,本篇不提供下载地址

第一步(需保证pyspark相关依赖有): 安装anconda离线版(保证得带上pandas, numpy, scikit-learn这几个pyspark所需库)
1, 首先安装anconda2
./Anaconda2-5.2.0-Linux-x86_64.sh
2, 配置全局变量
vi /etc/profile
将anaconda2的所在的bin加入到profile文件最后一行
export PATH=/home/anaconda2/bin:$PATH

第二步安装Pyspark:
1, 安装pyspark-2.1.2.tar.gz
2, tar -zxvf 解压, 进入到pyspark-2.1.2.tar目录, 使用python setup.py install 进行安装
3, 发现报错提示pypandoc没安装, 下载pypandoc-1.4.tar.gz进行, 再tar -zxvf 解压, 进入到pypandoc-1.4目录, 使用python setup.py install 进行安装
4, 发现未找到py4j==0.10.4, 下载py4j-0.10.4.tar.gz, tar -zxvf解压, 进入到py4j-0.10.4目录, 使用python setup.py install 进行安装

连接数据库流程
from pyspark import SparkConf, SparkContext
from pyspark.sql import HiveContext

这里地址需要按照所需的进行更改
conf = (SparkConf()
.setMaster(“spark://127.0.0.1:7077”)
.setAppName(“lychee”)
.set(“spark.executor.memory”, “1g”))
sc = SparkContext(conf = conf)
sqlContext = HiveContext(sc)
my_dataframe = sqlContext.sql(“Select count(1) from gdlq_hive.lq_tm_p_credit_score_sub_terminal”)
my_dataframe.show()

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章