Linux离线安装pyspark与尝试使用pyspark连接数据库

原創

2020-06-04 11:52

针对于已经存在的java版本1.7, spark版本2.2.0，离线安装pyspark
所需的安装包都需自行另外寻找，本篇不提供下载地址

第一步（需保证pyspark相关依赖有）: 安装anconda离线版(保证得带上pandas, numpy, scikit-learn这几个pyspark所需库)
1, 首先安装anconda2
./Anaconda2-5.2.0-Linux-x86_64.sh
2, 配置全局变量
vi /etc/profile
将anaconda2的所在的bin加入到profile文件最后一行
export PATH=/home/anaconda2/bin:$PATH

第二步安装Pyspark:
1, 安装pyspark-2.1.2.tar.gz
2, tar -zxvf 解压, 进入到pyspark-2.1.2.tar目录, 使用python setup.py install 进行安装
3, 发现报错提示pypandoc没安装, 下载pypandoc-1.4.tar.gz进行, 再tar -zxvf 解压, 进入到pypandoc-1.4目录, 使用python setup.py install 进行安装
4, 发现未找到py4j==0.10.4, 下载py4j-0.10.4.tar.gz, tar -zxvf解压, 进入到py4j-0.10.4目录, 使用python setup.py install 进行安装

连接数据库流程
from pyspark import SparkConf, SparkContext
from pyspark.sql import HiveContext

这里地址需要按照所需的进行更改
conf = (SparkConf()
.setMaster(“spark://127.0.0.1:7077”)
.setAppName(“lychee”)
.set(“spark.executor.memory”, “1g”))
sc = SparkContext(conf = conf)
sqlContext = HiveContext(sc)
my_dataframe = sqlContext.sql(“Select count(1) from gdlq_hive.lq_tm_p_credit_score_sub_terminal”)
my_dataframe.show()

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

大数据小白的测试成长之路

引言 22年校招入職京東後，我一直在數據中臺測試部從事測試開發的工作。畢業後，寫的最多的文檔是測試計劃和測試報告，鮮有機會就自己的成長碼字進行回顧和總結。借“up技術人”欄目，也終於是在工作之餘回頭望，對自己這近兩年時光進行一個小總結

2024-04-28 11:17:19

如何从0到1设计诊断系统

引言在整車電子電氣體系中，診斷系統的設計扮演着至關重要的角色，負責支持整車的刷寫、故障排查和EOL(End of Line)等關鍵操作。這一重要性在於這些操作的實現都依賴於診斷系統的全面支持。因此，在設計診斷系統時，必須確保

2024-04-26 22:43:26

华为云Stack8.3面向香港正式发布，六大亮点激发云上跃迁

本文分享自華爲雲社區《華爲雲Stack8.3面向香港正式發佈，六大亮點激發雲上躍遷》，作者：華爲雲頭條。 2024年4月23日，在華爲雲香港峯會2024上，華爲混合雲副總裁胡玉海面向香港市場發佈華爲雲Stack8.3，提供110+本地

2024-04-26 10:33:21

对接HiveMetaStore，拥抱开源大数据

本文分享自華爲雲社區《對接HiveMetaStore，擁抱開源大數據》，作者：睡覺是大事。 1. 前言適用版本：9.1.0及以上在大數據融合分析時代，面對海量的數據以及各種複雜的查詢，性能是我們使用一款數據處理引擎最重要的考量

2024-04-24 22:33:08

重磅新品发布！云耀数据库HRDS，享受轻量级的极致体验

本文分享自華爲雲社區《重磅新品發佈！雲耀數據庫HRDS，享受輕量級的極致體驗！》，作者：GaussDB 數據庫。所謂，凡有井水處，即能歌柳詞。大數據時代，凡有數據處，必有數據庫。隨着業務需求的不斷擴大和數據量的激增，數

2024-04-23 22:32:33

沙特2030年愿景和对中国IT企业的市场机会分析

沙特2030年願景和對中國IT企業的市場機會分析前言：最近“開源老DJ，帶你去沙特”欄目第一期已經播出，收到了不錯的反響。見COPU官網的回顧。（https://mp.weixin.qq.com/s/3B0jNVhybxTF1xPiy

2024-04-23 22:24:54

03-为啥大模型LLM还没能完全替代你？

1 不具備記憶能力的它是零狀態的，我們平常在使用一些大模型產品，尤其在使用他們的API的時候，我們會發現那你和它對話，尤其是多輪對話的時候，經過一些輪次後，這些記憶就消失了，因爲它也記不住那麼多。 2 上下文窗口的限制大模型對其inpu

2024-04-23 01:07:00

入职3年-我如何做一名AI产品经理

引言從2021年校招加入京東開始，我一直從事AI產品經理的工作，有幸見證了AI行業的熱情從一臺臺服務器燒到了全世界各個角落，也見證了京東AI中臺團隊的影響力如何一步步的擴大。從21年的迷茫到24年的堅定，很慶幸我正走在適合自己的道路上，

2024-04-22 11:16:31

01-大语言模型发展

AI大模型的相關的一些基礎知識，一些背景和基礎知識。多模型強應用AI 2.0時代應用開發者的機會。 0 大綱 AI產業的拆解和常見名詞應用級開發者，在目前這樣一個大背景下的一個職業上面的一些機會實戰部分的，做這個agent，即所謂智

2024-04-22 01:12:50

WhaleScheduler为银行业全信创环境打造统一调度管理平台解决方案

項目背景數字金融是數字經濟的重要支撐和驅動力。近年來，我國針對數字金融的發展政策頻頻出臺，《金融科技發展規劃（2022-2025年）》、《“十四五”數字經濟發展規劃》、《關於銀行業保險業數字化轉型的指導意見》、《金融標準化“十四五”

2024-04-19 21:18:25

用户行为分析模型实践（四）—— 留存分析模型

作者：vivo 互聯網大數據團隊- Wu Yonggang、Li Xiong 本文是vivo互聯網大數據團隊《用戶行爲分析模型實踐》系列文章第4篇 -留存分析模型。本文詳細介紹了留存分析模型的概念及基本原理，並

2024-04-19 11:26:00

京东内部研效架构师训练营，首次对外公开课，不可错过的研效之旅！

五月繁花似錦，讓我們帶你走進京東，開啓研效實戰之旅！四大單位聯合發起本次活動由“全國雲計算技術行業產教融合共同體”發起，聯合工業和信息化部電子第五研究所、E³CI軟件研發效能度量工作委員會、京東雲共同主辦，重磅推出“卓越研效架構師”

京東雲開發者

2024-04-19 11:16:30

软件测试从自动化到智能化，大模型开始加入

隨着科技的飛速發展，軟件行業也在不斷地演進和創新。作爲軟件行業的關鍵環節之一，軟件測試行業也在經歷着前所未有的變革。從最初的手動測試，到自動化測試，再到如今的智能化測試，軟件測試行業正在經歷一場深刻的技術革命。在這場革命中，Testin雲測

2024-04-19 00:53:25

GaussDB(DWS)基于Flink的实时数仓构建

本文分享自華爲雲社區《GaussDB(DWS)基於Flink的實時數倉構建》，作者：胡辣湯。大數據時代，廠商對實時數據分析的訴求越來越強烈，數據分析時效從T+1時效趨向於T+0時效，爲了給客戶提供極速分析查詢能力，華爲雲數倉GaussDB

2024-04-18 10:32:57

这篇 DolphinScheduler on k8s 云原生部署实践，值得所有大数据人看！

在當前快速發展的技術格局中，企業尋求創新解決方案來簡化運營並提高效率成爲一種趨勢。 Apache DolphinScheduler作爲一個強大的工具，允許跨分佈式系統進行復雜的工作流任務調度。本文將深入探討如何將Apache Dolphin

2024-04-17 21:18:15

24小時熱門文章

最新文章

最新評論文章