运行python版本的Spark程序

原創

2018-09-04 04:46

两种方法：

使用 spark-submit 解释执行python脚本
使用 python 解释执行python脚本

1. 使用Spark-submit解释执行python脚本

python脚本中需要在开头导入spark相关模块，调用时使用spark-submit提交，示例代码如下：

===========================================================

"""odflow.py"""
from pyspark import SparkContext

fileDir = "/TripChain3_Demo.txt"
# sc = SparkContext("local", "ODFlow")
sc = SparkContext("spark://ITS-Hadoop10:7077", "ODFlow")
lines = sc.textFile(fileDir)

# python不能直接写多行的lambda表达式，所以要封装在函数中
def toKV(line):
    arr = line.split(",")
    t = arr[5].split(" ")[1].split(":")
    return (t[0]+t[1]+","+arr[11]+","+arr[18],1)

r1 = lines.map( lambda line : toKV(line) ).reduceByKey(lambda a,b: a+b)
# 排序并且存入一个（repartition）文件中
r1.sortByKey(False).saveAsTextFile("/pythontest/output")

===========================================================

发布命令为：

spark-submit \
  --master spark://ITS-Hadoop10:7077 \
  odflow.py

2. 使用 python 解释执行python脚本

直接用python执行会出现错误:

ImportError: No module named pyspark
ImportError: No module named py4j.java_gateway

缺少pyspark和py4j这两个模块，这两个包在Spark的安装目录里，需要在环境变量里定义PYTHONPATH，编辑~/.bashrc或者/etc/profile文件均可

vi ~/.bashrc # 或者 sudo vi /etc/profile
# 添加下面这一行
export PYTHONPATH=$SPARK_HOME/python/:$SPARK_HOME/python/lib/py4j-0.8.2.1-src.zip:$PYTHONPATH
# 使其生效
source ~/.bashrc # 或者 sudo source /etc/profile

然后关闭终端，重新打开，用python执行即可

python odflow.py

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

salesforce零基础学习（一百三十九）Admin篇之Begins/Contains/Starts With 是否区分大小写

本篇參考： https://help.salesforce.com/s/articleView?id=sf.customize_functions_begins.htm&type=5 https://help.salesforce.com/

2024-05-23 14:32:02

freebsd、openbsd、netbsd的区别

開源BSD有三大系列：freebsd、openbsd、netbsd。其實Mac OS X也是BSD系列，只不過是商業。 1.FreeBSD FreeBSD是從386BSD的基礎上發展起來的，而386BSD是由伯克利的計算機科學家Bill

2024-05-23 14:31:31

【dubbo】telnet 连接dubbo不支持ls命令解决方法

現象 dubbo服務的默認端口是20880，按照網上教程想查看dubbo服務，報錯 telnet 127.0.0.1 20880 dubbo>lsDubbo Telnet Unsupported command: ls 原因 Pleas

金大鑫要堅持

2024-05-23 14:29:51

微服务实践k8s&dapr开发部署实验（1）服务调用

前置條件安裝docker與dapr: 手把手教你學Dapr - 3. 使用Dapr運行第一個.Net程序安裝k8s dapr 自託管模式運行新建一個webapi無權限項目 launchSettings.json中applica

2024-05-23 14:28:01

2018 年上半年数据库系统工程师考试

基礎知識 ● 計算機運行過程中，遇到突發事件，要求 CPU 暫時停止正在運行的程序，轉去爲突發事件服務，服務完畢，再自動返回原程序繼續執行，這個過程稱爲__(1)，其處理過程中保存現場的目的是(2)__。（1）A.阻塞 B.中斷 C.動態

2024-05-23 14:27:10

2020年上半年数据库系统工程师考试

基礎知識 ● 下列屬於 CPU 中算術邏輯單元的部件是（1）。（1）A、程序計數器 B、加法器 C、指令寄存器 D、指令譯碼器參考答案：（1）B ● 在 CPU 和主存之間設置

2024-05-23 14:27:10

2019 年上半年数据库系统工程师考试

基礎知識 ● 計算機執行程序時，CPU中（1）的內容是一條指令的地址。（1）A、運算器 B、控制器 C、程序計數器 D、通用寄存器參考答案：（1）C ● DMA控制方式是在（2）之間直接建立數據通路進行數據的交換處理。（2）A、CPU

2024-05-23 14:27:10

Flink双流Join

Flink雙流Join分爲window join、internal join、connect、維表廣播等方法,其中window join又分爲Tumbling Window Join、Sliding Window Join、Sessi

人不瘋狂枉一生

2024-05-23 14:25:50

.NET快速实现网页数据抓取

前言今天我們來講講如何使用.NET開源（MIT License）的輕量、靈活、高性能、跨平臺的分佈式網絡爬蟲框架DotnetSpider來快速實現網頁數據抓取功能。注意：爲了自身安全請在國家法律允許範圍內開發網頁爬蟲功能。網頁數據

2024-05-23 14:25:17

解密Prompt系列29. LLM Agent之真实世界海量API解决方案：ToolLLM & AnyTool

很早之前我們就聊過ToolFormer，Gorilla這類API調用的Agent範式，這一章我們針對真實世界中工具調用的以下幾個問題，介紹微調(ToolLLM)和prompt(AnyTool)兩種方案。真實世界的API數量龐大且多樣：之

風雨中的小七

2024-05-23 14:25:10

第五节：基于Canal实现MySQL到Redis缓存数据同步

一. 二. 三. ! 作者 : Yaopengfei(姚鵬飛) 博客地址 : http://www.cnblogs.com

2024-05-23 14:24:29

微服务下认证授权框架的探讨

前言市面上關於認證授權的框架已經比較豐富了,大都是關於單體應用的認證授權,在分佈式架構下,使用比較多的方案是--<應用網關>,網關裏集中認證,將認證通過的請求再轉發給代理的服務,這種中心化的方式並不適用於微服務,這裏討論另一種方案--<認

2024-05-23 14:23:09

python读取 json文件的方法

import json with open ('ocr結構化輸出/10000.json') as f: #調用的高精度騰旭ocr tmp=f.read() tengxunjieguo=json.loads(tmp) 別使用js

張博的博客

2024-05-23 14:22:49

nodejs在typescript项目中申明全局变量

這樣做的目的是避免循環引用，編寫多餘的類型文件 //global.d.ts import type { A } from "./a"; import type { B } from "./b"; declare global {

2024-05-23 14:19:09

一对多的时候,用逗号分隔,存id,还是建表存id

在數據庫設計中，處理一對多關係時，是否使用逗號分隔的ID列表（也稱爲“序列化”或“規範化不足”的方法）或創建一個新的關聯表來存儲這些ID，是一個常見的決策點。以下是兩種方法的比較和考慮因素： 1. 使用逗號分隔的ID列表優點：簡單易

2024-05-23 14:18:19

24小時熱門文章

最新文章

最新評論文章