我們在上篇文章中已經成功運行使用spark-submit提交了python程序運行spark。
hadoop組件—spark實戰----spark on k8s模式k8s原生方式安裝spark2.4.4 client mode提交python程序和運行pyspark
本篇文章記錄 在client pod中使用spark-submit提交python程序在spark on k8s中訪問s3。
進入client的pod
關於pod的創建和yaml請參考上一篇文章。
使用命令進入pod中
kubectl exec -ti spark-client-test -- bash
進入安裝目錄
cd spark-2.4.4-bin-hadoop2.7/
創建spark訪問s3的py文件
使用命令
vi spark-s3.py
輸入代碼如下:
from __future__ import print_function
import sys
from random import random
from operator import add
from pyspark.sql import SparkSession
if __name__ == "__main__":
spark = SparkSession\
.builder\
.appName("PythonS3")\
.g