我們在之前的文章中已經嘗試了使用spark on k8s。
hadoop組件—spark實戰----spark on k8s模式k8s原生方式安裝spark2.4.4 client mode提交python程序和運行pyspark
不過 使用的方式 是spark-submit 或者 pyspark 來啓動 spark on k8s。
但是 一般 我們進行業務編程,都會 有其他的處理邏輯, 然後在 處理邏輯的一部分 纔會調用 spark進行處理。
也就是說 我們需要在 程序內部去調用spark,而不是 在外部 通過shell等命令來提交。
如果我們使用的是 python,則需要在python程序中能夠通過conf來創建sparkSession來使用。
本篇文章來記錄 如何在 python程序中 配置conf連接 spark on k8s創建sparkSession來調用。
運行python的程序 需要與spark on k8s有很好的連通性,所以我們還是使用client 模式,使用k8s中的一個pod作爲driver進行提交。
那麼 我們還是在之前文章 的基礎上進行 後續步驟。
詳情參考
hadoop組件—spark實戰----spark on k8s模式k8s原生方式安裝spark2.4.4 client mode和使用
使用命令進入pod
kubec