python使用 sparkSQL集羣

原創

thinklog2018

2018-08-22 15:25

python使用 sparkSQL集羣

python在一臺windows PC上，思路是通過這臺PC 遠程連接sparksql執行任務。與此前使用jupyter notebook 不同，jupyter notebook實際上是通過瀏覽器遠程連接spark集羣的master 節點。

主要步驟：
1. 在PC上安裝spark
此種場景中，PC作爲spark集羣的dirver端，因此需要在PC上部署spark
下載spark程序後，將壓縮文件解壓到指定目錄中即可。

2.安裝JDK

3.設定環境變量
SPARK_HOME=E:\spark\
HADOOP_HOME=E:\spark\ ()
JAVA_HOME=E:\java-1.8.0\
Path=%SPARK_HOME%\bin;%JAVA_HOME%\bin;Path
CLASSPATH=%SPARK_HOME%\jars\ojdbc6.jar;%SPARK_HOME%\jars\mysql-connector-**.jar

4. 數據庫驅動jar包
如果使用sparksql 連接oracle數據庫讀取數據，將oracle的驅動程序$ORACLE_HOME/jdbc/lib 目錄中的jar程序複製到SPARK_HOME/jars目錄中
如果使用sparksql 連接mysql數據庫，將mysql-connector-*.jar文件複製到SPARK_HOME/jars目錄中

5. hosts文件
在PC上，修改hosts文件，將SPARK集羣的節點IP和主機名對應關係列入
X.X.X.X node1
X.X.X.X node2
X.X.X.X node3

在SPARK 集羣的所有主機上，修改/etc/host文件，將PC的IP地址和主機名對應關係列入
X.X.X.X PC-name

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python使用 sparkSQL集羣

今天！通義靈碼在北京、成都、杭州三城開講啦

【BI 可視化插件】怎麼做？手把手教你實現

floyed 算法計算最短路徑

python 通過cmd 檢查 SVN 配置庫同步

python使用 sparkSQL集羣

sparksql 連接讀取MySQL數據庫

sparkSQL 連接讀取Oracle數據庫

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結