python使用 sparkSQL集羣
python在一臺windows PC上,思路是通過這臺PC 遠程連接sparksql執行任務。與此前使用jupyter notebook 不同,jupyter notebook實際上是通過瀏覽器遠程連接spark集羣的master 節點。
主要步驟:
1. 在PC上安裝spark
此種場景中,PC作爲spark集羣的dirver端,因此需要在PC上部署spark
下載spark程序後,將壓縮文件解壓到指定目錄中即可。
1. 在PC上安裝spark
此種場景中,PC作爲spark集羣的dirver端,因此需要在PC上部署spark
下載spark程序後,將壓縮文件解壓到指定目錄中即可。
2.安裝JDK
3.設定環境變量
SPARK_HOME=E:\spark\
HADOOP_HOME=E:\spark\ ()
JAVA_HOME=E:\java-1.8.0\
Path=%SPARK_HOME%\bin;%JAVA_HOME%\bin;Path
CLASSPATH=%SPARK_HOME%\jars\ojdbc6.jar;%SPARK_HOME%\jars\mysql-connector-**.jar
4. 數據庫驅動jar包
如果使用sparksql 連接oracle數據庫讀取數據,將oracle的驅動程序$ORACLE_HOME/jdbc/lib 目錄中的jar程序複製到SPARK_HOME/jars目錄中
如果使用sparksql 連接mysql數據庫,將mysql-connector-*.jar文件複製到SPARK_HOME/jars目錄中
3.設定環境變量
SPARK_HOME=E:\spark\
HADOOP_HOME=E:\spark\ ()
JAVA_HOME=E:\java-1.8.0\
Path=%SPARK_HOME%\bin;%JAVA_HOME%\bin;Path
CLASSPATH=%SPARK_HOME%\jars\ojdbc6.jar;%SPARK_HOME%\jars\mysql-connector-**.jar
4. 數據庫驅動jar包
如果使用sparksql 連接oracle數據庫讀取數據,將oracle的驅動程序$ORACLE_HOME/jdbc/lib 目錄中的jar程序複製到SPARK_HOME/jars目錄中
如果使用sparksql 連接mysql數據庫,將mysql-connector-*.jar文件複製到SPARK_HOME/jars目錄中
5. hosts文件
在PC上,修改hosts文件,將SPARK集羣的節點IP和主機名對應關係列入
X.X.X.X node1
X.X.X.X node2
X.X.X.X node3
在PC上,修改hosts文件,將SPARK集羣的節點IP和主機名對應關係列入
X.X.X.X node1
X.X.X.X node2
X.X.X.X node3
在SPARK 集羣的所有主機上,修改/etc/host文件,將PC的IP地址和主機名對應關係列入
X.X.X.X PC-name
X.X.X.X PC-name