python使用 sparkSQL集羣

python使用 sparkSQL集羣
python在一臺windows PC上,思路是通過這臺PC 遠程連接sparksql執行任務。與此前使用jupyter notebook 不同,jupyter notebook實際上是通過瀏覽器遠程連接spark集羣的master 節點。
主要步驟:
1. 在PC上安裝spark
  此種場景中,PC作爲spark集羣的dirver端,因此需要在PC上部署spark
  下載spark程序後,將壓縮文件解壓到指定目錄中即可。
2.安裝JDK
 
3.設定環境變量
  SPARK_HOME=E:\spark\
  HADOOP_HOME=E:\spark\  ()
  JAVA_HOME=E:\java-1.8.0\
  Path=%SPARK_HOME%\bin;%JAVA_HOME%\bin;Path
  CLASSPATH=%SPARK_HOME%\jars\ojdbc6.jar;%SPARK_HOME%\jars\mysql-connector-**.jar
 
4. 數據庫驅動jar包
   如果使用sparksql 連接oracle數據庫讀取數據,將oracle的驅動程序$ORACLE_HOME/jdbc/lib 目錄中的jar程序複製到SPARK_HOME/jars目錄中
   如果使用sparksql 連接mysql數據庫,將mysql-connector-*.jar文件複製到SPARK_HOME/jars目錄中
5. hosts文件
  在PC上,修改hosts文件,將SPARK集羣的節點IP和主機名對應關係列入
  X.X.X.X  node1
  X.X.X.X  node2
  X.X.X.X  node3
 在SPARK 集羣的所有主機上,修改/etc/host文件,將PC的IP地址和主機名對應關係列入
    X.X.X.X  PC-name

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章