14.3 Spark-SQL基於PostgreSQL數據分析編程實例
“卜算子·大數據”一個開源、成體系的大數據學習教程。——每週日更新
本節主要內容:
Spark對PostgreSQL數據源數據的處理,通過Spark SQL對結構化數據進行數據分析。
- 創建Gradle項目,引入依賴
- 創建連接
- 讀數據庫
- 寫數據庫
14.3.1 引入依賴
compile group: 'org.apache.spark', name: 'spark-core_2.11', version: '2.3.1'
compile group: 'org.apache.spark', name: 'spark-sql_2.11', version: '2.3.1'
compile group: 'org.postgresql', name: 'postgresql', version: '42.2.2'
14.3.2 創建Spark Session與數據庫連接參數
SparkSession spark = SparkSession
.builder()
.appName("Java Spark SQL basic example")
// .config("spark.some.config.option", "some-value")
.getOrCreate();
Properties connectionProperties = new Properties();
connectionProperties.put("user", "busuanzi");
connectionProperties.put("password", "wxl123");
14.3.3 讀取數據庫
Dataset<Row> jdbcDF2 = spark.read()
.jdbc("jdbc:postgresql://192.168.56.110:5432/busuanzidb", "public.top_projects", connectionProperties);
jdbcDF2.show();
14.3.4 寫入數據庫
myDF2.write()
.mode(SaveMode.Append)
.jdbc("jdbc:postgresql://192.168.56.110:5432/busuanzidb", "public.top_projects", connectionProperties);
查詢數據庫中,可見已經寫入成功了。
14.3.5 Spark JOIN 操作
spark.sql("SELECT * FROM onev r JOIN twov s ON r.username = s.username")
.show();
14.3.5 IDEA 中運行參數設置
本節完成
長按關注從入門到精通