SparkSQL獲取dataframe(Java)

原創

轩瑕谢兰

2020-06-19 13:38

文章目錄

寫在前面

使用SparkSQL讀取數據庫數據並返回dataframe，感覺都要被各種示例寫爛了，本文大體上是沒有新意的，只不過加了些細節，對需要的人的而言還是比較重要的。

此外，示例方法均是使用Java編寫，爲什麼不用Scala呢，實在是語法糖對於我這樣的水平最多隻到泛型爲止的人而言，過於抽象了，過了一個月就不太記得之前寫的是啥了，還是習慣明確對象。

正文

介紹下幾塊細節吧。

驅動使用getDriver方法獲取，注意其中的hbase指的是phoenix而不是原生HBase。
使用sql語句獲取數據並進行處理。答案就在dbtable參數中傳入sql 語句並且sql語句需要包裹一層，並且另起一個別名作爲表名。

option("dbtable", "(select * from table) wangleai")

在使用oracle的時候，可以使用sessionInitStatement參數在會話創建之後讀取數據之前，執行自定義sql語句，一般用於修改會話的相關配置。注意此參數只有在2.3版本以上纔有。官網鏈接
至於我代碼裏寫的sql的作用，那是用來改變日期類型和時間戳類型的默認時間格式，這樣在sql語句裏就可以直接這麼寫了(用於增量是巨好用的)。

option("oracle.jdbc.mapDateToTimestamp", "false").option("sessionInitStatement", initSql)

select * from table where datefield > '2019-11-01 00:00:00'

這個是重頭戲了，那就是分區字段！如果需要獲取並處理超大規模的數據時，建議一定要有分區字段，用於partitionColumn, numPartitions,lowerBound, upperBound這四個選項。
partitionColumn字段目前僅支持數字、日期或者時間戳，用於Spark程序使用此字段內容將數據分成多個區塊去執行。numPartitions決定了要分成多少個區域，lowerBound和upperBound分別使用partitionColumn的上屆和下屆，配合numPartitions決定每個區域使用哪些數據。
注意的是，partitionColumn, lowerBound, upperBound三者必須同時出現。而且使用分區字段時，查詢的sql語句也需要加入分區字段。
（代碼示例中使用的是一個自增長的數字類型ID作爲分區字段）

option("lowerBound", minNum).option("upperBound", maxNum).option("numPartitions", numPartitions + "").option("partitionColumn", partitionField)

然後就是代碼了：

    public static void main(String[] args) {
        //自己設置Spark配置O!
        SparkConf conf = new SparkConf().setAppName("wangleai");
        SparkSession spark = SparkSession.builder().config(conf).getOrCreate();
        Map<String, String> jdbcConfig = new HashMap<>(8);
        //數據庫類型
        jdbcConfig.put("database", "mysql");
        //連接字符串
        jdbcConfig.put("url", "jdbc:mysql://localhost:3306/mydb");
        //用戶名
        jdbcConfig.put("username", "username");
        //密碼
        jdbcConfig.put("password", "password");
        //查詢sql，在Spark中本人比較習慣處理sql的查詢結果
        jdbcConfig.put("sql", "Select * from mytable");
        //分區字段，這個比較重要，特別是數據量大的時候
        jdbcConfig.put("partitionfield", "");
        Dataset<Row> jdbcDf = getJdbcDf(jdbcConfig, spark);
        jdbcDf.show();
        jdbcDf.foreachPartition(partition -> {
            while (partition.hasNext()) {
                Row row = partition.next();
                //對每一行做任何你想做的處理
                System.out.println(row);
            }
        });
    }

    /**
     * 獲取jdbc df
     *
     * @param jdbcConfig 配置
     * @param spark      會話
     * @return
     */
    private static Dataset<Row> getJdbcDf(Map<String, String> jdbcConfig, SparkSession spark) {
        String dbType = jdbcConfig.get("database");
        String url = jdbcConfig.get("url");
        String userName = jdbcConfig.get("username");
        String password = jdbcConfig.get("password");
        //直接使用表名
        //String exeSql = jdbcConfig.get("sql");
        //使用sql查詢語句
        String exeSql = String.format("(%s) wangleai", jdbcConfig.get("sql"));
        String partitionField = jdbcConfig.get("partitionfield");
        String driver = getDriver(dbType);
        DataFrameReader dataFrameReader = spark.read()
                .format("jdbc")
                .option("url", url)
                .option("user", userName)
                .option("password", password)
                .option("fetchsize", 200)
                .option("driver", driver);
        if ("oracle".equalsIgnoreCase(dbType)) {
            //修改oracle會話默認時間格式
            String initSql = "BEGIN " +
                    "EXECUTE IMMEDIATE 'ALTER SESSION SET NLS_DATE_FORMAT=\"YYYY-MM-DD HH24:MI:SS\"';" +
                    "EXECUTE IMMEDIATE 'ALTER SESSION SET NLS_TIMESTAMP_FORMAT=\"YYYY-MM-DD HH24:MI:SS\"';" +
                    "END;";
            //此參數需要保證Spark版本大於2.3,從而在獲取數據前修改會話的一些配置
            dataFrameReader.option("oracle.jdbc.mapDateToTimestamp", "false").option("sessionInitStatement", initSql);
        }

        Dataset<Row> jdbcDf;
        if (!"".equals(partitionField)) {
            // 採用分區讀取數據
            exeSql = exeSql.replaceAll("(?i)from", "," + partitionField + " from");
            // 每批數量
            int minNum = 1;
            int maxNum = 100000000;
            int pageNum = 10000 * 10;
            long numPartitions = (maxNum - minNum) / pageNum + 1;
            jdbcDf = dataFrameReader.option("dbtable", exeSql)
                    .option("lowerBound", minNum)
                    .option("upperBound", maxNum)
                    .option("numPartitions", numPartitions + "")
                    .option("partitionColumn", partitionField).load();
        } else {
            jdbcDf = dataFrameReader.option("dbtable", exeSql).load();
        }
        return jdbcDf;
    }

    /**
     * 獲取驅動類
     *
     * @param dataBase 數據庫類型
     * @return
     */
    private static String getDriver(String dataBase) {
        String driver = "";
        switch (dataBase.toLowerCase()) {
            case "hive":
                driver = "org.apache.hive.jdbc.HiveDriver";
                break;
            case "hbase":
                driver = "org.apache.phoenix.jdbc.PhoenixDriver";
                break;
            case "postgresql":
                driver = "org.postgresql.Driver";
                break;
            case "kylin":
                driver = "org.apache.kylin.jdbc.Driver";
                break;
            case "mysql":
                driver = "com.mysql.jdbc.Driver";
                break;
            case "oracle":
                driver = "oracle.jdbc.driver.OracleDriver";
                break;
            case "sqlserver":
                driver = "com.microsoft.sqlserver.jdbc.SQLServerDriver";
                break;
            default:
                System.out.println("暫不支持的數據庫類型:" + dataBase);
                break;
        }
        return driver;
    }

寫在後面

原本是準備1024寫的，但是工作之後時間真的過得實在是太快了，哎，老了。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

SparkSQL獲取dataframe(Java)

文章目錄

寫在前面

正文

寫在後面

.NET有哪些好用的定時任務調度框架

Python 將PDF轉爲PDF/A、PDF/X，以及PDF/A轉回PDF

elk3

Kafka存儲機制

aws語音呼叫調用，告警電話

深度學習框架火焰圖pprof和CUDA Nsys配置指南

爬蟲兩種繞過5s盾的方法

【轉】[C#] WebAPI 防止併發調用二（冥等性）

【轉】[SQL Server]關掉 SSMS 的 IntelliSense

號稱能打敗MLP的KAN到底行不行？數學核心原理全面解析

Python對接Java Rest接口簡例

Spring boot整合mybatis實現Restful服務demo

虛擬機安裝操作系統out of swap space問題

SparkSQL獲取dataframe(Java)

使用poi導入導出excel文件方法使用及改進

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結