一.Spark DataFrame概述

在Spark語義中，DtatFrame是一個分佈式的行集合，可以想象爲一個關係型數據庫的表，或一個帶有列頭的Excel表格。它和RDD一樣，有這樣一些特點:

Immuatable: 一旦RDD、DataFrame被創建，就不能更改，只能通過tranformation生成新的RDD、DataFrame
Lazy Evaluations: 只有action纔會出發Transformation的執行。
Distributed: DataFrame和RDD一樣都是分佈式的。

1.1 創建DataFrame

支持的數據源:

Parquet Files
ORC Files
JSON Files
Hive Tables
JDBC
Avro Files

創建DataFrame的語法:

Dataset<Row> df = spark.read().json("examples/src/main/resources/people.json");

Spark SQL的起點: SparkSession
代碼:

import org.apache.spark.sql.SparkSession;

SparkSession spark = SparkSession
  .builder()
  .appName("Java Spark SQL basic example")
  .config("spark.some.config.option", "some-value")
  .getOrCreate();

使用SparkSession，應用程序可以從現有的RDD、Hive表或Spark數據源中創建DataFrames。

1.1.1 通過json文件創建DataFrame

Json測試文件:

{"name": "Michael",  "age": 12}
{"name": "Andy",  "age": 13}
{"name": "Justin",  "age": 8}

代碼:

package org.example;

import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;

public class SparkSQLTest4 {
    public static void main(String[] args){
        SparkSession spark = SparkSession
                .builder()
                .appName("SparkSQLTest4")
                .config("spark.some.config.option", "some-value")
                .getOrCreate();

        Dataset<Row> df = spark.read().json("file:///home/pyspark/test.json");
        df.show();

        spark.stop();
    }

}

測試記錄:

1.1.2 通過CSV文件創建DataFrame

csv測試文件:

代碼:

package org.example;

import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;

public class SparkSQLTest5 {
    public static void main(String[] args){
        SparkSession spark = SparkSession
                .builder()
                .appName("SparkSQLTest4")
                .config("spark.some.config.option", "some-value")
                .getOrCreate();

        Dataset<Row> df = spark.read().format("csv").option("header", "true").load("file:///home/pyspark/emp.csv");
        df.show();

        spark.stop();
    }

}

測試記錄:

1.1.3 通過hive table創建DataFrame

代碼:

package org.example;

import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;

public class SparkSQLTest2 {
    public static void main(String[] args){
        SparkSession spark = SparkSession
                .builder()
                .appName("SparkSQLTest2")
                .config("spark.some.config.option", "some-value")
                .getOrCreate();

        Dataset<Row> sqlDF = spark.sql("SELECT * FROM test.ods_fact_sale limit 100");
        sqlDF.show();

        spark.stop();
    }

}

測試記錄:

1.1.4 通過jdbc數據源創建DataFrame

代碼:

package org.example;

import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;

public class SparkSQLTest3 {
    public static void main(String[] args){
        SparkSession spark = SparkSession
                .builder()
                .appName("SparkSQLTest3")
                .config("spark.some.config.option", "some-value")
                .getOrCreate();

        Dataset<Row> jdbcDF = spark.read()
                .format("jdbc")
                .option("url", "jdbc:mysql://10.31.1.123:3306/test")
                .option("dbtable", "(SELECT * FROM EMP) tmp")
                .option("user", "root")
                .option("password", "abc123")
                .load();

        jdbcDF.printSchema();
        jdbcDF.show();

        spark.stop();
    }

}

測試記錄:

二.Spark SQL實戰

我們選用經典scoot用戶下的4張表來模擬Spark SQL實戰：

emp
dept
bonus
salgrade

2.1 DataFrame的統計信息

生成DataFrame的時候會保留統計信息，有點類似關係型數據庫的統計信息

代碼:

package org.example;

import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;

public class SparkSQLTest7 {
    public static void main(String[] args){
        SparkSession spark = SparkSession
                .builder()
                .appName("SparkSQLTest7")
                .config("spark.some.config.option", "some-value")
                .getOrCreate();

        spark.sql("use test");
        Dataset<Row> sqlDF = spark.sql("SELECT * FROM emp");

        sqlDF.describe().show();

        spark.stop();

    }


}

測試記錄：
從下圖可以看出，DataFrame給每一列都做了統計信息。

count 是列不爲空的總數
mean 平均值
stddev 標準偏差
min 最小值
max 最大值

2.2 DataFrame的select操作

有些應用場景，我們只需要DataFrame的部分列，此時可以通過select實現:

代碼:

package org.example;

import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;

public class SparkSQLTest8 {
    public static void main(String[] args){
        SparkSession spark = SparkSession
                .builder()
                .appName("SparkSQLTest8")
                .config("spark.some.config.option", "some-value")
                .getOrCreate();

        spark.sql("use test");
        Dataset<Row> sqlDF = spark.sql("SELECT * FROM emp");
        sqlDF.select("ename","hiredate").show();

        spark.stop();
    }
}

測試記錄:

2.3 DataFrame對列的操作

有些應用場景，我們需要對列進行別名、新增列、刪除列等操作。

代碼:

package org.example;

import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;

public class SparkSQLTest9 {
    public static void main(String[] args){
        SparkSession spark = SparkSession
                .builder()
                .appName("SparkSQLTest8")
                .config("spark.some.config.option", "some-value")
                .getOrCreate();

        spark.sql("use test");
        Dataset<Row> sqlDF = spark.sql("SELECT * FROM emp");

        //輸出看有哪些列
        System.out.println("\n" + "\n" + "\n");
        for ( String col:sqlDF.columns() ){
            System.out.println(col);
        }
        System.out.println("\n" + "\n" + "\n");

        //刪除一列
        sqlDF.drop("comm").show();

        //新增(或替換)一列
        //sqlDF.withColumn("new_comm", "sal").show();

        //給列進行重命名
        sqlDF.withColumnRenamed("comm","comm_new").show();


        spark.stop();
    }
}

測試記錄:
顯示列的信息:

刪除一列:

替換列名:

2.3 過濾數據

過濾數據用的是filter，其實也可以用where，where是filter的別名

代碼:

package org.example;

import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;

public class SparkSQLTest10 {
    public static void main(String[] args) {
        SparkSession spark = SparkSession
                .builder()
                .appName("SparkSQLTest10")
                .config("spark.some.config.option", "some-value")
                .getOrCreate();

        spark.sql("use test");
        Dataset<Row> sqlDF = spark.sql("SELECT * FROM emp");

        sqlDF.where("comm is not null").show();
        spark.stop();
    }
}

測試記錄:

2.4 簡單的聚合操作

常用的聚合操作:

操作	描述
avg/mean	平均值
count	統計個數
countDistinct	統計唯一的個數
max	求最大值
min	求最小值
sum	求和
sumDistinct	統計唯一值的合計
skewness	偏態
stddev	標準偏差

2.4.1 簡單聚合

代碼:

package org.example;

import org.apache.spark.sql.*;

public class SparkSQLTest11 {
    public static void main(String[] args) {
        SparkSession spark = SparkSession
                .builder()
                .appName("SparkSQLTest11")
                .config("spark.some.config.option", "some-value")
                .getOrCreate();

        spark.sql("use test");
        Dataset<Row> sqlDF = spark.sql("SELECT * FROM emp");

        sqlDF.groupBy("deptno").agg(functions.avg("sal").alias("avg_sal"),
                                          functions.max("comm").alias("max_comm")).show();
        spark.stop();

    }

}

測試記錄:

2.5 自定義函數

一些比較複雜的場景，我們希望使用自定義函數來實現。

代碼:

package org.example;

import org.apache.spark.sql.*;
import org.apache.spark.sql.api.java.UDF1;
import org.apache.spark.sql.types.DataTypes;

public class SparkSQLTest12 {
    public static void main(String[] args) {
        SparkSession spark = SparkSession
                .builder()
                .appName("SparkSQLTest12")
                .config("spark.some.config.option", "some-value")
                .getOrCreate();

        spark.udf().register("plusOne", new UDF1<Integer, Integer>() {
            @Override
            public Integer call(Integer x) {
                return x + 1;
            }
        }, DataTypes.IntegerType);
        spark.sql("SELECT plusOne(5)").show();
        spark.stop();

    }


}

測試記錄:

2.6 表連接

語法:

DataFrame.join(other, on=None, how=None)

other            需要連接的DataFrame
on                str, list or Column, 可選項
how             str, 可選項
                   default inner. Must be one of: inner, cross, outer, full, fullouter, full_outer, left, leftouter, left_outer, right, rightouter, right_outer, semi, leftsemi, left_semi, anti, leftanti and left_anti

2.6.1 內連接

代碼:

package org.example;

import org.apache.spark.sql.*;

public class SparkSQLTest13 {
    public static void main(String[] args) {
        SparkSession spark = SparkSession
                .builder()
                .appName("SparkSQLTest13")
                .config("spark.some.config.option", "some-value")
                .getOrCreate();

        spark.sql("use test");
        Dataset<Row> df1 = spark.sql("SELECT * FROM emp");
        Dataset<Row> df2 = spark.sql("SELECT * FROM dept");

        Dataset<Row> df3 = df1.join(df2, df1.col("deptno").equalTo(df2.col("deptno")) ,"inner").select(df1.col("empno"),df1.col("ename"),df2.col("dname"),df2.col("loc"));
        df3.show();
        spark.stop();
    }


}

測試記錄:

2.6.2 外連接

這裏我們使用一個右連接

代碼:

package org.example;

import org.apache.spark.sql.*;

public class SparkSQLTest14 {
    public static void main(String[] args) {
        SparkSession spark = SparkSession
                .builder()
                .appName("SparkSQLTest14")
                .config("spark.some.config.option", "some-value")
                .getOrCreate();

        spark.sql("use test");
        Dataset<Row> df1 = spark.sql("SELECT * FROM emp");
        Dataset<Row> df2 = spark.sql("SELECT * FROM dept");

        Dataset<Row> df3 = df1.join(df2, df1.col("deptno").equalTo(df2.col("deptno")) ,"right").select(df1.col("empno"),df1.col("ename"),df2.col("dname"),df2.col("loc"));
        df3.show();
        spark.stop();
    }


}

測試記錄:

2.7 排序

語法:

DataFrame.orderBy(*cols, **kwargs)
-- 返回按指定列排序的新DataFrame

參數:      ascending   bool or list,可選項
              布爾值或布爾值列表(默認爲True)。排序升序與降序。爲多個排序順序指定列表。如果指定了列表，則列表的長度必須等於cols的長度。

代碼:

package org.example;

import org.apache.spark.sql.*;

public class SparkSQLTest15 {
    public static void main(String[] args) {
        SparkSession spark = SparkSession
                .builder()
                .appName("SparkSQLTest15")
                .config("spark.some.config.option", "some-value")
                .getOrCreate();

        spark.sql("use test");
        Dataset<Row> df1 = spark.sql("SELECT * FROM emp");
        Dataset<Row> df2 = spark.sql("SELECT * FROM dept");

        Dataset<Row> df3 = df1.join(df2, df1.col("deptno").equalTo(df2.col("deptno")) ,"right").select(df1.col("empno"),df1.col("ename"),df2.col("dname"),df2.col("loc"));
        Dataset<Row> df4 = df3.orderBy(df3.col("dname").desc(),df3.col("ename").asc() );
        df4.show();
        spark.stop();

    }
}

測試記錄:

2.8 SparkSQL操作文件

SparkSession上的sql函數允許應用程序以編程方式運行sql查詢，並將結果作爲Dataset返回。

代碼:

package org.example;

import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;

public class SparkSQLTest16 {
    public static void main(String[] args){
        SparkSession spark = SparkSession
                .builder()
                .appName("SparkSQLTest16")
                .config("spark.some.config.option", "some-value")
                .getOrCreate();

        Dataset<Row> df = spark.read().json("file:///home/pyspark/test.json");
        df.createOrReplaceTempView("people");

        spark.sql("select * from people where age = 12").show();

        spark.stop();
    }

}

測試記錄:

Java-Spark系列6-Spark SQL編程實戰一.Spark DataFrame概述二.Spark SQL實戰參考:

一.Spark DataFrame概述

1.1 創建DataFrame

1.1.1 通過json文件創建DataFrame

1.1.2 通過CSV文件創建DataFrame

1.1.3 通過hive table創建DataFrame

1.1.4 通過jdbc數據源創建DataFrame

二.Spark SQL實戰

2.1 DataFrame的統計信息

2.2 DataFrame的select操作

2.3 DataFrame對列的操作

2.3 過濾數據

2.4 簡單的聚合操作

2.4.1 簡單聚合

2.5 自定義函數

2.6 表連接

2.6.1 內連接

2.6.2 外連接

2.7 排序

2.8 SparkSQL操作文件

參考:

【安裝部署】Apache SeaTunnel 和 Web快速安裝詳解

一個.NET開源的功能豐富、靈活易用的 Windows 窗口增強神器

Hudi系列19:Hudi寫入模式一. Changelog 模式二. Append 模式

Hudi系列18:Hudi全量接增量一. 全量接增量概述

Hudi系列15:Hudi元數據同步到Hive 一. hive sync tool工具介紹二. 問題排查三. 實操參考:

Hudi系列13:Hudi集成Hive 一. Hudi集成Hive概述二. Hudi集成Hive步驟三. 實操案例（COW）四. 實操案例（MOR） FAQ: 參考:

Hudi系列14:Hudi元數據持久化一. 元數據持久化二. 實操1(不使用初始化文件) 三. 實操2(使用初始化文件) 參考:

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

Java-Spark系列6-Spark SQL編程實戰 一.Spark DataFrame概述 二.Spark SQL實戰 參考:

一.Spark DataFrame概述

1.1 創建DataFrame

1.1.1 通過json文件創建DataFrame

1.1.2 通過CSV文件創建DataFrame

1.1.3 通過hive table創建DataFrame

1.1.4 通過jdbc數據源創建DataFrame

二.Spark SQL實戰

2.1 DataFrame的統計信息

2.2 DataFrame的select操作

2.3 DataFrame對列的操作

2.3 過濾數據

2.4 簡單的聚合操作

2.4.1 簡單聚合

2.5 自定義函數

2.6 表連接

2.6.1 內連接

2.6.2 外連接

2.7 排序

2.8 SparkSQL操作文件

參考:

Java-Spark系列6-Spark SQL編程實戰一.Spark DataFrame概述二.Spark SQL實戰參考: