【Spark】sparksql中使用自定義函數

代碼中分別用面向對象和麪向函數兩種寫法自定義了兩個函數:
low2Up: 小寫轉大寫
up2Low: 大寫轉小寫

import org.apache.spark.sql.types.StringType
import org.apache.spark.sql.{DataFrame, SparkSession}

object SparkSQLFunction {
  def main(args: Array[String]): Unit = {
    //1. 構建SparkSession對象
    val sparkSession: SparkSession = SparkSession
      .builder()
      .appName("SparkSQLFunction")
      .master("local[2]")
      .getOrCreate()
    //2. 測試數據加載爲DataFrame
    val dataFrame: DataFrame = sparkSession.read.text("E:\\BigData\\kkb\\課件資料\\spark_day05\\案例數據\\test_udf_data.txt")
    //3. 創建臨時表
    dataFrame.createTempView("t_udf")
    //4. 調用udf的register方法,這一步是構建udf的關鍵; register接受三個值: 註冊udf名稱,函數體,返回值類型 (面向對象寫法)
    sparkSession.udf.register("low2Up",new UDF1[String, String] {
      override def call(t1: String): String = {t1.toUpperCase}
    },StringType)
    //5. 另外一種更加方便的構建udf方式 (面向函數寫法)
    sparkSession.udf.register("up2Low",(x:String)=>x.toLowerCase)
    //6. 調用sparksql測試udf函數
    sparkSession.sql("select value from t_udf").show()
    sparkSession.sql("select low2Up(value) from t_udf").show()
    sparkSession.sql("select up2Low(value) from t_udf").show()
    //7. 關閉連接
    sparkSession.stop()
  }
}
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章