代碼中分別用面向對象和麪向函數兩種寫法自定義了兩個函數:
low2Up: 小寫轉大寫
up2Low: 大寫轉小寫
import org.apache.spark.sql.types.StringType
import org.apache.spark.sql.{DataFrame, SparkSession}
object SparkSQLFunction {
def main(args: Array[String]): Unit = {
//1. 構建SparkSession對象
val sparkSession: SparkSession = SparkSession
.builder()
.appName("SparkSQLFunction")
.master("local[2]")
.getOrCreate()
//2. 測試數據加載爲DataFrame
val dataFrame: DataFrame = sparkSession.read.text("E:\\BigData\\kkb\\課件資料\\spark_day05\\案例數據\\test_udf_data.txt")
//3. 創建臨時表
dataFrame.createTempView("t_udf")
//4. 調用udf的register方法,這一步是構建udf的關鍵; register接受三個值: 註冊udf名稱,函數體,返回值類型 (面向對象寫法)
sparkSession.udf.register("low2Up",new UDF1[String, String] {
override def call(t1: String): String = {t1.toUpperCase}
},StringType)
//5. 另外一種更加方便的構建udf方式 (面向函數寫法)
sparkSession.udf.register("up2Low",(x:String)=>x.toLowerCase)
//6. 調用sparksql測試udf函數
sparkSession.sql("select value from t_udf").show()
sparkSession.sql("select low2Up(value) from t_udf").show()
sparkSession.sql("select up2Low(value) from t_udf").show()
//7. 關閉連接
sparkSession.stop()
}
}