Spark每日半小時(30)——結構化流式編程:Dataset/DataFrame API使用

從Spark 2.0開始,DataFrames和Dataset可以表示靜態的,有界的數據,以及流式無界數據。與靜態Dataset/DataFrame類似,我們可以使用公共入口點SparkSession從流源創建流式Dataset/DataFrame,並對它們應用與靜態Dataset/DataFrame相同的操作。如果我們不熟悉Dataset/DataFrame,可以看之前Spark SQL內容熟悉它們。

創建流式DataFrame和流式Dataset

可以通過SparkSession.readStream()方法返回DataStreamReader接口來創建Streaming DataFrame。與用於創建靜態DataFrame的讀取接口類似,我們可以指定源的詳細信息:數據格式,架構,選項等。

輸入源

有一些內置源:

  • 文件來源:將目錄中寫入的文件作爲數據流讀取。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章