從Spark 2.0開始,DataFrames和Dataset可以表示靜態的,有界的數據,以及流式無界數據。與靜態Dataset/DataFrame類似,我們可以使用公共入口點SparkSession從流源創建流式Dataset/DataFrame,並對它們應用與靜態Dataset/DataFrame相同的操作。如果我們不熟悉Dataset/DataFrame,可以看之前Spark SQL內容熟悉它們。
創建流式DataFrame和流式Dataset
可以通過SparkSession.readStream()方法返回DataStreamReader接口來創建Streaming DataFrame。與用於創建靜態DataFrame的讀取接口類似,我們可以指定源的詳細信息:數據格式,架構,選項等。
輸入源
有一些內置源:
- 文件來源:將目錄中寫入的文件作爲數據流讀取。