从Spark 2.0开始,DataFrames和Dataset可以表示静态的,有界的数据,以及流式无界数据。与静态Dataset/DataFrame类似,我们可以使用公共入口点SparkSession从流源创建流式Dataset/DataFrame,并对它们应用与静态Dataset/DataFrame相同的操作。如果我们不熟悉Dataset/DataFrame,可以看之前Spark SQL内容熟悉它们。
创建流式DataFrame和流式Dataset
可以通过SparkSession.readStream()方法返回DataStreamReader接口来创建Streaming DataFrame。与用于创建静态DataFrame的读取接口类似,我们可以指定源的详细信息:数据格式,架构,选项等。
输入源
有一些内置源:
- 文件来源:将目录中写入的文件作为数据流读取。