Spark每日半小时(30)——结构化流式编程:Dataset/DataFrame API使用

从Spark 2.0开始,DataFrames和Dataset可以表示静态的,有界的数据,以及流式无界数据。与静态Dataset/DataFrame类似,我们可以使用公共入口点SparkSession从流源创建流式Dataset/DataFrame,并对它们应用与静态Dataset/DataFrame相同的操作。如果我们不熟悉Dataset/DataFrame,可以看之前Spark SQL内容熟悉它们。

创建流式DataFrame和流式Dataset

可以通过SparkSession.readStream()方法返回DataStreamReader接口来创建Streaming DataFrame。与用于创建静态DataFrame的读取接口类似,我们可以指定源的详细信息:数据格式,架构,选项等。

输入源

有一些内置源:

  • 文件来源:将目录中写入的文件作为数据流读取。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章