Flink数据处理流程
通过前面的文章我们大概了解了实时流处理框架,这篇文章开始我们将详细来学习下Flink的使用。Flink为开发流式/批处理应用程序提供了不同级别的抽象。
而这几个抽象的模块中DataStream API用于处理实时流处理,DataSet API用于离线批处理。
入门Flink API
后面我们都选择使用Scala来完成Flink程序的编写,当然你也可以选择Java或者Python。Scala DataSet API的所有核心类都在包org.apache.flink.api.scala中,DataStream API都在org.apache.flink.streaming.api.scala中。
要执行一个flink程序首先要获取一个执行环境,获得一个执行环境有三种方式:
getExecutionEnvironment()
createLocalEnvironment()
createRemoteEnvironment(host: String, port: Int, jarFiles: String*)
DataSet我们建议这样获取:
val env = ExecutionEnvironment.getExecutionEnvironment