Flink API入门

Flink数据处理流程

 

   通过前面的文章我们大概了解了实时流处理框架,这篇文章开始我们将详细来学习下Flink的使用。Flink为开发流式/批处理应用程序提供了不同级别的抽象。

而这几个抽象的模块中DataStream API用于处理实时流处理,DataSet API用于离线批处理。

 

入门Flink API

 

      后面我们都选择使用Scala来完成Flink程序的编写,当然你也可以选择Java或者Python。Scala DataSet API的所有核心类都在包org.apache.flink.api.scala中,DataStream API都在org.apache.flink.streaming.api.scala中。

 

要执行一个flink程序首先要获取一个执行环境,获得一个执行环境有三种方式:

 

getExecutionEnvironment() 

createLocalEnvironment() 

createRemoteEnvironment(host: String, port: Int, jarFiles: String*)

 

DataSet我们建议这样获取:

 

val env = ExecutionEnvironment.getExecutionEnvironment
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章