Flink數據處理流程
通過前面的文章我們大概瞭解了實時流處理框架,這篇文章開始我們將詳細來學習下Flink的使用。Flink爲開發流式/批處理應用程序提供了不同級別的抽象。
而這幾個抽象的模塊中DataStream API用於處理實時流處理,DataSet API用於離線批處理。
入門Flink API
後面我們都選擇使用Scala來完成Flink程序的編寫,當然你也可以選擇Java或者Python。Scala DataSet API的所有核心類都在包org.apache.flink.api.scala中,DataStream API都在org.apache.flink.streaming.api.scala中。
要執行一個flink程序首先要獲取一個執行環境,獲得一個執行環境有三種方式:
getExecutionEnvironment()
createLocalEnvironment()
createRemoteEnvironment(host: String, port: Int, jarFiles: String*)
DataSet我們建議這樣獲取:
val env = ExecutionEnvironment.getExecutionEnvironment