Flink API入門

Flink數據處理流程

 

   通過前面的文章我們大概瞭解了實時流處理框架,這篇文章開始我們將詳細來學習下Flink的使用。Flink爲開發流式/批處理應用程序提供了不同級別的抽象。

而這幾個抽象的模塊中DataStream API用於處理實時流處理,DataSet API用於離線批處理。

 

入門Flink API

 

      後面我們都選擇使用Scala來完成Flink程序的編寫,當然你也可以選擇Java或者Python。Scala DataSet API的所有核心類都在包org.apache.flink.api.scala中,DataStream API都在org.apache.flink.streaming.api.scala中。

 

要執行一個flink程序首先要獲取一個執行環境,獲得一個執行環境有三種方式:

 

getExecutionEnvironment() 

createLocalEnvironment() 

createRemoteEnvironment(host: String, port: Int, jarFiles: String*)

 

DataSet我們建議這樣獲取:

 

val env = ExecutionEnvironment.getExecutionEnvironment
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章