Flink 寫入HDFS - 使用 BucketingSink

原創

2020-03-14 09:05

一、應用場景：

Flink 消費 Kafka 數據進行實時處理，並將結果寫入 HDFS。

二、Bucketing File Sink

由於流數據本身是無界的，所以，流數據將數據寫入到分桶（bucket）中。默認使用基於系統時間(yyyy-MM-dd--HH，0時區)的分桶策略。在分桶中，又根據滾動策略，將輸出拆分爲 part 文件。

1、Flink 提供了兩個分桶策略，分桶策略實現了

org.apache.flink.streaming.connectors.fs.bucketing.Bucketer 接口：

BasePathBucketer，不分桶，所有文件寫到根目錄；
DateTimeBucketer，基於系統時間(yyyy-MM-dd--HH)分桶。

除此之外，還可以實現Bucketer接口，自定義分桶策略。

2、Flink 提供了兩種writer方式，它們實現了

org.apache.flink.streaming.connectors.fs.Writer 接口：

StringWriter 是系統默認的寫入方式，調用toString()方法，同時換行寫入；
SequenceFileWriter 是Hadoop序列文件寫入方式，可配置壓縮。

除此之外，還可以實現Writer接口，自定義Writer方式。

三、編碼。

1、pom添加依賴。

<dep

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Flink 三種狀態存儲方式 MemoryStateBackend、FsStateBackend、RocksDBStateBackend

StateBackend的意思是狀態後端。狀態後端定義了流式應用程序狀態如何存儲和checkpoint的。不同的狀態後端以不同的方式來存儲其狀態，並且使用不同的數據結構來保存正在運行的應用程序的狀態。 MemoryStateBack

二十六画生的博客

2020-07-07 23:55:04

Flink DataSet partitionByRange sortPartition 用法實例

package DataSetPartitionTest1; import org.apache.flink.api.common.functions.MapFunction; import org.apache.flink.api.

二十六画生的博客

2020-07-07 23:55:04

Flink ClassNotFoundException BatchTableEnvironmentImpl 報錯解決方法

Exception in thread "main" org.apache.flink.table.api.TableException: Create BatchTableEnvironment failed. at org.a

二十六画生的博客

2020-07-07 23:55:04

Flink 分佈式緩存廣播變量區別

區別: 1.廣播變量是基於內存的,是將變量分發到各個worker節點的內存上（避免多次複製，節省內存） 2.分佈式緩存是基於磁盤的,將文件copy到各個節點上,當函數運行時可以在本地文件系統檢索該文件（避免多次複製，提高執行效率）分

二十六画生的博客

2020-07-07 23:55:04

Flink 廣播變量實例

版本： flink1.9.2,java1.8 廣播變量用於DataSet： package BroadCast; import org.apache.flink.api.common.functions.RichMapFunction

二十六画生的博客

2020-07-07 23:55:04

Flink 分佈式緩存實例

版本： flink1.9.2,java1.8 package DistributedCache; import org.apache.commons.io.FileUtils; import org.apache.flink.api.

二十六画生的博客

2020-07-07 23:55:04

Flink 數據類型 & TypeInformation信息

原生數據類型 Java Tuples類型 Scala Case Class類型 POJOs 類型 Flink Value類型特殊數據類型 Scala API類型信息 Java API類型信息自定義TypeInformation Fli

程序猿进阶

2020-07-08 06:02:55

Flink的WaterMark詳解

WaterMark是什麼？在瞭解Flink的WaterMark之前先要了解Flink的時間語義。在Flink裏面有三種時間語義： ①Even Time：事件創建的時間，時間在數據裏面。 ②Ingestion Time：數據進

情深不仅李义山

2020-07-08 01:13:18

flink sql實例， TableException: Create BatchTableEnvironment failed.報錯

package SQL; import org.apache.flink.api.java.DataSet; import org.apache.flink.api.java.ExecutionEnvironment; import

二十六画生的博客

2020-07-07 23:55:04

Flink Keyed State ，Operator State 作用區別用法

Flink的State類型基本類型劃分：在Flink中，按照基本類型，對State做了以下兩類的劃分： Keyed State，和Key有關的狀態類型，它只能被基於KeyedStream之上的操作，方法所使用。我們可以從邏輯上理解這

二十六画生的博客

2020-07-07 23:55:04

Flink Operator State 實例實現CheckpointedFunction

public interface CheckpointedFunction { // Checkpoint觸發時會調用這個方法，我們要實現具體的snapshot邏輯，比如將哪些本地狀態持久化 void snapshotSt

二十六画生的博客

2020-07-07 23:55:04

Flink 累加器實例

每個並行的任務實例下有各自的累加器，獲取最終值時會把各個並行任務的累加器的值求和。（一個並行度對應一個累加器）版本: flink1.9.2 java1.8 map並行度1: package Counter; import or

二十六画生的博客

2020-07-07 23:55:04

Flink DataSet first groupBy sortGroup 用法實例

public class CoGroupDataSetTest { public static void main(String[] args) throws Exception { ExecutionEnv

二十六画生的博客

2020-07-07 23:55:04

Flink Keyed State 實例

1 sourceStream必須要先keyBy然後才能使用Keyed State 2 需要繼承RichxxxxFunction纔行，在open之前聲明，在open中初始化，在算子方法中使用和處理。不能繼承xxxxxFunction，因爲沒

二十六画生的博客

2020-07-07 23:55:04

Flink Operator State 實例實現ListCheckpointed

public interface ListCheckpointed<T extends Serializable> { // Checkpoint觸發時會調用這個方法，我們要實現具體的snapshot邏輯，比如將哪些本地狀態持久化

二十六画生的博客

2020-07-07 23:55:04

24小時熱門文章

最新文章

最新評論文章