原创 flink. 遇到的問題

1. flink run 時 Association with remote system [akka.tcp://[email protected]:33258] has failed, address is now gat 鏈接錯誤

原创 Flink1.8進階:Flink1.8批量Sink到HBase

實現背景:     消費Kafka數據寫入HBase時,單條處理效率太低。需要批量插入hbase,這裏自定義時間窗口countWindowAll 實現100條hbase插入一次Hbase 前面我就不寫了 直接上核心代碼 /*每10秒一個

原创 Flink Checkpoint 異常解析與應用實踐

目錄 一、 什麼是 Flink Checkpoint 和狀態 1.1 Flink Checkpoint 是什麼 1.2 爲什麼要開啓 Checkpoint

原创 linux 權限命令

基本權限   r  4  讀    w 2 寫    x  1  執行 chown chown cj /test chown cj:group /text  chgrp chgrp -R  root  file 添加組成員 gpasswd

原创 flink 編譯問題

1.編譯flink 1.9 flink-table-api-java 編譯不過 [ERROR] Failed to execute goal > org.apache.maven.plugins:maven-compiler-plugin

原创 Flink異步-鋒利的Async I/O

維表JOIN-繞不過去的業務場景 在Flink 流處理過程中,經常需要和外部系統進行交互,用維度表補全事實表中的字段。 例如:在電商場景中,需要一個商品的skuid去關聯商品的一些屬性,例如商品所屬行業、商品的生產廠家、生產廠家的一些情況

原创 Flink 寫入HDFS - 使用 BucketingSink

一、應用場景: Flink 消費 Kafka 數據進行實時處理,並將結果寫入 HDFS。 二、Bucketing File Sink 由於流數據本身是無界的,所以,流數據將數據寫入到分桶(bucket)中。默認使用基於系統時間(yyyy

原创 StreamingFileSink壓縮與合併小文件

Flink目前對於外部Exactly-Once寫支持提供了兩種的sink,一個是Kafka-Sink,另一個是Hdfs-Sink,這兩種sink實現的Exactly-Once都是基於Flink checkpoint提供的hook來實現的兩

原创 spark + hive + hbase 結合

Spark整合hive        1.hive的類庫需要在spark worker節點。 2.複製core-site.xml(hdfs) + hdfs-site.xml(hdfs) + hive-site.xml(hive)三個文件