原创 flink 高可用 high-availability 配置的重試次數無效問題

問題背景 我根據這篇博客https://blog.csdn.net/cndotaci/article/details/106870413的介紹,配置了flink基於yarn的高可用,測試時發現配置的任務失敗重試2次沒有生效,我測試

原创 flink yarn-session.sh啓動任務指定的應用名和隊列無效問題

問題背景 我有一個hadoop集羣和一臺機器A. 我在機器A上,使用命令: bin/yarn-session.sh -n 5 -jm 1g -tm 4g -s 4 -qu root.flink -nm fsql-cli > /de

原创 可能是史上覆蓋flinksql功能最全的demo--part2

接上一篇文章可能是史上覆蓋flinksql功能最全的demo–part1 Flink SQL join Table的5種方式 靜態表常規join 靜態表常規join指的是:靜態表join靜態表 例:按地區和優先級顯示特定日期的客戶

原创 使用Flink Metric Reporter 對flink任務指標進行監控

從flink1.8版本開始,reporter支持了將指標數據寫入influxdb,用戶可以自研可視化系統讀取influxdb中的數據進行可視化。 但是對中小型公司來講,可能因爲成本原因,大多並不會選擇自研可視化,我們選擇grafa

原创 推薦一款好用的elasticsearch Web管理工具cerebro

cerebro是一款開源的elasticsearch Web管理工具,主要具有以下功能: 查看es集羣各節點系統主要指標,如cpu、內存、磁盤等 查看和管理es集羣中的索引以及索引在各節點的分佈情況,含分片數、副本數、文件數等

原创 如何刪除airflow中不再使用的dag

如上圖,airflow中的dag關閉後仍然會在webui中佔坑,實在礙眼。調研後發現airflow並未提供刪除功能。 經分析實踐,可以通過刪除airflow的元數據庫中相應數據,從而達到刪除dag的目的。 接上圖,要刪除dag

原创 druid 超期自動刪除data節點數據

默認情況下,data節點會保留全部歷史數據在本地,隨着數據量的積累,會佔用大量的磁盤空間,所以需要修改默認配置,使本地只保留近一段時間內的數據,超期的數據會被自動刪掉。 打開druid Web Console http://dru

原创 可能是史上覆蓋flinksql功能最全的demo--part1

該demo基於flnk 1.10版本,由flink大佬fhueske發佈到github:https://github.com/fhueske/flink-sql-demo。 動手實踐前請先git clone https://git

原创 Flink中的臨時表 Temporal Tables

臨時表 Temporal Tables 翻譯自flink官方文檔:https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/table/streaming/t

原创 一次因爲kafka分區的leader不爲優先副本導致的消費堆積問題的原因排查及問題解決方法

一次因爲kafka分區的leader不爲優先副本導致的消費堆積問題的原因排查及問題解決方法 問題描述 首先,收到了消息堆積的報警,查看監控發現延遲如下: 接下來用kafka客戶端腳本工具,查看具體延遲信息: 發現延遲發生在2個

原创 hive 非正確json格式字段造成查詢錯誤

1. 問題 hive查詢報錯: Diagnostic Messages for this Task: [2020-04-02 05:32:04,360] {bash_operator.py:110} INFO - Error: j

原创 Flink on yarn 高可用環境配置 high-availability

1. 背景 默認情況下一個flink job只啓動一個jobManager,因此存在單點故障問題,所以生產環境中需要HA。 因爲生產環境中基於yarn集羣的flink應用場景更多,本文只介紹基於yarn的flink高可用配置。 2