原创 canal同步異常:當表結構變化時,同步失敗

場景 canal 同步Mysql一段時間後突然失敗,報如如下錯誤: 2021-08-06 16:16:51.732 [MultiStageCoprocessor-Parser-Twt_instance-5] WARN c.a.o.cana

原创 canal+mysql+kafka實時數據同步安裝、配置

canal+mysql+kafka安裝配置 概述 簡介 canal譯意爲水道/管道/溝渠,主要用途是基於 MySQL 數據庫增量日誌解析,提供增量數據訂閱和消費。 基於日誌增量訂閱和消費的業務包括 數據庫鏡像 數據庫實時備份 索引構建和實時

原创 airflow2.0.2分佈式安裝文檔

更多內容可關注兔八哥雜談 需要安裝的組件 組件 功能 Airflow Webserver 查詢元數據以監控和執行DAGs的web界面。 Airflow Scheduler 它檢查元數據數據庫中的DAG和任務的狀態,在必要時

原创 數據質量管理方法

數據處理的過程 數據處理的過程一般如下: 數據質量管理(DATA Quality Managenment)是指對上述過程中每個階段可能出現引發數據質量的問題進行識別、監控、預警等相關管理活動。 通過改善和提高組織的管理水平是的數據質量進一

原创 淺談spark的數據本地性(data locality)

spark的數據本地性(data locality) Spark其中一個特性就是數據本地性,簡單的說就是“移動數據不如移動計算”。 因爲數據在網絡傳輸中會有不小的I/O消耗,並且傳輸距離越長消耗越大。 所以,數據本地性可以理解爲數據傳輸距離

原创 Saprk checkpoint、cache、persist的區別

持久化類型 特點 cache 默認存儲級別爲: RDD.cache():persist(StorageLevel.MEMORY_ONLY)Dataset.cache():MEMORY_AND_DISK persist 可以

原创 Hbase問題小結(一)

1. Hbase讀寫優化 寫: 批量寫、異步批量提交、多線程併發寫、使用BulkLoad寫入、表優化(壓縮算法、預分區、合理的rowkey設計、合理關閉WAL或異步WAL) SKIP_WAL:只寫緩存,不寫HLog日誌。這種方式因爲只

原创 大數據系列4:Yarn以及MapReduce 2

系列文章: 大數據系列:一文初識Hdfs 大數據系列2:Hdfs的讀寫操作 大數據謝列3:Hdfs的HA實現 通過前文,我們對Hdfs的已經有了一定的瞭解,本文將繼續之前的內容,介紹Yarn與Yarn在MapReduce 2的應用 Map

原创 大數據系列3:Hdfs的HA實現

在之前的文章:大數據系列:一文初識Hdfs , 大數據系列2:Hdfs的讀寫操作 中Hdfs的組成、讀寫有簡單的介紹。 在裏面介紹Secondary NameNode和Hdfs讀寫的流程。 並且在文章結尾也說了,Secondary Na

原创 大數據系列2:Hdfs的讀寫操作

在前文大數據系列1:一文初識Hdfs中,我們對Hdfs有了簡單的認識。 在本文中,我們將會簡單的介紹一下Hdfs文件的讀寫流程,爲後續追蹤讀寫流程的源碼做準備。 Hdfs 架構 首先來個Hdfs的架構圖,圖中中包含了Hdfs 的組成與一些

原创 大數據系列1:一文初識Hdfs

最近有位同事經常問一些Hadoop的東西,特別是Hdfs的一些細節,有些記得不清楚,所以趁機整理一波。 會按下面的大綱進行整理: 簡單介紹Hdfs 簡單介紹Hdfs讀寫流程 介紹Hdfs HA實現方式 介紹Yarn統一資源管理器 追一下H

原创 算法系列-動態規劃(4):買賣股票的最佳時機

此係列爲動態規劃相關文章。 系列歷史文章: 算法系列-動態規劃(1):初識動態規劃 算法系列-動態規劃(2):切割鋼材問題 算法系列-動態規劃(3):找零錢、走方格問題 算法系列-動態規劃(4):買賣股票的最佳時機 新生韭菜羅拉 自從上次

原创 算法系列-動態規劃(3):找零錢、走方格問題

最近在搗鼓算法,所以寫一些關於算法的文章 此係列爲動態規劃相關文章。 系列歷史文章: 算法系列-動態規劃(1):初識動態規劃 算法系列-動態規劃(2):切割鋼材問題 算法系列-動態規劃(3):找零錢、走方格問題 找零錢問題,湊數問題 最近

原创 數據庫倉庫系列:(一)什麼是數據倉庫,爲什麼要數據倉庫

最近全程參與了數倉的重建工作,頗有些心得。 於是萌生了寫一篇關於數據倉庫文章的想法。 編寫此文章的過程中會查找更多的資料和結合自己工作經歷,確保內容質量。 即是自己工作的記錄和總結,也是更系統的捋一遍數倉。 文章會分爲三個部分: 第一部分:

原创 ExceptionInChainedOperatorException:flink寫hbase對於null數據導致數據導致出現異常

使用的flink版本:1.9.1 異常描述 需求: 從kafka讀取一條數據流 經過filter初次篩選符合要求的數據 然後通過map進行一次條件判斷再解析。這個這個過程中可能返回null或目標輸出outData。 最後將outData通