原创 dataX從mysql導出數據到hbase

業務數據庫中存了大量的歷史數據,導致在根據業務條件查詢數據的時候效率太低。因此考慮將原始的業務數據通過SQL先做一遍處理後放到中間表,然後再把中間表的數據同步到hbase,以後直接從hbase查詢數據。當然這個還涉及到增量數據如何同步,如

原创 hbase2.1.6 mr

1.hbase配置mapreduce依賴包 編輯Hadoop的hadoop-env.sh文件 2.重啓hbase和Hadoop 上面配置爲hadoop-env.sh後,需要重啓才能生效。 3.在HBASE_HOME下運行命令即可 /v

原创 flink整合apollo

1.使用flink的maven骨架快速創建一個maven項目 2.添加apollo及其他所需依賴 <!-- apollo --> <dependency> <groupId>com.ctrip.framework.apoll

原创 flink reduce算子

reduce算子是flink流處理中的一個聚合算子,可以對屬於同一個分組的數據進行一些聚合操作。 但有一點需要注意,就是在需要對聚合結果進行除聚合操作之外的操作時,有可能會失效。 比如下面一段代碼: public static void

原创 elasticsearch reindex和sort的使用

背景 使用sort的時候需要注意,如果排序字段是字符串類型的(text、string),那麼會按照排序字段的值的字典順序進行排序。 而有時候我們需要按照實際數值進行排序,這時候就需要重建索引reindex,重建索引的時候使用新的模板或指定

原创 hbase2.1.6協處理器使用

對於2.1.6這個版本,使用協處理器需要引入hbase-common依賴。 協處理器分爲兩種,一種是observer協處理器,一種是endpoint協處理器。 下面首先記錄第一種協處理器的使用步驟。 一、observer協處理器 案例背景

原创 datax同步mysql數據到hive

datax hdfswriter文檔 https://github.com/alibaba/DataX/blob/master/hdfswriter/doc/hdfswriter.md 需要注意的是,hdfswriter寫入時的字段分隔符

原创 hbase爲什麼能夠實現實時讀寫

首先,需要明確的是,Hbase寫入速度比讀取速度要快,根本原因LSM存儲引擎 Hbase底層的存儲引擎爲LSM-Tree(Log-Structured Merge-Tree)。 LSM核心思想的核心就是放棄部分讀能力,換取寫入的最大化能力

原创 zookeeper問題總結

文章出處:https://www.jianshu.com/p/88ffb54fb43a 實際工作中用到Zookeeper集羣的地方很多, 也碰到過各種各樣的問題, 在這裏作個收集整理, 後續會一直補充; 其中很多問題的原因, 解決方案都是

原创 idea下springboot項目打包運行步驟

首先應該在pom中添加以下插件,跳過test,否則打包會報錯。 <plugin> <groupId>org.apache.maven.plugins</groupId>

原创 exceeded the 80 characters length limit and was truncated.

flink任務在idea調試時沒有問題,但提交到standalone集羣上運行時,發現沒有數據。看日誌發現下面這段信息: 2020-06-04 21:05:05,897 WARN org.apache.flink.metrics.Me

原创 flink countWindow計算每個學生的總成績

需求 假設學校的財務系統要出一個新功能,類似於年度賬單。統計每個學生過去一年往一卡通中的總充值金額。 其實這種需求完全不用開窗,可以直接使用批處理,groupBy()後reduce()即可。 當然,也可以使用流處理通過開窗實現聚合。下面分

原创 flink1.10配置rocksdb保存checkpoint時,idea運行報錯

首先,使用rocksdb需要引入依賴: <!-- https://mvnrepository.com/artifact/org.apache.flink/flink-statebackend-rocksdb --> <d

原创 centos安裝airflow

首先需要安裝python,pip,建議安裝python3。我這裏因爲之前使用datax,安裝的時python2,圖省事就沒有升級到python3。下面介紹安裝過程。 安裝airflow 之後直接pip install apache-air

原创 mysql事務、髒讀、幻讀

什麼是事務? 百度百科 事務(Transaction),一般是指要做的或所做的事情。在計算機術語中是指訪問並可能更新數據庫中各種數據項的一個程序執行單元(unit)。事務通常由高級數據庫操縱語言或編程語言(如SQL,C++或Java)書寫