原创 Flink 實時將數據寫到 Redis

RedisSinkDemo 代碼 import java.net.InetSocketAddress import java.util import org.apache.flink.streaming.api.scala.

原创 Flume 採集 kafka 數據實時寫入 Kudu

創建 JsonKuduOperationsProducer.java 用於處理 Json 字符串寫入Kudu import com.alibaba.fastjson.JSON; import org.apache.flume.

原创 關於 Impala 時區問題及解決辦法

查詢使用 from_unixtime 時,遇到如圖所示情況: 解決辦法: 默認 impala 配置不是中國的時區 登錄CM,進入Impala服務,進入配置項 Cloudera Manager -> Impala ->

原创 Cloudera Manager中安裝部署Flink服務

製作Flink的Parcel包和csd文件 將Parcel包和manifest.json文件部署到httpd服務中 [root@node01 ~]# mkdir -p /var/www/html/cloudera-repo

原创 SQL Server 啓用或禁用 CDC 功能

查看庫表是否啓動 CDC -- 查看數據庫是否啓用cdc SELECT name,is_cdc_enabled FROM sys.databases WHERE is_cdc_enabled = 1; -- 查看當前數據庫表

原创 利用 StreamSets 實現將 SQL Server 中數據實時同步寫入 Kudu

環境準備 SQL Server 中創建測試庫表 CREATE DATABASE test; CREATE TABLE [dbo].[cdc_test] ( [id] int IDENTITY(1,1) NOT NUL

原创 利用 StreamSets 實現將 MySQL 中數據實時同步寫入 Kudu

環境準備 開啓MariaDB的Binlog日誌 修改/etc/my.conf文件,在配置文件[mysqld]下增加如下配置 server-id=999 log-bin=mysql-bin binlog_format=ROW

原创 Apache Flink 基於 CDH-6.3.2 源碼編譯

修改 maven 的倉庫地址 [root@node01 cloudera]# cat /usr/share/maven/conf/settings.xml ... </mirrors> <mirror>

原创 製作Flink的Parcel包和csd文件

配置java,maven等環境變量 java: export JAVA_HOME=/usr/local/java export PATH=$JAVA_HOME/bin:$PATH export CLASSPATH=$JAVA_

原创 Structured Streaming 簡介

Structured Streaming 關鍵思想 把數據流視作一張數據不斷增加的表,這樣用戶就可以基於這張表進行數據處理,就好像使用批處理來處理靜態數據一樣,但實際Spark 底層是把新數據不斷地增量添加到這張無界的表的下一

原创 Linux 下離線安裝 MariaDB

下載 MariaDB 安裝包 下載地址: https://downloads.mariadb.org/ 卸載系統自帶的mysql #檢查mariadb是否存在 [root@cdh01 local]# rpm -qa | g

原创 解決 NiFi 節點本地流與集羣流不一致導致無法加入集羣

異常信息 org.apache.nifi.controller.UninheritableFlowException: Failed to connect node to cluster because local flow

原创 解決 Elasticsearch 分頁查詢記錄超過10000時異常

問題一: 查詢結果中 hits.total.value 值最大爲10000的限制 解決方法: 請求時設置 "track_total_hits": true Rest 請求設置方法: curl -X POST "http:/

原创 Linux 下安裝 Oracle 客戶端

使用 ZIP文件離線安裝 Oracle 客戶端 下載所需的 Instant Client ZIP文件。 [root@cdh01 ~]# mkdir /opt/oracle [root@cdh01 ~]# cd /opt/o

原创 NiFi 集羣安裝部署及使用

NiFi 架構 NiFi在主機操作系統上的JVM內執行。JVM上NiFi的主要組件如下: Web Server Web服務器的目的是託管NiFi基於HTTP的命令和控制API。 Flow Controller 流量控制器是