原创 cdh集羣impala 負載均衡

     impala是MPP查詢引擎,可以實現秒級響應,併發性能受機器數量,內存影響。impala 與hive共享元數據,hive表可以無縫切換到impala查詢(impala不支持hive json, 3.1版本開始支持orc文件格式

原创 cdh集羣hive 啓用HA

   hive 在離線分析,數倉中是最常用的工具,業務人員不需要熟悉mr,編程基礎就可以通過sql操作數據。hive 的性能及穩定性在生產中必須保證。hive可以通過HAPROXY進行多節點負載均衡來達到目的。    hive Metas

原创 cdh集羣resource manager啓用 HA

   resource manager關係整個集羣的任務運行,在生產上必須保證高可靠。resource manager和hdfs namenode的一樣自身實現了HA,只需開啓,出現異常時會自動切換到正常的resourcemanger。通

原创 cdh集羣sentry 啓用HA

  cdh集羣sentry主用用來進行hive數據權限認證,sentry服務失敗後會影響訪問hive庫的任務。sentry ha的功能是在cdh5.13之後纔有的。 開啓sentry HA   1. 進入sentry 操作,選擇啓用HA

原创 cdh集羣hdfs namenode HA

     hdfs namenode的健康關係整個集羣是否能正常運行,生產爲了集羣的高可用必須開啓HA。社區版需要手動修改配置文件進行開啓。使用cloudera manager只需在界面根據嚮導執行即可。 操作步驟: 1. 在hdfs -

原创 cdh集羣oozie啓用HA

cdh集羣oozie調度器通過 cloudera manager 啓用HA。oozie啓用HA,需要先安裝負載均衡器,我使用的是haproxy。 1.安裝harpoxy  yum install -y haproxy 2. 在oozie

原创 flink kafka自定義反序列化

       flink kafka實時流計算時,通常會有將多個topic數據接入計算,而這時通常需要區分消息屬於哪個topic進行鍼對處理。spark默認就將topic信息同kafka 消息一起提供出來了,flink 提供的Simple

原创 hue shell執行impala shell

在hue shell中執行impala shell ,配置如下: impala.sh 腳本如下: #!/bin/bash impala-shell -i 192.168.15.171:21000 -q "show tables;" 運

原创 ssm項目大事務導致數據異常

      在使用SSM框架時都會開啓spring聲明式事務,只需在方法上加上@Transaction,spring自動幫你管理事物提交回滾,非常簡單方便。不注意也會帶來意外的驚喜,大家開發時都在方法上加上事務註解,當一個方法需要調用其它

原创 cdh集羣安裝--host配置問題導致agent失敗

遇到幾次有人在安裝cdh的時候將hostname 配置成了帶下劃線 "_",而導致agent安裝失敗,無法啓動agent ,/var/log下無異常日誌。異常配置如下: 192.168.1.1 cluster_01.example.com

原创 kafka2.x重複消費問題

  kafka從0.8升級到kafka2.x後所有客戶端代碼也需要全部升級。kafka消費程序使用2.x java api重寫後發現出現重複消費數據的情況。代碼參照官方demo寫的如下: consumer.subscribe(

原创 spark drools集成開發

     flink 有cep複雜事件處理庫,spark中沒有cep處理庫,如何在spark中實現cep複雜事件處理? 業界普遍使用開源的drools規則引擎集成去處理,cloudera官方博客就有spark 集成drools實現cep處

原创 flink drools開發

 flink本身已有cep引擎,用戶可以直接使用。本文介紹下flink drools集成開發,實現規則代碼分離。 項目代碼結構如下: pom maven配置: <properties> <!--<drools.ver

原创 spring boot mybatis整合

 這幾年微服務興起,dubbo,spring boot,spring cloud,在java面試中基本會被問到。現在因工作原因完整的開發java項目少,抽空寫了個spring boot demo。spring boot相比於spring

原创 flink 編程模型

  在大數據開發領域,每個大數據開發框架都有着自己固定的編程模型。用戶只有按照這套流程實現自己的業務邏輯即可。flink也有着自己固定的開發模式,流,批開發模式一樣,只是調用的類不一樣,社區也在計劃統一api。flink支持java,sc