原创 kerberos環境下hive server2使用負載均衡異常

 hive server2在集羣啓用kerberos 環境下使用 haproxy 進行負載均衡時,會出現連接hive server2失敗。異常產生的原因是hive server2實例DBTokenStore緩存的票據信息沒有共享給其它實例

原创 自研大數據分析平臺任務提交方式

   大部分有實力的公司大數據平臺發展到一定階段,都會想着在大數據平臺上做一層整合開發一個統一的對外服務平臺,降低用戶的使用門檻,提高開發效率。要做一個大數據服務平臺對平臺研發人員的能力有着較高的要求,目前這塊做的好的都是一些大廠。今天我

原创 flink table 使用Kafka Connector處理複雜json

  flink kafka connector處理複雜json字符串,直接上代碼。 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvi

原创 flink 廣播變量

     使用過spark的人都知道廣播變量這個概念。廣播變量相當於一個共享變量,將一個小數據集複製分發到每個task,task直接從本地讀取。flink中有兩種廣播變量,一種靜態的廣播變量,一種實時動態的廣播變量。     靜態廣播變量

原创 flink jdbc連接器

  flink提供很多訪問其他數據源的連接器,訪問其他第三方數據源變得簡單高效。下面就是flink提供的一些連接器,使用時只需引入需要的包。    在使用flink處理數據後,我們經常會將結果寫入數據庫,供其它業務使用。   pri

原创 hive 異常-NPE org.apache.hadoop.hive.ql.exec.vector.expressions.CuckooSe.rehash

  hive執行 sql 語句 select * from table  where  c in (....)  出現異常,異常日誌如下:       java.lang.RuntimeException: org.apache.had

原创 spark streaming error -- java.lang.AbstractMethodError

spark streaming程序提交出現如下異常: java.lang.AbstractMethodError at org.apache.spark.internal.Logging$class.initializeLogIfN

原创 flink table 使用Kafka Connector處理嵌套json

   使用flink table api 連接kafka 處理json類型數據,單層json處理比較簡單,官方或網上都有很多例子,處理嵌套的json數據沒什麼介紹。處理嵌套json數據主要是schema定義。       Strea

原创 flink1.10 提交java sql ddl程序異常

  flink1.10對ddl這塊支持比較完善,最近用java寫了個ddl kafka的demo測試。在ide本地環境中執行沒有問題,但將任務打包提交的flink 集羣時提交就報錯,無法執行,異常如下:  看異常好像是ddl寫錯了,本地運

原创 sqoop error xxx is greater than xxx

 sqoop導數失敗,異常日誌: java.io.IOException: 0.0014953855428494540903836009476087637386843889123302851247769723690792198311859

原创 hbase Could not seek StoreFileScanner[HFileScanner for reader異常

最近hbase查詢出現異常,hbase監控都正常,異常如下: hbase(main):003:0> get 'w:t','xxxx' COLUMN                                              

原创 hive metastore server Failed to sync requested HMS notifications up to the event ID xxxxx

 最近遇到hive執行create,drop table語句時出現延時其它語句正常,平時秒級現在都需要200s才完成。經過排查發現有個用戶使用手機號做動態分區字段,導致一下有上百萬分區寫入,hive metastore server出現問

原创 flink異步IO

       使用flink進行數據處理時,我們經常會需要跟外部系統交換,比如查詢mysql。每一條數據都訪問一次外部系統,等待響應,再往下執行,這種等待會佔用很大一部分數據處理時間。爲此flink提供了異步IO API,異步訪問外部系統

原创 hue hive sql查詢下載結果異常

   hue hive sql查詢下載結果出現如下異常,給官方提了個issues說後面的新版本修復了,看了下源碼那段確實修改了。  通過查看hue後臺日誌找到異常代碼。我用的是cdh5.14.4解決方法,修改 /opt/cloudera

原创 hue負載均衡

    Hue是開源的大數據工作平臺,集成了hive,impala,spark,hadoop,sentry ,oozie,hbase等常用大數據服務,基本能滿足絕大部分公司的業務日常使用。作爲公司對業務開放的開發平臺必須穩定,高性能。我們