台部落kevin

hive server2在集羣啓用kerberos 環境下使用 haproxy 進行負載均衡時，會出現連接hive server2失敗。異常產生的原因是hive server2實例DBTokenStore緩存的票據信息沒有共享給其它實例

2020-06-25 12:26:28

大部分有實力的公司大數據平臺發展到一定階段，都會想着在大數據平臺上做一層整合開發一個統一的對外服務平臺，降低用戶的使用門檻，提高開發效率。要做一個大數據服務平臺對平臺研發人員的能力有着較高的要求，目前這塊做的好的都是一些大廠。今天我

2020-06-25 11:35:17

flink kafka connector處理複雜json字符串，直接上代碼。 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvi

2020-06-25 11:35:17

使用過spark的人都知道廣播變量這個概念。廣播變量相當於一個共享變量，將一個小數據集複製分發到每個task，task直接從本地讀取。flink中有兩種廣播變量，一種靜態的廣播變量，一種實時動態的廣播變量。靜態廣播變量

2020-06-25 11:35:17

flink提供很多訪問其他數據源的連接器，訪問其他第三方數據源變得簡單高效。下面就是flink提供的一些連接器，使用時只需引入需要的包。在使用flink處理數據後，我們經常會將結果寫入數據庫，供其它業務使用。 pri

2020-06-25 11:35:17

hive執行 sql 語句 select * from table where c in (....) 出現異常，異常日誌如下： java.lang.RuntimeException: org.apache.had

2020-06-25 11:35:17

spark streaming程序提交出現如下異常： java.lang.AbstractMethodError at org.apache.spark.internal.Logging$class.initializeLogIfN

2020-06-25 11:35:17

使用flink table api 連接kafka 處理json類型數據，單層json處理比較簡單，官方或網上都有很多例子，處理嵌套的json數據沒什麼介紹。處理嵌套json數據主要是schema定義。 Strea

2020-06-25 11:35:17

flink1.10對ddl這塊支持比較完善，最近用java寫了個ddl kafka的demo測試。在ide本地環境中執行沒有問題，但將任務打包提交的flink 集羣時提交就報錯，無法執行，異常如下：看異常好像是ddl寫錯了，本地運

2020-06-25 11:35:17

sqoop導數失敗，異常日誌： java.io.IOException: 0.0014953855428494540903836009476087637386843889123302851247769723690792198311859

2020-05-09 10:33:46

最近hbase查詢出現異常，hbase監控都正常，異常如下： hbase(main):003:0> get 'w:t','xxxx' COLUMN

2020-03-12 07:38:39

最近遇到hive執行create,drop table語句時出現延時其它語句正常，平時秒級現在都需要200s才完成。經過排查發現有個用戶使用手機號做動態分區字段，導致一下有上百萬分區寫入，hive metastore server出現問

2020-02-25 00:58:48

使用flink進行數據處理時，我們經常會需要跟外部系統交換，比如查詢mysql。每一條數據都訪問一次外部系統，等待響應，再往下執行，這種等待會佔用很大一部分數據處理時間。爲此flink提供了異步IO API，異步訪問外部系統

2020-02-25 00:58:48

hue hive sql查詢下載結果出現如下異常，給官方提了個issues說後面的新版本修復了，看了下源碼那段確實修改了。通過查看hue後臺日誌找到異常代碼。我用的是cdh5.14.4解決方法，修改 /opt/cloudera

2020-02-25 00:58:48

Hue是開源的大數據工作平臺,集成了hive，impala，spark,hadoop，sentry ,oozie，hbase等常用大數據服務，基本能滿足絕大部分公司的業務日常使用。作爲公司對業務開放的開發平臺必須穩定，高性能。我們

2019-08-23 07:46:34