原创 kafka常見的數據丟失

鏈接: 作者:hipeer 該文章總結了目前出現的所有丟失情況,收益匪淺,特此轉發出來。以供後期查找收錄 常見的數據丟失 如果auto.commit.enable=true,當consumer fetch了一些數據但還沒有完全處理

原创 spark on hive任務丟失parquet.io.ParquetDecodingException: Can not read value at 0 in block

解決一個問題記錄一下: spark提交任務,發現任務意外job aborted 無法繼續跑。根據任務發現是利用sparksql 查詢某張表的時候,讀parquet出了問題.困擾很久,把程序改了很久,才從網上找到了帖子,希望能夠幫到

原创 kafka拉取數據報錯

錯誤如下: Commit cannot be completed since the group has already rebalanced and assigned the partitions to another memb

原创 sparksql小文件生成過多,導致job之間任務出現大量空白時間

由於時間久遠。該問題十分具有代表性。所以今天將其記錄一下。 本人使用的是華爲C70集羣,spark1.5.1的版本,由於版本問題。原先批處理一個小時的程序變慢一倍。達到2小時的處理時長。以jstack和jstat的方式大量觀察,排

原创 Kerberos與phoenix整合所遇問題

本人使用的爲phoenix 5.0.x 以及集羣hdp3.1 hbase 2.0.2 報錯信息爲 19/08/27 14:32:09 INFO RpcRetryingCallerImpl :Call exception, tri

原创 Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.2.2:compile問題解決

原文鏈接:https://blog.csdn.net/xiaoliuyiting/article/details/82667580 看一個轉載的帖子,非常有幫助 鏈接這裏:轉載原文 解決

原创 線性代數中矩陣的看法

其實一直都沒有搞懂爲什麼矩陣是怎麼個定義,爲什麼要變換,偶然看到一篇轉載文感覺十分深刻,希望幫助做數據的朋友一點幫助,深度好文 原文出處:https://blog.csdn.net/qq_37175369/article/deta

原创 hive一點小技巧後面持續更新

create table table1 as with tmp as (select * from table2…) select * from tmp; 直接通過臨時表+create table 方式來落地的hive語句;

原创 轉載hive空值判斷

https://blog.csdn.net/liyonghui123/article/details/84854029 hive中空值判斷基本分兩種 1)NULL 與 \N hive在底層數據中如何保存和標識NULL,是由 alt

原创 hdfs-indexer /hbase-indexer向solr創建索引報錯解決

我在使用hdfs-indexer向solr創建索引時候,mapreduce已經執行完了,但是到最後出現,其實下面這個報錯是從網上扣的,大致報錯信息是一致的。我是用hdfs-indexer向solr同步全量索引數據時候報的錯。 org.

原创 spark數據傾斜處理

本篇文章屬於轉載 原文出處 https://blog.csdn.net/lw_ghy/article/details/51419877 調優概述 有的時候,我們可能會遇到大數據計算中一個最棘手的問題——數據傾斜,此時Spark作業的性

原创 Spark jobhistory日誌清理

spark開啓history-server之後,app日誌會保存在制定的目錄下, 若yarn開啓日誌收集,也需要進行app-logs的自動清理,因爲項目組大數據平臺經常日誌太多,需要做清理,jobhistory中 也會經常出現長時間的l

原创 記錄oracle回寫的幾個解決方案

由於用的是spark1.5.1的版本,出現諸多想不到的bug,記錄下來,供大家參考。 首先說下我們的需求,是將hive的表進行回寫入oracle,必須使用sparksql這種形式,所以就不考慮sqoop,集羣的大數據平臺沒有sqoop組件

原创 關於sparksql使用hive讀寫oracale相關操作

在本人項目中涉及到spark相關讀寫問題,實際上我們項目做的是一個利用sparksql提高傳統業務數據的流轉速度的項目,使用hive中的數據並利用spark計算將數據回寫入oracle。 本人使用的是spark 1.5的版本,內網操作,

原创 spark記錄單個task卡住的,導致作業不結束的問題

實際上是由於數據的傾斜問題,採用reparation將數據重分區就ok了,還有一點可以加入spark推測機制來容錯複雜的集羣網絡環境,可能由於某個單節點存在異常,網絡不穩定或是磁盤io滿了,使用推測顯得尤爲重要。以下爲常見可調用參數: