台部落微步229

一、CDH主機列表中的平均負載中的三個數字如下圖，分別表示1分鐘、5分鐘、15分鐘的負載情況二、系統平均負載-基本解釋先大致給一下這3個數字的含義：分別表示系統在過去1分鐘、5分鐘、15分鐘內運行進程隊列中的平均進程數量。在L

2020-06-23 09:59:25

很好的一篇文章，轉載了http://blog.51cto.com/lizhenliang/2164876?wx= JAVA堆內存管理是影響性能主要因素之一。堆內存溢出是JAVA項目非常常見的故障，在解決該問題之前，必須先了解下JAVA堆

2020-06-07 18:49:02

小文件問題原因： spark.sql.shuffle.partitions=200 spark sql默認shuffle分區是200個，如果數據量比較小時，寫hdfs時會產生200個小文件。可通過如下調整，使其自適應的合併小文件(本人測

2020-06-07 18:49:02

一、問題現象：使用spark sql調用get_json_object函數後，報如下錯誤：yarn 容器被kill，導致任務失敗，查看日誌：Container killed by YARN for exceeding memory lim

2019-09-16 15:16:32

轉自：http://www.ha97.com/5673.html 隨着Apache Hadoop的起步，雲客戶的增多面臨的首要問題就是如何爲他們新的的Hadoop集羣選擇合適的硬件。儘管Hadoop被設計爲運行在行業標準的硬件上，提出一

2019-08-28 15:29:46

一、問題出現背景： spark-submit提交程序運行時報錯User class threw exception: java.sql.SQLException: No suitable driver，寫入oracle代碼如下： /*

2019-08-28 15:29:45

一、數據概念 1、髒數據所指的就是未提交的數據。也就是說，一個事務正在對一條記錄做修改，在這個事務完成並提交之前，這條數據是處於待定狀態的（可能提交也可能回滾），這時，第二個事務來讀取這條沒有提交的數據，並據此做進一步的處理，就會產生未提

2019-07-30 15:25:00

CMS並行GC收集器是大多數JAVA服務應用的最佳選擇，然而， CMS並不是完美的，在使用CMS的過程中會產生2個最讓人頭痛的問題： promotion failed 該問題是在進行Minor GC時，Survivor Space放不下，

2019-06-19 16:04:27

一、問題描述： Kafka生產集羣中有一臺機器cdh-003由於物理故障原因掛掉了，並且系統起不來了，使得線上的spark Streaming實時任務不能正常消費，重啓實時任務都不行。查看kafka topic狀態，發現broker Le

2019-06-10 16:20:28

問題現象：spark應用能正常計算得到結果，但是查看executor有很多是dead，如下圖查看executor stderr日誌發現有錯誤日誌：ERROR executor.CoarseGrainedExecutorBackend:

2019-05-08 21:24:06

112