原创 CDH中所有主機平均負載含義

一、CDH主機列表中的平均負載中的三個數字如下圖,分別表示1分鐘、5分鐘、15分鐘的負載情況   二、系統平均負載-基本解釋 先大致給一下這3個數字的含義:分別表示系統在過去1分鐘、5分鐘、15分鐘內運行進程隊列中的平均進程數量。 在L

原创 JVM堆內存(heap)詳解

很好的一篇文章,轉載了http://blog.51cto.com/lizhenliang/2164876?wx= JAVA堆內存管理是影響性能主要因素之一。 堆內存溢出是JAVA項目非常常見的故障,在解決該問題之前,必須先了解下JAVA堆

原创 Spark SQL合併小文件的一種方法

小文件問題原因: spark.sql.shuffle.partitions=200  spark sql默認shuffle分區是200個,如果數據量比較小時,寫hdfs時會產生200個小文件。可通過如下調整,使其自適應的合併小文件(本人測

原创 記一次Spark中 Container killed by YARN for exceeding memory limits的解決過程

一、問題現象:使用spark sql調用get_json_object函數後,報如下錯誤:yarn 容器被kill,導致任務失敗,查看日誌:Container killed by YARN for exceeding memory lim

原创 Hadoop集羣硬件選擇

轉自:http://www.ha97.com/5673.html 隨着Apache Hadoop的起步,雲客戶的增多面臨的首要問題就是如何爲他們新的的Hadoop集羣選擇合適的硬件。 儘管Hadoop被設計爲運行在行業標準的硬件上,提出一

原创 spark-submit提交報錯: java.sql.SQLException: No suitable driver解決方法

一、問題出現背景: spark-submit提交程序運行時報錯User class threw exception: java.sql.SQLException: No suitable driver, 寫入oracle代碼如下: /*

原创 數據庫髒讀、事務的四大特性、四大隔離級別、三大範式

一、數據概念 1、髒數據所指的就是未提交的數據。也就是說,一個事務正在對一條記錄做修改,在這個事務完成並提交之前,這條數據是處於待定狀態的(可能提交也可能回滾),這時,第二個事務來讀取這條沒有提交的數據,並據此做進一步的處理,就會產生未提

原创 CMS之promotion failed&concurrent mode failure

CMS並行GC收集器是大多數JAVA服務應用的最佳選擇,然而, CMS並不是完美的,在使用CMS的過程中會產生2個最讓人頭痛的問題: promotion failed 該問題是在進行Minor GC時,Survivor Space放不下,

原创 kafka broker Leader -1引起spark Streaming不能消費的故障解決方法

一、問題描述: Kafka生產集羣中有一臺機器cdh-003由於物理故障原因掛掉了,並且系統起不來了,使得線上的spark Streaming實時任務不能正常消費,重啓實時任務都不行。查看kafka topic狀態,發現broker Le

原创 ERROR executor.CoarseGrainedExecutorBackend: RECEIVED SIGNAL TERM的一種解決方案

問題現象:spark應用能正常計算得到結果,但是查看executor有很多是dead,如下圖 查看executor stderr日誌發現有錯誤日誌:ERROR executor.CoarseGrainedExecutorBackend:

原创 Hive修改列名

修改字段名方法: ALTER TABLE 表名 CHANGE 舊字段 新字段 類型; 舉例: hive> desc jsontest; OK id                      string                

原创 Hive on Spark 調優

hive on spark 性能遠比hive on mr 要好,而且提供了一樣的功能。用戶的sql無需修改就可以直接運行於hive on spark。 udf函數也是全部支持。個人覺得還不錯的一篇Hive on Spark 調優,做個記錄

原创 HiveServer2(Spark ThriftServer)自定義權限認證

Hive 除了爲我們提供一個 CLI 方式來查詢數據之外,還給我們提供了基於 JDBC/ODBC 的方式來連接 Hive,這就是 HiveServer2(HiveServer)。但是默認情況下通過 JDBC 連接 HiveServer2

原创 hue解決下載10萬行的限制

一、問題描述:通過HUE impala/hive查詢後,導出查詢結果集最多隻有10萬行   二、問題原因:Hue默認配置原因,默認現在行數爲10萬行,列數爲100列 注意:應該以hue管理員賬戶登錄,否則看不到配置   三、解決方案:修

原创 某大型跨境電商JVM調優總結

轉自:https://scholers.iteye.com/blog/2411414 前提: 某大型跨境電商業務發展非常快,線上機器擴容也很頻繁,但是對於線上機器的運行情況,特別是jvm內存的情況,一直沒有一個統一的標準來給到各個應用服務