原创 Hbase 讀寫流程分析

先佔個坑,後面來補

原创 【linux命令學習】— top 命令學習

文章目錄一、基本使用及參數介紹二、top界面各個維度的含義1、第一行(系統相關統計信息)load average 解釋2、第二行(進程統計信息)3、第三行(cpu相關信息)4、第四行(內存信息)5、第五行(虛擬內存信息)6、第六行

原创 【linux命令學習】— grep 命令學習

文章目錄一、grep 命令介紹二、grep、egrep、fgrep區別基礎的正則表達式和擴展的正則表達式三、參數介紹四、一些demo4.1 在某個目錄下搜索字符串4.2 使用後向引用來匹配4.3 匹配5行後立即退出五、參考文檔 一

原创 Hive on Mr Job重複執行問題排查

文章目錄一、問題描述二、問題排查進度三、Hive執行任務的具體邏輯3.1、Hive源碼解析3.2、生成重複job問題分析四、問題總結和代碼修復 一、問題描述 業務反饋某張表的落地數據總大小比平時多了一倍。 平時正常落地6-7G,而

原创 Spark 動態資源失效問題排查

文章目錄一、問題描述二、動態資源相關原理初試executor數量executor數量的變動1、Executor Add2、Executor Remove三、問題定位Spark Task的本地化調度本地化調度級別沒有及時推進導致的問

原创 Spark Thrift Server 架構和原理介紹

文章目錄一、Spark Thrift Server介紹二、部署Spark Thrift Server三、Spark Thrift Server的架構四、Spark Thrift Server如何執行SQL五、和HiveServer

原创 Spark Streaming架構原理剖析

文章目錄一、Spark Streaming 原理概述二、DStream生成RDD實例的過程1、什麼是DStream2、DStreamGraph3、通過DStream生成RDD實例3.1 何時生成RDD實例3.2 如何通過DStre

原创 備份jar包的一些坑

文章目錄一、更新jar包時的一些現象二、jar包加載測試2.1、測試前的準備2.2、測試方案一2.3、測試方案二三、結論 一、更新jar包時的一些現象 我們在更新jar包時,經常會對舊的jar包做備份。目前常見的備份方式有以下幾種

原创 【轉發】算力提升117%,資源使用下降50%,打開集羣優化正確姿勢

原文鏈接:https://mp.weixin.qq.com/s/LA2qSOaWaE6K4Y2fwQIabw 導讀:美圖日益增長的龐大數據和計算任務,對大數據集羣的計算能力、存儲能力、穩定性、擴

原创 Hbase中的各個組件介紹

文章目錄一、Hbase中的4大組件1、hbase-client2、Zookeeper3、HMaster4、HRegionServer二、Hbase 組件的HA保證1、zk的HA保證2、HMaster的HA保證3、HRegionSe

原创 【linux命令學習】— iostat 命令學習

文章目錄一、命令相關參數二、輸出信息1、cpu部分的統計2、磁盤部分的統計三、一些擴展參考資料 當我們要看系統IO情況時,一般最先想到的應該就是iostat命令的。iostat提供了豐富的參數給我們查詢各種維度的io數據。學習io

原创 Spark TaskAttempt目錄未刪除問題排查

文章目錄一、問題描述二、問題分析三、總結 一、問題描述 有業務反饋spark任務結束後會遺留一些attempt目錄在輸出目錄上,影響數據的讀取。主要現象如下: 二、問題分析 之前排查過一個類似的問題,也是輸出目錄下有個遺留的_t

原创 MapReduce任務運行慢問題排查

文章目錄一、問題描述二、問題分析1、第一次失敗(yarn的磁盤健康檢查機制導致的任務失敗)2、第二次失敗(map和reduce資源競爭導致的死鎖)三、總結參考資料 一、問題描述 今天有業務反饋有個MapReduce任務運行很慢,於

原创 【Hive任務優化】—— Map、Reduce數量調整

文章目錄一、如何調整任務map數量1、FileInputFormat的實現邏輯介紹1.1 getSplits方法實現2、CombineFileInputFormat的實現邏輯介紹2.1 getSplits方法實現3、HiveInp

原创 Hive導出數據時輸出_SUCCESS文件解決方案

文章目錄一、_SUCCESS的作用和實現1、 輸出 _SUCCESS 文件的代碼實現二、Hive任務導出數據時沒生成_SUCCESS的原因三、解決方案1、自己實現一個OutputCommitter替代NullOutputCommi