台部落疯狂哈丘

先佔個坑，後面來補

2020-06-20 00:13:16

文章目錄一、基本使用及參數介紹二、top界面各個維度的含義1、第一行（系統相關統計信息）load average 解釋2、第二行（進程統計信息）3、第三行（cpu相關信息）4、第四行（內存信息）5、第五行（虛擬內存信息）6、第六行

2020-06-19 17:13:09

文章目錄一、grep 命令介紹二、grep、egrep、fgrep區別基礎的正則表達式和擴展的正則表達式三、參數介紹四、一些demo4.1 在某個目錄下搜索字符串4.2 使用後向引用來匹配4.3 匹配5行後立即退出五、參考文檔一

2020-06-19 17:13:09

文章目錄一、問題描述二、問題排查進度三、Hive執行任務的具體邏輯3.1、Hive源碼解析3.2、生成重複job問題分析四、問題總結和代碼修復一、問題描述業務反饋某張表的落地數據總大小比平時多了一倍。平時正常落地6-7G，而

2020-06-08 12:28:51

文章目錄一、問題描述二、動態資源相關原理初試executor數量executor數量的變動1、Executor Add2、Executor Remove三、問題定位Spark Task的本地化調度本地化調度級別沒有及時推進導致的問

2020-06-08 12:28:51

文章目錄一、Spark Thrift Server介紹二、部署Spark Thrift Server三、Spark Thrift Server的架構四、Spark Thrift Server如何執行SQL五、和HiveServer

2020-06-08 12:28:51

文章目錄一、Spark Streaming 原理概述二、DStream生成RDD實例的過程1、什麼是DStream2、DStreamGraph3、通過DStream生成RDD實例3.1 何時生成RDD實例3.2 如何通過DStre

2020-06-08 12:28:51

文章目錄一、更新jar包時的一些現象二、jar包加載測試2.1、測試前的準備2.2、測試方案一2.3、測試方案二三、結論一、更新jar包時的一些現象我們在更新jar包時，經常會對舊的jar包做備份。目前常見的備份方式有以下幾種

2020-03-02 14:57:07

原文鏈接：https://mp.weixin.qq.com/s/LA2qSOaWaE6K4Y2fwQIabw 導讀：美圖日益增長的龐大數據和計算任務，對大數據集羣的計算能力、存儲能力、穩定性、擴

2019-09-05 19:50:38

文章目錄一、Hbase中的4大組件1、hbase-client2、Zookeeper3、HMaster4、HRegionServer二、Hbase 組件的HA保證1、zk的HA保證2、HMaster的HA保證3、HRegionSe

2019-08-28 20:41:23

文章目錄一、命令相關參數二、輸出信息1、cpu部分的統計2、磁盤部分的統計三、一些擴展參考資料當我們要看系統IO情況時，一般最先想到的應該就是iostat命令的。iostat提供了豐富的參數給我們查詢各種維度的io數據。學習io

2019-08-05 19:07:17

文章目錄一、問題描述二、問題分析三、總結一、問題描述有業務反饋spark任務結束後會遺留一些attempt目錄在輸出目錄上，影響數據的讀取。主要現象如下：二、問題分析之前排查過一個類似的問題，也是輸出目錄下有個遺留的_t

2019-08-05 19:07:17

文章目錄一、問題描述二、問題分析1、第一次失敗（yarn的磁盤健康檢查機制導致的任務失敗）2、第二次失敗（map和reduce資源競爭導致的死鎖）三、總結參考資料一、問題描述今天有業務反饋有個MapReduce任務運行很慢，於

2019-07-31 20:03:44

文章目錄一、如何調整任務map數量1、FileInputFormat的實現邏輯介紹1.1 getSplits方法實現2、CombineFileInputFormat的實現邏輯介紹2.1 getSplits方法實現3、HiveInp

2019-07-30 20:52:52

文章目錄一、_SUCCESS的作用和實現1、輸出 _SUCCESS 文件的代碼實現二、Hive任務導出數據時沒生成_SUCCESS的原因三、解決方案1、自己實現一個OutputCommitter替代NullOutputCommi

2019-07-02 20:12:23