台部落Deegue

1、背景爲了分析HDFS文件生命週期，需要獲取一定深度的HDFS目錄。 2、實現 static final String hdfsBaseDir = "hdfs://nameservice1:8020";

2020-05-19 11:47:06

1、背景 Spark Codegen是在CBO&RBO後，將算子的底層邏輯用代碼來實現的一種優化。具體包括Expression級別和WholeStage級別的Codegen。 2、舉例說明 ① Expression級別：摘一個網

2020-04-24 02:08:12

1、糾刪碼(Erasure Coding) 目的：爲了節省HDFS存儲空間成本。實現： dfs.namenode.ec.system.default.policy默認使用了RS-6-3-1024k，即原6*3(副本)=18份，

2020-04-19 13:21:28

1、前言前段時間，在升級Hive版本(從Hive1.1.0升級至Hive2.3.6)的過程中，遇到了權限兼容問題。（升級相關請移步Hive1.1.0升級至2.3.6 踩坑記錄） Hive1.1.0使用的是AuthorizerV

2020-03-14 00:49:38

官方文檔地址： http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/ViewFs.html 1、簡介 ViewFs是用來管理多個Hadoop

2020-02-27 21:05:55

1、Hive執行SQL的主要流程及Hive架構 Hive執行SQL的主要流程圖看着有很多階段，實際上很簡單。Hive就是把SQL通過AST解析，然後遍歷若干次(進行算子替換以及優化)，最後再次遍歷算子，如果爲reduceSink

2020-02-22 03:38:44

爲什麼要看GC日誌？因爲JVM的GC狀態能在很大程度上衡量一個Java應用是否健康，在相同條件下能否持續穩定運行。 G1和CMS在日誌上會有些許的區別，由於平時用G1爲主，這邊就不提CMS了。 G1日誌詳解本文參考了RedHa

2019-09-26 21:32:00

背景最近在做離線batch任務執行的中間件，目標將線上所有的批任務都接過來，以便Hive向Spark 遷移，對任務整個鏈路追蹤（從開始預執行，到執行引擎選擇，到執行日誌收集，到執行完成後結果分析是否傾斜等等）。在做自適應選擇

2019-08-28 22:49:37

數據傾斜在分佈式計算中是一個很常見的問題，Spark提供了一種比較便捷的方法來處理一些簡單的數據傾斜場景。 Spark中定位數據傾斜 1、找到耗時長的stage並確定爲shuffle stage。 2、給所有的task按照shuf

2019-08-01 22:11:06

爲什麼研究Dynamic Allocation的源碼？在線上任務執行的過程中，有些任務佔用着Yarn資源卻並行度極低，比如申請了100核cpu(現象持續時間超過了executor idle time)，但那個stage只有9個r

2019-07-30 09:16:40

問題描述我們在用Spark ThriftServer（以下簡稱STS）用在查詢平臺時，遇到了以下報錯： ERROR SparkExecuteStatementOperation: Error executing query, c

2019-07-02 22:08:50

起因分析師A：哇你們這個數據查詢平臺查Spark ，同樣的SQL結果每次都不同，這能用？我：？？？第一反應是你八成是在查一張，別人在更新數據的表吧。。（同個SQL也會去跑兩遍小聲bb）排查過程過了一會兒，分析師A：看了

2019-06-19 23:17:15

前言 LockSupport是concurrent包中一個工具類，不支持構造，提供了一堆static方法，比如park(),unpark()等。 LockSupport中的主要成員及其加載時的初始化：不難發現，他們在初始化的時

2019-06-11 01:54:06

前言 CyclicBarrier和CountDownLatch這兩個工具都是在java.util.concurrent包下，並且平時很多場景都會使用到。本文將會對兩者進行分析，記錄他們的用法和區別。 CountDownLatch

2019-06-11 01:54:06

ThreadLocal是什麼 ThreadLocal是一個本地線程副本變量工具類。主要用於將私有線程和該線程存放的副本對象做一個映射，各個線程之間的變量互不干擾，在高併發場景下，可以實現無狀態的調用，特別適用於各個線程依賴不通的變量值

2019-05-14 23:03:17