原创 Spark源碼環境問題

異常1 點擊idea–build–build project,或者打開源碼顯示導入異常。但是maven包都是下載好了的 Error:(45, 66) not found: type SparkFlumeProtocol val

原创 NodeManager 下線

hadoop nodemanager如何安全的下線,不影響線上數據,在這裏記錄一下備忘。 1.配置 在yarn-site.xml文件中增加以下配置,avtive和standby ResourceManager都需要添加。 <p

原创 HBase平滑重啓-不影響業務

hbase 在不影響業務的情況下,如何安全平滑的升級參數並重啓呢 滾動重啓regionserver ./graceful_stop.sh --restart --reload --debug --maxthreads 10 {

原创 HBase Snapshot 遷移: snapshot.ExportSnapshot: Snapshot export failed

測試HBase數據遷移時出現MR OOM問題,在這裏記錄一下解決方法,以防忘記 異常信息 ./hbase org.apache.hadoop.hbase.snapshot.ExportSnapshot -snapshot cl

原创 HBase跨集羣遷移

背景:假設有hbase1和hbase2兩個集羣,現在需要將hbase1的表遷移到hbase2,而且不能停止服務的運行。 準備工作 開啓hbase.replication功能 設置hbase-site.xml中hbase.re

原创 Hadoop集羣寫數據異常--timeout while waiting for channel to be ready for write

今天kylin寫數據到HBase到HDFS是報錯: timeout while waiting for channel to be ready for write 具體異常如下: 2019-07-05 11:18:10,862 W

原创 大數據面試--騰訊電話面試

1.自我介紹 2.在簡歷中挑2個自己任務有代表性的項目做介紹,架構介紹,自己承擔的職責,遇到的挑戰,有哪些困難。 3.Hive on spark和 Impala對比,調研時後詳細的數據對比,爲什麼選擇了Hive on spark

原创 Apache Kylin清理無用的HBASE Table

前言 由於kylin在每次構建cube後都會生成新的hbase table , 所以運行一段時間後,hbase region數量會上漲厲害,所以需要定時對kylin的hbase 數據進行清理 清理步驟 cd ${KYLIN_H

原创 Hadoop DataNode 下線操作

hadoop datanode如何安全的下線,不影響線上數據,在這裏記錄一下備忘。 前提 在namenode機器的hdfs-site.xml中必須包含以下配置,在standby namode同樣加上: <property>

原创 Apache HBASE 下線RegionServer

前言 假如hbase機器出現問題,需要對hbase的regionserver進行下線,如何平滑下線且不影響服務正常運行 下線步驟 cat ${HBASE_HOME}/conf/regionserver文件 找到要下線的regi

原创 二、Spark源碼-- RDD生成及轉換過程

本篇從源碼角度介紹下RDD的生成和轉換過程 RDD生成過程 RDD生成有幾種方式,最常用的是sparkContext.textFile方法 def textFile( path: String, minP

原创 三、Spark源碼--Spark On Yarn 提交過程

本篇主要記錄看源碼的一個執行過程路徑,簡要記錄,方便以後理清思路,或者給正在看源碼的提供一個思路。還是對着源碼看看相信會有很大的收穫。 入口 spark 提交的任務入口都是SparkSubmit,從SparkSubmit.sc

原创 一、Spark基礎概念

Spark基礎概念 RDD 彈性分佈式數據集 彈性:當內存計算資源不足時,可以刷到磁盤上,rdd使用checkpoint在數據更新和丟失後對數據模型進行重建 分佈式:可以分佈在多臺機器上進行計算 數據集:一組只讀的,可

原创 二十七、Flink源碼閱讀--checkpoint原理

flink checkpoint 原理是在源碼中怎麼實現的,本篇從源碼角度深入理解 API設置 設置checkpoint參數相關代碼 final StreamExecutionEnvironment env = StreamE

原创 二十六、Flink源碼閱讀--sql執行轉換過程

flink sql 在執行中是如何從sql語句或者是table api 轉爲最後的DataStream任務或者是DataSet任務的,本篇我們從源碼角度看下中間的執行和轉換過程。 DEMO 這是flink的一個單元測試方法,模