原创 spark、hadoop大數據計算面試題彙總

地址:https://developer.aliyun.com/ask/256456?utm_content=g_1000084791 Hadoop 相關試題 Hive 相關試題 hive表關聯查詢,如何解決數據傾斜的問題? hi

原创 hive源碼編譯

hive 源碼編譯 mvn clean package -Pdist -DskipTests 編譯完成後,打包後的 .tar.gz 文件在 packaging/target 下

原创 spark streaming任務,讀kafka寫入mysql

1.背景 spark streaming direct方式讀取kafka消息,設置checkpoint 並寫入mysql 2.發送數據到kafka package com.bigdata.kafka; import java.u

原创 一、Spark官網走讀筆記

Spark基礎概念 RDD 彈性分佈式數據集 彈性:當內存計算資源不足時,可以刷到磁盤上,rdd使用checkpoint在數據更新和丟失後對數據模型進行重建 分佈式:可以分佈在多臺機器上進行計算 數據集:一組只讀的,可

原创 二十四、Flink進階--Flink sql轉換爲JobGraph過程

1.轉換圖 1.sql解析得到sqlNode Tree 2.validator去FunctionCatalog驗證udf相關,去CatalogManager驗證database相關 3.驗證通過會得到一個operation da

原创 mysql 添加用戶並授權

給mysql數據庫添加一個用戶並授權,在這裏記錄一下: 例子是創建了一個xiaoming賬號,密碼123456,可以訪問wangzhe庫 創建用戶: create user xiaoming identified by ‘1234

原创 二十一、Flink源碼閱讀--ExecutionGraph生成過程

在上一篇服務端處理jobGraph提到,jobGraph是轉換爲executionGraph,最後被執行調度的,那麼本篇我們看下這一過程的源碼 源碼分析 從JobMaster的啓動開始講起 JobMaster.start—>J

原创 十九、Flink源碼閱讀--TaskManager啓動過程

本篇我們接這上篇JobManager啓動後,來看下TaskManager啓動前後的源碼。 TM的啓動入口類爲:org.apache.flink.runtime.taskexecutor.TaskManagerRunner 源碼

原创 十五、Flink源碼閱讀--StreamGraph生成過程

本篇我們將介紹下StreamGraph的生成過程 源碼分析 以WordCount爲例子 final StreamExecutionEnvironment env = StreamExecutionEnvironment.get

原创 九、Flink入門--SQL實戰

Flink-Sql 實戰案例1.環境準備2.實戰演示2.1 需求一(出現在紐約的行車記錄)2.2 需求二(計算搭載每種乘客數量的行車記錄數)2.3 需求三(計算紐約市每個區域5分鐘的進入車輛數)2.4 需求四(將每10分鐘搭乘的乘

原创 二十三、Apache Flink常見問題彙總

本篇主要記錄一些Flink生產或者是原理方面的問題 問題彙總(不定時更新) 1.flink如何處理背壓問題? 2.flink sql 轉換爲DataStream或DataSet任務的原理是什麼?詳細過程描述 3.flink c

原创 二十二、Flink源碼閱讀--Task執行過程

在Flink JobMaster中生成ExecutionGraph和物理執行計劃後,Task是如何提交和執行的呢,本篇我們看下這部分的源碼 源碼分析 Execution.deploy ===> public void depl

原创 六、Flink入門--Window理解

Window理解1.Flink Window 概述1.1Window Api使用1.2 window 生命週期1.3 有key窗口和無key窗口2.Window內部實現2.1 window Assigner2.2 Window F

原创 十一、Flink進階--Time深度解析

Time深度解析1. 概述1.1設置一個時間特徵1.2EventTime 和 Watermark2.TimeStamps/WaterMark2.1TimeStamp的分配和WaterMark的生成2.2 watermark傳播2.

原创 十八、Flink源碼閱讀--JobManager啓動過程

本文我們詳細看下Jm的啓動步驟,主要看下stand-alone模式下Jm的啓動,在關鍵步驟是穿插on-yarn模式的說明 入口分析 從flink安裝包的bin/start-cluster.sh分析開始,會發現Jm的主類org.