原创 【大數據面試題】Flink第一彈60連發

感謝胖子大佬提供的企業面試題。本文因爲時間關係只有部分答案,後續的答案小編會持續補全,請持續關注本系列。年後升職加薪就靠它了。胖子大佬就在交流羣裏,需要加羣的公衆號回覆【加羣】。 更多面試題可以參考:《Flink面試通關手冊》 1、Flin

原创 Flink常見異常和錯誤信息小結

Flink的常見異常衆多,不可能面面俱到,所以想到哪兒寫到哪兒,有漏掉的之後再補充。部署和資源問題 (0) JDK版本過低這不是個顯式錯誤,但是JDK版本過低很有可能會導致Flink作業出現各種莫名其妙的問題,因此在生產環境中建議採用JDK

原创 如果你在準備面試,就好好看看這130道題

這些題目是一個知識星球的球友發給我的,其中有幾個題幫着解答了一下。希望對大家有幫助。 如果你不知道如何準備面試,那麼看看這個。 年假馬上來臨,我相信有不少讀者都在準備或者考慮面試,無論如何不妨收藏一下。 如果你某個題目不知道答案,那麼就去搜

原创 Flink入門(二)——Flink架構介紹

1、基本組件棧 瞭解Spark的朋友會發現Flink的架構和Spark是非常類似的,在整個軟件架構體系中,同樣遵循着分層的架構設計理念,在降低系統耦合度的同時,也爲上層用戶構建Flink應用提供了豐富且友好的接口。 https://mmbi

原创 Hive優化的十大方法

Hive用的好,才能從數據中挖掘出更多的信息來。用過hive的朋友,我想或多或少都有類似的經歷:一天下來,沒跑幾次hive,就到下班時間了。Hive在極大數據或者數據不平衡等情況下,表現往往一般,因此也出現了presto、spark-sql

原创 Flink入門(三)——環境與部署

flink是一款開源的大數據流式處理框架,他可以同時批處理和流處理,具有容錯性、高吞吐、低延遲等優勢,本文簡述flink在windows和linux中安裝步驟,和示例程序的運行,包括本地調試環境,集羣環境。另外介紹Flink的開發工程的構建

原创 企業數據中臺的建設

本文圍繞什麼是數據中臺,中臺怎麼建設,中臺產品怎麼選擇,案例分析介紹企業級數據中臺的建設。 什麼是數據中臺 數據中臺是指通過數據技術,對海量數據進行採集、計算、存儲、加工,同時統一標準和口徑。 數據中臺把數據統一之後,會形成標準數據,再進行

原创 Apache Spark在海致大數據平臺中的優化實踐

本文來自由海致網絡技術公司翟士丹分享。專注於大數據技術領域,Apache Spark Contributor,有豐富的Spark SQL引擎調優經驗。 海致全稱海致網絡技術公司,成立於2013年7月。作爲一家技術驅動的創業型公司,海致的創始

原创 Google布隆過濾器與Redis布隆過濾器詳解

一、什麼是布隆過濾器? 布隆過濾器可以用來判斷一個元素是否在一個集合中。它的優勢是只需要佔用很小的內存空間以及有着高效的查詢效率。 對於布隆過濾器而言,它的本質是一個位數組:位數組就是數組的每個元素都只佔用1bit ,並且每個元素只能是0或

原创 Flink SQL Window源碼全解析

文章目錄 一、概述 二、Window分類 1、TimeWindow與CountWindow 2、TimeWindow子類型 Tumble Window(翻轉窗口) Hop Window(滑動窗口) Session Window(會話窗口)

原创 Flink DataStream Join小規模維度數據的簡便方法

在編寫基於Flink的ETL程序時,我們經常需要用維度數據豐富我們接入的流式數據,如通過商品ID獲得商品名稱、通過商品分類ID獲得分類名稱等等。而維度表基本都位於外部存儲,換句話說,就是要解決一個無界的流式表與一個有界的碼錶或半靜態表做jo

原创 這個面試問題很難麼 | 如何處理大數據中的數據傾斜

數據傾斜 數據傾斜是我們在處理大數據量問題時繞不過去的問題,也是在面試中幾乎必問的考點。 正常的數據分佈理論上都是傾斜的,就是我們所說的'二八原理':80%的財富集中在20%的人手中, 80%的用戶只使用20%的功能 , 20%的用戶貢獻了

原创 阿里巴巴微服務架構演進

阿里巴巴服務化架構演進 單一應用架構 All In One 整個網站幾個應用 前臺 web + 後臺 ops + tasks 業務 web + service/dao 各自開發 一起集成發佈 技術戰:Webx、Spring Ibatis

原创 快手HBase在千億級用戶特徵數據分析中的應用與實踐

聲明:本文的原文是來自Hbase技術社區的一個PPT分享,個人做了整理和提煉。 大家注意哈,這種會議PPT類的東西能學習到的更多的是技術方案和他人在實踐過程中的經驗。希望對大家有幫助。 背景 快手每天產生數百億用戶特徵數據,分析師需要在跨3

原创 基於Kafka+Flink+Redis的電商大屏實時計算案例

前言 一年一度的雙11又要到了,阿里的雙11銷量大屏可以說是一道特殊的風景線。實時大屏(real-time dashboard)正在被越來越多的企業採用,用來及時呈現關鍵的數據指標。並且在實際操作中,肯定也不會僅僅計算一兩個維度。由於Fli