原创 Hive數據傾斜(調優)解決方案

       在做Shuffle階段的優化過程中,遇到了數據傾斜的問題,造成了對一些情況下優化效果不明顯。主要是因爲在Job完成後的所得到的Counters是整個Job的總和,優化是基於這些Counters得出的平均值,而由於數據傾斜的原

原创 Flink流式框架的狀態一致性

一、狀態一致性 1)有狀態的流處理,內部每個算子任務都可以有自己的狀態; 2)對於流處理器內部來說,所謂的狀態一致性,其實就是我們所說的計算結果要保證準確; 3)一條數據不應該丟失,也不應該重複計算; 4)在遇到故障時可以恢復狀態,恢復

原创 Flink流式框架中的時間語義和watermark

一、時間(Time)語義 1)Event Time:事件創建的時間; 2)Ingestion  Time:數據進入Flink的時間; 3)Processing  Time:執行操作算子的本地系統時間,與機器相關; 1、哪種時間語義更重要

原创 Flink流式處理框架中的CEP介紹

一、什麼是CEP 1)複雜事件處理(Complex  Event  Processing,CEP); 2)Flink CEP是在Flink中實現的複雜事件處理(CEP)庫; 3)CEP允許在無休止的事件流中檢測事件模式,讓我們有機會掌握數

原创 流處理框架Flink介紹

一、什麼是Flink Apache Flink is a framework and distributed processing engine for stateful computations over unbounded and b

原创 Flink流式計算框架中的窗口函數

一、窗口(window)   (1)一般真實的流都是無界的,怎樣處理無界的數據? (2)可以把無限的數據流進行切分,得到有限的數據集進行處理——也就是得到有界流; (3)窗口(window)就是將無限流切割爲有限流的一種方式,它會將流數

原创 流計算框架Flink的運行架構

一、Flink運行時的組件   1、作業管理器(JobManager) 1)控制一個應用程序執行的主進程,也就是說,每個應用程序都會被一個不同的JobManager所控制執行。 2)JobManager會先接收到要執行的應用程序,這個應

原创 Flink流式框架的狀態管理

一、Flink中的狀態 1)由一個任務維護,並且用來計算某個結果的所有數據,都屬於這個任務的狀態; 2)可以認爲狀態就是一個本地變量,可以被任務的業務邏輯訪問; 3)Flink會進行狀態管理,包括狀態一致性、故障處理以及高效存儲和訪問,

原创 MapReduce實現倒排索引(Inverted Index)

前言:"倒排索引"是文檔檢索系統中最常用的數據結構,被廣泛地應用於全文搜索引擎。它主要是用來存儲某個單詞(或詞組)在一個文檔或一組文檔中的存儲位置的映射,即提供了一種根據內容來查找文檔的方式。由於不是根據文檔來確定文檔所包含的內容,而是進

原创 Flink流式框架的容錯機制

一、一致性檢查點(checkpoint) 1)Flink故障恢復機制的核心,就是應用狀態的一致性檢查點; 2)有狀態流應用的一致檢查點,其實就是所有任務的狀態,在某個時間點的一份拷貝(一份快照);這個時間點,應該是所有任務都恰好處理完一

原创 Flink流式處理框架中的Table API和Flink SQL

一、Table  API和Flink  SQL是什麼? 1)Flink對批處理和流處理,提供了統一的上層API; 2)Table  API是一套內嵌在Java和Scala語言中的查詢API,它允許以非常直觀的方式組合來自一些關係運算符的查

原创 Apache Flink-什麼是Apache Flink?

原文:https://blog.csdn.net/javajxz008/article/details/82986682    Apache Flink是一個用於在有界和無界數據之上進行狀態計算的分佈式處理引擎和框架。其被設計出可以運行在

原创 MapReduce中的數據傾斜

原文鏈接:https://blog.csdn.net/core_cto/article/details/8644692 最近幾次被問到關於數據傾斜的問題,這裏找了些資料也結合一些自己的理解.  

原创 Shell中的Sed命令詳解

簡介 sed 是一種在線編輯器,它一次處理一行內容。處理時,把當前處理的行存儲在臨時緩衝區中,稱爲“模式空間”(pattern space),接着用sed命令處理緩衝區中的內容,處理完成後,把緩衝區的內容送往屏幕。接着處理下一行,這樣不斷

原创 Shell中的grep命令詳解

原文鏈接:https://www.cnblogs.com/ggjucheng/archive/2013/01/13/2856896.html 簡介 grep (global search reg