原创 Apache Flink 漫談系列(12) - Time Interval(Time-windowed) JOIN

說什麼 JOIN 算子是數據處理的核心算子,前面我們在《Apache Flink 漫談系列(09) - JOIN 算子》介紹了UnBounded的雙流JOIN,在《Apache Flink 漫談系列(10) - JOIN LATERAL》

原创 Apache Flink 漫談系列(10) - JOIN LATERAL

聊什麼 上一篇《Apache Flink 漫談系列 - JOIN算子》我們對最常見的JOIN做了詳盡的分析,本篇介紹一個特殊的JOIN,那就是JOIN LATERAL。JOIN LATERAL爲什麼特殊呢,直觀說因爲JOIN的右邊不是一個

原创 Apache Flink 漫談系列(11) - Temporal Table JOIN

什麼是Temporal Table 在《Apache Flink 漫談系列 - JOIN LATERAL》中提到了Temporal Table JOIN,本篇就向大家詳細介紹什麼是Temporal Table JOIN。 在ANSI-SQ

原创 Apache Flink 漫談系列(09) - JOIN 算子

聊什麼 在《Apache Flink 漫談系列 - SQL概覽》中我們介紹了JOIN算子的語義和基本的使用方式,介紹過程中大家發現Apache Flink在語法語義上是遵循ANSI-SQL標準的,那麼再深思一下傳統數據庫爲啥需要有JOIN

原创 別懵逼,用戶畫像其實是這麼回事兒

大數據研習社這個社羣運營至今,已有QQ羣50+,微信羣10+,微信/頭條/博客多維度覆蓋,觸及影響的大數據人羣20萬+。好學君發現,在大數據領域,大家討論比較多而且“來錢”最快的領域就是用戶畫像以及個性化推薦這塊兒啦。但很多同學又覺得用戶

原创 Apache Flink 漫談系列(07) - 持續查詢(Continuous Queries)

實際問題 我們知道在流計算場景中,數據是源源不斷的流入的,數據流永遠不會結束,那麼計算就永遠不會結束,如果計算永遠不會結束的話,那麼計算結果何時輸出呢?本篇將介紹Apache Flink利用持續查詢來對流計算結果進行持續輸出的實現原理。

原创 Apache Flink 漫談系列(08) - SQL概覽

SQL簡述 SQL是Structured Query Language的縮寫,最初是由美國計算機科學家Donald D. Chamberlin和Raymond F. Boyce在20世紀70年代早期從 Early History of S

原创 Apache Flink 漫談系列(05) - Fault Tolerance

實際問題 在流計算場景中,數據會源源不斷的流入Apache Flink系統,每條數據進入Apache Flink系統都會觸發計算。那麼在計算過程中如果網絡、機器等原因導致Task運行失敗了,Apache Flink會如何處理呢?在 《Ap

原创 Apache Flink 漫談系列(06) - 流表對偶(duality)性

實際問題 很多大數據計算產品,都對用戶提供了SQL API,比如Hive, Spark, Flink等,那麼SQL作爲傳統關係數據庫的查詢語言,是應用在批查詢場景的。Hive和Spark本質上都是Batch的計算模式(在《Apache F

原创 Apache Flink 漫談系列(01) - 序

Apache Flink 漫談系列會分享什麼呢?本系列分享的核心內容會圍繞 Apache Flink的核心特徵以及阿里巴巴對Apache Flink功能的豐富和性能、架構的優化進行深入剖析,從系統架構到具體每個算子的語義都會向讀者進行細緻

原创 Apache Flink 漫談系列(02) - 概述

Apache Flink 的命脈 "命脈" 即生命與血脈,常喻極爲重要的事物。系列的首篇,首篇的首段不聊Apache Flink的歷史,不聊Apache Flink的架構,不聊Apache Flink的功能特性,我們用一句話聊聊什麼是 A

原创 Apache Flink 漫談系列(03) - Watermark

實際問題(亂序) 在介紹Watermark相關內容之前我們先拋出一個具體的問題,在實際的流式計算中數據到來的順序對計算結果的正確性有至關重要的影響,比如:某數據源中的某些數據由於某種原因(如:網絡原因,外部存儲自身原因)會有5秒的延時,也

原创 Apache Flink 漫談系列(04) - State

實際問題 在流計算場景中,數據會源源不斷的流入Apache Flink系統,每條數據進入Apache Flink系統都會觸發計算。如果我們想進行一個Count聚合計算,那麼每次觸發計算是將歷史上所有流入的數據重新新計算一次,還是每次計算都

原创 月薪3萬+的大數據人都在瘋學Flink,爲什麼?

身處大數據圈近5年了,在我的概念裏一直認爲大數據最牛的兩個東西是Hadoop和Spark。18年下半年的時候,我突然發現身邊很多大數據牛人都是研究學習Flink,甚至連Spark都大有被冷落拋棄的感覺。何以至此,Flink是個什麼鬼?  

原创 Flink學習筆記:Connectors之kafka

說明:本文爲《Flink大數據項目實戰》學習筆記,想通過視頻系統學習Flink這個最火爆的大數據計算框架的同學,推薦學習CSDN官網課程: Flink大數據項目實戰:http://t.cn/ExrHPl9   1. Kafka-conne