原创 Apache Flink v1.9(應用開發-Flink DataStream API編程指南-概述)

目錄 容錯 控制延遲 本地執行環境 收集數據源 迭代器數據接收器 Flink中的DataStream程序是實現數據流轉換的常規程序(例如,過濾,更新狀態,定義窗口,聚合)。最初從各種源(例如,消息隊列,套接字流,文件)創建數據流。結果通過

原创 Apache Flink v1.9(教程-設置教程)

本地安裝教程 只需幾個簡單的步驟即可啓動並運行Flink示例程序。 設置:下載並啓動Flink Flink可在Linux,Mac OS X和Windows上運行。爲了能夠運行Flink,唯一的要求是安裝一個有效的Java 8.x環

原创 數據倉庫的分層結構

爲什麼要分層? 分層的主要原因是在管理數據的時候,能對數據有一個更加清晰的掌控,詳細來講,主要有下面幾個原因: 數據結構清晰,每一個數據分層都有它的作用域,這樣我們在使用表的時候能更方便地定位和理解。 方便數據血緣追蹤,簡單來說,我們最終

原创 星型模型與雪花模型的區別、分別有哪些優缺點

概念 根據事實表和維度表的關係,可將常見的模型分爲星型模型和雪花模型。在數據倉庫的建設中,一般都會圍繞着這兩種模型來設計表關係或者結構。那麼什麼是事實表和維度表呢?在維度建模中,將度量稱爲“事實” ,將環境描述爲“維度”。維度是用於分析事

原创 數據迴流表情符問題處理

問題:sqoop迴流數據到mysql時,emoji表情符無法導入異常。 異常信息:Caused by: java.io.IOException: java.sql.SQLException: Incorrect string value:

原创 Apache Flink v1.9(基本概念-術語)

Flink Application Cluster(Flink應用程序集羣) Flink應用程序集羣是專用的Flink集羣,它僅執行一個獨立的Flink作業。Flink集羣的生命週期與Flink任務是綁定的。在job模式下,以前的Flin

原创 數據迴流upsert模式

背景 現有的數據迴流方案中,爲避免數據重複,有一些前置操作(delete/truncate)。在迴流之前執行這些操作會對查詢造成一些瞬時影響。 針對這種場景我們需要做一些優化(update or insert)。 適用場景 準實時項目迴流

原创 Apache Flink v1.8(應用開發-Flink DataStream API編程指南-概述)

目錄 容錯 控制延遲 本地執行環境 收集數據源 迭代器數據接收器 Flink中的DataStream程序是實現數據流轉換的常規程序(例如,過濾,更新狀態,定義窗口,聚合)。最初從各種源(例如,消息隊列,套接字流,文件)創建數據流。結果通過

原创 Apache Flink v1.8(教程-設置教程)

本地安裝教程 只需幾個簡單的步驟即可啓動並運行Flink示例程序。 設置:下載並啓動Flink Flink可在Linux,Mac OS X和Windows上運行。爲了能夠運行Flink,唯一的要求是安裝一個有效的Java 8.x環

原创 Apache Flink v1.8(首頁)

本文檔適用於Apache Flink 1.8版本。 這些頁面的創建時間爲:05/27/19, 01:02:09 AM UTC.。 Apache Flink是一個用於分佈式流和批數據處理的開源平臺。Flink的核心是一個流數據引擎,

原创 Apache Flink v1.8(概念-數據流編程模型)

抽象層次 Flink提供了不同級別的抽象來開發流/批處理應用程序。 最低級抽象只提供有狀態流。它通過Process Function嵌入到DataStream API中。它允許用戶自由處理來自一個或多個流的事件,並使用一致的容

原创 201803072050

突然想到《無問西東》裏的一句話:人把自己置身於忙碌當中,有一種麻木的踏實,但喪失了真實。 想想我們很多人都是這樣,只一味盲目地往前走,日子過得很累,卻不知道自己想要的到底是什麼。