原创 Flink基礎系列14-Source之自定義Source 一.代碼準備 二.運行程序 參考:

一.代碼準備 org.flink.beans.SensorReading package org.flink.beans; /** * @author 只是甲 * @date 2021-08-30 * @remark 傳感器溫度

原创 Flink基礎系列15-Tranform之基本轉換算子(map/flatMap/filter) 一.轉換算子 二.代碼 參考:

一.轉換算子 1.1 map 從如下圖解可以看到,map是一對一的操作,對dataStream中的計算,一對一輸出 DataStream<Integer> mapStram = dataStream.map(new MapFunctio

原创 Flink基礎系列16-Tranform之聚合操作算子 一.聚合操作算子簡介 二.代碼實現 參考:

一.聚合操作算子簡介 DataStream裏沒有reduce和sum這類聚合操作的方法,因爲Flink設計中,所有數據必須先分組才能做聚合操作。 先keyBy得到KeyedStream,然後調用其reduce、sum等聚合操作方法。(先分組

原创 Flink基礎系列13-Source之從Kafka讀取 一.環境介紹 二.代碼 三.打包代碼並執行 參考:

一.環境介紹 環境介紹 本地測試環境搭建了CDH 6.3集羣,集成了Kafka和Flink Maven配置 從官網找到的maven配置如下: <dependency> <groupId>org.apache.flink</groupI

原创 Flink基礎系列12-Source之從文件讀取 一.文件準備 二.程序準備 三.運行Flink程序 參考:

一.文件準備 sensor.txt sensor_1 1547718199 35.8 sensor_6 1547718201, 15.4 sensor_7 1547718202, 6.7 sensor_10 1547718205 38.1

原创 Flink基礎系列10-Flink Environment 一.Environment概述 參考:

一.Environment概述 一個Flink的程序是從一個Environment開始的 1.1 getExecutionEnvironment 創建一個執行環境,表示當前執行程序的上下文。如果程序是獨立調用的,則此方法返回本地執行環境

原创 Flink基礎系列11-Source之從集合讀取數據 一. 代碼準備 二.運行flink程序 參考:

一. 代碼準備 org.flink.beans.SensorReading package org.flink.beans; /** * @author 只是甲 * @date 2021-08-30 * @remark 傳感器溫

原创 Flink基礎系列7-通過Web UI執行jar文件 環境準備 一.準備代碼 二.打包 三.通過Web UI執行jar文件

環境準備 本地Windows環境已安裝Flink 1.9.0版本。 一.準備代碼 1.1 maven準備 配置Flink的依賴 <dependency> <groupId>org.apache.flink</groupId>

原创 Flink基礎系列3-windows安裝Flink 一.Flink下載 二.運行Flink 三.訪問 Flink UI 四.運行自帶的 WordCount 示例 參考:

一.Flink下載 本次以Flink 1.9.0版本爲例。 下載 flink-1.9.0-bin-scala_2.12.tgz 下載後解壓到 D:\flink\flink-1.9.0 目錄 如果需要其他版本,可以在如下鏈接下載: https

原创 Flink基礎系列6-flink run參數 參考:

執行 flink run 後參數: 參數說明 Action "run" compiles and runs a program. Syntax: run [OPTIONS] <jar-file> <arguments> "run" act

原创 Flink基礎系列5-Flink 配置文件參數 一.Flink配置文件概述 參考:

一.Flink配置文件概述 安裝目錄下主要有 flink-conf.yaml 配置、日誌的配置文件、zk 配置、Flink SQL Client 配置。 1.1 基礎配置 # jobManager 的IP地址 jobmanager.rpc.

原创 Flink基礎系列4-CDH6.3集成Flink1.9 一.準備工作 二.安裝Flink 三.FAQ 參考:

一.準備工作 1.1 CDH 6.3.1大數據平臺搭建 CDH 6.3 大數據平臺搭建 1.2 安裝方式討論 CDH本身不自帶Flink服務,安裝配置會比安裝Spark麻煩一些。 但是CDH提供了兩種安裝Flink的方式 parcels方

原创 Java-Spark系列10-Spark性能調優概述 一.Spark 性能優化概述 二.運行環境優化 三.RDD算子優化 四.參數微調 五.數據傾斜 六. Spark常用的調優參數 參考:

一.Spark 性能優化概述 首先筆者能力優先,使用Spark有一段時間,如下是筆者的工作經驗的總結。 Spark任務運行圖: Spark的優化思路: 一般是從3個層面進行Spark程序的優化: 運行環境優化 RDD算子優化 參數微調

原创 Flink基礎系列2-Flink部署 一. Standalone模式 二.yarn模式 三. Kubernetes部署 參考:

一. Standalone模式 1.1 Standalone模式概述 Flink 中每一個 TaskManager 都是一個JVM進程,它可能會在獨立的線程上執行一個或多個 subtask 爲了控制一個 TaskManager 能接收多少

原创 Flink基礎系列1-Flink介紹 概述: 一.Flink體系結構介紹 二.應用程序 三. 操作 參考:

概述: Apache Flink是一個框架和分佈式處理引擎,用於在無界和有界數據流上進行有狀態計算。Flink被設計成可以在所有常見的集羣環境中運行,以內存速度和任何規模執行計算。 一.Flink體系結構介紹 1.1 處理無界和有界數據 任