flink实战--维度join方案在Flink中的实现总结

原創

2020-06-22 11:42

扫一扫加入大数据公众号和技术交流群，了解更多大数据技术，还有免费资料等你哦

维度join运用场景简介

维度或者是维表是来自数据仓库维度建模中的概念，区别于事实表业务真实发生的数据，通常用来表示业务属性，比喻订单业务中，商品属性、商家属性都可以称之为维度表。在flink 流处理实时分析中或者实时数仓中，同样需要使用维表来完成一些数据过滤或者字段补齐操作，但是我们所需要的维度数据通常存储在Mysql/Redis/Hbase/Es这样的外部数据库中，并且可能是会随时变动的，根据业务要求数据的时效性，需要不同程度的感知维表数据的变化，在实际使用中常常会有以下几种方案可供选择：

全量加载到内存：在维度数据量比较小并且业务要求的时效性不高，可以定时全量加载维度数据到内存中，直接从内存中查询维度数据；
热数据缓存+淘汰机制：在维度数据量比较大并且业务要求的时效性不高，这时候全量加载就会撑爆内存，可以使用LRU的缓存策略，当缓存的维度数据达到一定大小，采用淘汰最近最少使用的数据，同时还可以设置数据的

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

flink实战--状态管理（State TTL、Operator state、Keyed state)

掃一掃加入大數據公衆號和技術交流羣，瞭解更多大數據技術，還有免費資料等你哦簡介 Flink官網的自我介紹：Apache Flink® — Stateful Computations over Data S

2020-06-22 12:51:03

flink实战--反压机制与背压指标计算原理

掃一掃加入大數據公衆號和技術交流羣，瞭解更多大數據技術，還有免費資料等你哦簡介流處理系統必須能優雅地處理反壓（backpressure）問題，因爲實時流處理必然會遇到這樣的場景：短時負載高峯導致系統

2020-06-22 11:42:15

flink实战--广播状态的使用

掃一掃加入大數據公衆號和技術交流羣，瞭解更多大數據技術，還有免費資料等你哦 BroadcastState簡介 Broadcast State 是 Flink 1.5 引入的新特性。在開發過程中，如果遇到需要

2020-06-22 11:42:05

flink实战--分布式缓存Distributed Cache

掃一掃加入大數據公衆號和技術交流羣，瞭解更多大數據技術，還有免費資料等你哦簡介 Flink提供了一個分佈式緩存，在flink流處理或者批處理，用戶在並行函數中可以很方便的讀取本地文件，並把它放在taskman

2020-06-22 11:42:04

flink实战--如何自定义具有Exactly-Once语义的sink（TwoPhaseCommitSinkFunction）

掃一掃加入大數據公衆號和技術交流羣，瞭解更多大數據技術，還有免費資料等你哦 Exactly-Once 語義 exactly-once語義指的是每個輸入的事件隻影響最終結果一次。即使機器或軟件出現故障，既沒有重複

2020-06-22 11:42:04

flink实战--性能优化

掃一掃加入大數據公衆號和技術交流羣，瞭解更多大數據技術，還有免費資料等你哦優化點一：序列化對於分佈式計算來講，數據的傳輸效率非常重要。好的序列化框架可以通過較低的序列化時間和較低的內存佔用大大提高計

2020-06-22 11:42:04

flink实战--读写Hive（Flink on Hive）

掃一掃加入大數據公衆號和技術交流羣，瞭解更多大數據技術，還有免費資料等你哦 Flink on Hive 介紹 Apache Flink 從 1.9.0 版本開始增加了與 Hive

2020-06-22 11:42:04

flink实战--flink面试题大全

掃一掃加入大數據公衆號和技術交流羣，瞭解更多大數據技術，還有免費資料等你哦目錄第一部分：Flink 中的核心概念和基礎考察一、簡單介紹一下 Flink

2020-06-22 11:42:04

flink实战--数据写入clickhouse

簡介 Clickhouse 支持http協議的web方式進行訪問，也支持JDBC或者ODBC的驅動程序的客戶端進行訪問，我們使用Flink操作Clickhouse,可以按照操作mysql一樣的方式通過JDBC進行訪

2020-06-22 11:42:04

flink实战--累加器（accumulator）如何使用

掃一掃加入大數據公衆號和技術交流羣，瞭解更多大數據技術，還有免費資料等你哦簡介 Flink的Accumulators(累加器)相比spark的累加器，使用起來是非常簡單的。通過一個add操作累加最終的結果，在

2020-06-22 11:42:04

PyFlink实战--PyFlink安装与入门介绍

掃一掃加入大數據公衆號和技術交流羣，瞭解更多大數據技術，還有免費資料等你哦簡介 PyFlink 是什麼？簡單點說就是 Flink + Python，也就是 Flink on Python，

2020-06-22 11:42:04

flink实战--flink读取hdfs目录下多个文件（递归、正则匹配）

2020-06-02 17:00:47

flink实战--实战案例

2020-06-02 17:00:47

flink实战--flink原理解析

2020-06-02 17:00:47

flink实战--水印（watermark）终极总结

2020-06-02 17:00:47

24小時熱門文章

最新文章

最新評論文章