快遞質量監控實時統計方案設計

原創

2020-06-12 21:35

目錄

數據流程圖和關係

數據流程圖

數據流程關係

框架和版本

數據同步問題

es 查詢問題

es 查詢問題

方案四（選擇方案）

es 查詢問題

數據流程圖和關係

數據流程圖

數據流程關係

一對一：收，收件入庫，派，問題件，留倉件，簽收；發到

一對多（多對一）：收（收件入庫，派，問題件，留倉件，簽收）和發（到）

需求描述

實時統計每個網點，每天發件未到件，發件未簽收的快遞單數（一對一，多對一）

實時統計每個網點，每天收件未發件的快遞單數，收件未到件的快遞單數（一對多，一對一）

需求中設計到的字段說明（網點： scanNetworkCode : 快遞單號：waybillId ）

框架和版本

es-6.8 : 存儲，聚合數據

flink-1.8 : 從mysql 和 mongo 中同步數據到es

方案一
說明

每種數據存儲到不同的索引，後一步數據更新前一步的數據

問題

數據同步過程，代碼強綁定，拓展性弱

簽收數據和發件/到件的唯一鍵不一致，無法更新

方案二
說明

所有數據存在同一個索引，以waybillId 作爲唯一鍵關聯每一條數據，以 Arrary 數據類型存儲發/到

Array 官網學習資料： https://www.elastic.co/guide/en/elasticsearch/reference/6.8/array.html

數據同步問題

收/發有多個，upsert只能覆蓋更新,怎麼新增並去重的更新對應數組

方案1：先查詢，然後把查詢結果和新數據合併成新的數組再插入

問題：查詢過程需要網絡請求和返回，比較耗時，沒有查詢過程，flink TPS可以達到 2w,反之則只有1000 TPS 左右

方案2： painless 腳本更新
SendBean bean = (SendBean) objData;
Map<String, Object> map = new HashMap();
map.put("send", bean.toJSONObject());
map.put("scanNetworkCode", bean.getScanNetworkCode());
String scriptStr = "if (ctx._source.send == null) {ctx._source.send= []} def isCon=0;for(def i=0;i<ctx._source.send.length;i++){if(ctx._source.send[i].scanNetworkCode==params.scanNetworkCode){isCon=1}}if(isCon==0){ctx._source.send.add(params.send)}";
Script inline = new Script(ScriptType.INLINE, "painless", scriptStr, map);
updateRequest.script(inline) ;
indexer.add(updateRequest);
painless 官網學習資料：https://www.elastic.co/guide/en/elasticsearch/painless/6.8/painless-contexts.html

es 查詢問題
形成的索引信息

問題1：過濾的時候，擴大了數據範圍

問題2：聚合的時候，擴大了數據聚合範圍

es Arrary和nested的區別： https://blog.csdn.net/laoyang360/article/details/82950393

方案三

說明

所有數據存在同一個索引，以waybillId 作爲唯一鍵關聯每一條數據，以 nested 數據類型存儲發/到

nested 官網學習資料： https://www.elastic.co/guide/en/elasticsearch/reference/6.8/nested.html

es 查詢問題
形成的索引信息

問題1：過濾的時候，擴大了數據範圍 （可以解決）

問題2：聚合的時候，擴大了數據聚合範圍 （不能解決）

方案四（選擇方案）

說明

所有數據存在同一個索引;

以waybillId 作爲唯一鍵關聯收，收件入庫，首發，派，問題件，留倉件，簽收； (parent)

以 waybillId+scanNetworkCode 作爲唯一索引，關聯發，到； (child)

以 join 數據格式關聯 parent ，child

join 官網學習資料： https://www.elastic.co/guide/en/elasticsearch/reference/6.8/parent-join.html

es 查詢問題
生成的索引

has_parent 查詢符合某些條件的父類的 子類 ,has_child 查詢符合某些條件的子類的父類，怎麼能查詢出查詢符合某些條件的子類的父類和子類
GET mongo_qc_dev/_search
{
  "query": {
    "bool": {
      "should": [
        {
          "has_child": {
            "type": "send",
            "query": {
              "match_all": {}
            }
          }
        },
        {
          "match_all": {}
        }
      ]
    }
  },
  "from": 0,
  "size": 1000
}
效率問題： es join 數據類型，has_parent 先查詢符合條件的子類，根據子類裏面的關係數據（父類和父類ID）再查找父類數據，一次獨立查詢 < 效率 < 2次獨立查詢，雖然慢一點，但是比兩次獨立查詢快，所以不是性能瓶頸問題

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

得物 ZooKeeper SLA 也可以 99.99%

1. 背景 ZooKeeper（ZK）是一個誕生於 2007 年的分佈式應用程序協調服務。儘管出於一些特殊的歷史原因，許多業務場景仍然不得不依賴它。比如，Kafka、任務調度等。特別是在 Flink 混合部署 ETCD 解耦時，業務方曾

2024-05-10 01:06:41

愛奇藝數據湖實戰 - 實時湖倉一體化

01 概述數據是洞察用戶、市場、運營決策的基礎資料，在愛奇藝被廣泛應用在推薦、廣告、用戶增長、營銷等場景中。愛奇藝大數據業務之前採用 Lambda 架構，滿足海量

愛奇藝技術產品團隊

2024-05-09 01:18:23

Apache DolphinScheduler支持Flink嗎？

隨着大數據技術的快速發展，很多企業開始將Flink引入到生產環境中，以滿足日益複雜的數據處理需求。而作爲一款企業級的數據調度平臺，Apache DolphinScheduler也跟上了時代步伐，推出了對Flink任務類型的支持。 Flink

2024-04-30 11:49:27

利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署環境中構建無服務器數據倉庫

引言在數據驅動的世界中，企業正在尋求可靠且高性能的解決方案來管理其不斷增長的數據需求。本系列博客從一個重視數據安全和合規性的 B2C 金融科技客戶的角度來討論雲上雲下混合部署的情況下如何利用亞馬遜雲科技雲原生服務、開源社區產品以及第三方

2024-04-25 21:18:23

2024 開源數據工程生態系統全景圖

點擊藍字關注我們作者 | ALIREZA SADEGHI翻譯 | Debra Chen 01 簡介

2024-04-23 21:30:36

【案例+PPT】普元信息臧一超：海量數據下“流批一體”的數據平臺演進路線

“數據中臺新範式”雲端峯會，深入解析湖倉一體、批流一體、治理與運營“三位一體”的數據中臺新範式特徵，普元信息數智研究院副院長臧一超在峯會發表演講《海量數據下的高性能流批一體數據開發平臺》。 18分鐘完整回放視頻見文末，拎幾個特別精彩的內

2024-04-23 11:43:51

GaussDB(DWS)基於Flink的實時數倉構建

本文分享自華爲雲社區《GaussDB(DWS)基於Flink的實時數倉構建》，作者：胡辣湯。大數據時代，廠商對實時數據分析的訴求越來越強烈，數據分析時效從T+1時效趨向於T+0時效，爲了給客戶提供極速分析查詢能力，華爲雲數倉GaussDB

2024-04-18 10:32:57

MaxCompute 近實時增全量處理一體化新架構和使用場景介紹

隨着當前數據處理業務場景日趨複雜，對於大數據處理平臺基礎架構的能力要求也越來越高，既要求數據湖的大存儲能力，也要求具備海量數據高效批處理能力，同時還可能對延時敏感的近實時鏈路有強需求，本文主要介紹基於 MaxCompute 的離線近實時一體

2024-04-15 23:41:52

海豚調度任務類型Apache SeaTunnel部署指南

Apache DolphinScheduler已支持Apache SeaTunnel任務類型，本文介紹了SeaTunnel任務類型如何創建，任務參數，以及任務樣例。一、Apache SeaTunnel SeaTunnel 任務類型，用於

2024-04-02 21:18:16

探索GaussDB(DWS)湖倉融合：Hudi與元數據打通的深度解析

華爲雲數倉GaussDB(DWS)研發專家高若嶽老師，深入解析GaussDB(DWS)數據倉庫如何與大數據生態快速對接。隨着智能數據時代的到來，數據量爆發式增長，數據形態呈海量化和多樣化發展，不再是單一的結構化數據。從海量和多樣化的數

2024-04-01 22:33:07

hive 、spark 、flink之想一想

hive 1：hive是怎麼產生的？ 2：hive的框架是怎麼樣的？ 3：hive 執行流程是什麼？ 4：hive sql是如何把sql語句一步一步到最後執行的？ 5：hive sql任務常用參數調優做過什麼？ spark 6：sp

2024-03-27 01:22:41

Flink內存參數調優

背景 Flink作業設置內存參數後發現不是自己預期的資源分配方式，比如分配了4G內存結果只用了2G，其餘2G都是閒置的，導致Flink作業內存上限不夠用，內存超用時TaskManager容器會被Yarn集羣殺死。另外並行度與slot槽數在

2024-03-23 00:20:41

5分鐘教你使用idea調試SeaTunnel自定義插件

在用Apache SeaTunnel研發SM2加密組件過程中，發現社區關於本地調試SeaTunnel文章過於簡單，很多情況沒有說明，於是根據自己遇到問題總結這篇文檔。SeaTunnel本地調試官方文檔，希望對大家有所幫助！

2024-03-20 21:21:09

數據湖三大框架

一、數據湖框架目前市面上流行的三大開源數據湖方案分別爲：Delta Lake、Apache Iceberg和Apache Hudi 1、Delta Lake：DataBricks公司推出的一種數據湖方案，官網 2、Apache Iceb

2024-03-14 00:16:55

Flink自建集羣作業優化

1、如何消除流查詢的不確定性影響 set 'table.optimizer.non-deterministic-update.strategy' = 'TRY_RESOLVE'; 流查詢中的不確定更新(NDU)問題通常不是直觀的，可能較複雜

2024-03-13 12:20:17

24小時熱門文章

SQL優化-20231016

最新文章

最新評論文章