在處理億級數據的“定時任務”的時候，該如何縮短執行時間？

問題抽象：

（1）用戶會員系統；

（2）用戶會有分數流水，每個月要做一次分數統計，對不同分數等級的會員做不同業務處理；

數據假設：

（1）假設用戶在100w級別；

（2）假設用戶日均1條流水，也就是說日增流水數據量在100W級別，月新增流水在3kW級別，3個月流水數據量在億級別；

常見解決方案：

用一個定時任務，每個月的第一天計算一次。

//(1)查詢出所有用戶

uids[] = select uid from t_user;

//(2)遍歷每個用戶

foreach $uid in uids[]{

//(3)查詢用戶3個月內分數流水

scores[]= select score from t_flow

where uid=$uid and time=[3個月內];

//(4)遍歷分數流水

foreach $score in scores[]{

//(5)計算總分數

sum+= $score;

}

//(6)根據分數做業務處理

switch(sum)

升級降級，發優惠券，發獎勵;

}

一個月執行一次的定時任務，會存在什麼問題？

計算量很大，處理的數據量很大，耗時很久，按照水友的說法，需要1-2天。

可不可以多線程並行處理？

可以，每個用戶的流水處理不耦合。

改爲多線程並行處理，例如按照用戶拆分，會存在什麼問題？

每個線程都要訪問數據庫做業務處理，數據庫有可能扛不住。

這類問題的優化方向是：

（1）同一份數據，減少重複計算次數；

（2）分攤CPU計算時間，儘量分散處理，而不是集中處理；

（3）減少單次計算數據量；

如何減少同一份數據，重複計算次數？

假設每一個方格是1個月的分數流水數據（約3kW）。

3月底計算時，要查詢並計算1月，2月，3月三個月的9kW數據；

4月底計算時，要查詢並計算2月，3月，4月三個月的9kW數據；

…

會發現，2月和3月的數據（粉色部分），被重複查詢和計算了多次。

新增月積分流水彙總表，每次只計算當月增量：

flow_month_sum(month, uid, flow_sum)

（1）每到月底，只計算當月分數，數據量減少到1/3，耗時也減少到1/3；

（2）同時，把前2個月流水加和，就能得到最近3個月總分數（這個動作幾乎不花時間）；

這樣一來，每條分數流水只會被計算一次。

如何分攤CPU計算時間，減少單次計算數據量呢？

業務需求是一個月重新計算一次分數，但一個月集中計算，數據量太大，耗時太久，可以將計算分攤到每天。

月積分流水彙總表，升級爲，日積分流水彙總表。

把每月1次集中計算，分攤爲30次分散計算，每次計算數據量減少到1/30，就只需要花幾十分鐘處理了。

甚至，每一個小時計算一次，每次計算數據量又能減少到1/24，每次就只需要花幾分鐘處理了。

雖然時間縮短了，但畢竟是定時任務，能不能實時計算分數流水呢？

每天只新增100w分數流水，完全可以實時累加計算“日積分流水彙總”。

使用DTS(或者canal)增加一個分數流水錶的監聽，當用戶的分數變化時，實時進行日分數流水累加，將1小時一次的定時任務計算，均勻分攤到“每時每刻”，每天新增100w流水，數據庫寫壓力每秒鐘10多次，完全扛得住。

總結，對於這類一次性集中處理大量數據的定時任務，優化思路是：

（1）同一份數據，減少重複計算次數；

（2）分攤CPU計算時間，儘量分散處理（甚至可以實時），而不是集中處理；

（3）減少單次計算數據量；

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

在處理億級數據的“定時任務”的時候，該如何縮短執行時間？

EXCEL中下拉菜單中添加新選項或者刪除選項

號稱能打敗MLP的KAN到底行不行？數學核心原理全面解析

同事使用 insert into select 遷移數據，開開心心上線，上線後被公司開除！

Git使用經驗總結5-修改提交信息

Python 爬蟲：Spring Boot 反爬蟲的成功案例

京東科技數字化營銷能力的演進與最佳實踐| 京東雲技術團隊

Git使用經驗總結4-撤回上一次本地提交

Java中止線程的方式

壓榨數據庫的真實處理速度

[轉帖]Oracle Exadata 學習筆記之核心特性Part1

完美的實現可重入分佈式鎖

看完這篇，數據同步還不會，能怪誰

在處理億級數據的“定時任務”的時候，該如何縮短執行時間？

面試官：爲什麼選擇B+樹作爲數據庫索引結構？談談你的理解

面試又掛了，只因被問：TCP三次握手和四次揮手

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結