設計一條完整離線etl線路

原創

前行的蜗牛_cn

2020-06-09 00:29

ETL：抽取（extract）、轉換（transform）、加載（load）

下面是etl 數據流：

藍色的框框代表的是數據來源，紅色的框框主要是數據計算平臺，綠色的 HDFS 是我們一種主要的數據存儲，Hive、Hbase、ES這些就不再列出來了。

我們常說的數據流主要分兩種：1離線數據 2.實時數據

其中離線數據一般都是 T+1 的模式，即每天的凌晨開始處理前一天的數據，有時候可能也是小時級的，技術方案的話可以用 Sqoop、Flume、MR 這些。實時數據一般就是指實時接入的數據，一般是分鐘級別以下的數據，常用的技術方案有 Spark Streaming 和 Flink。

場景舉例：

場景一：

數據源主要爲 Mysql，希望實時同步 Mysql 數據到大數據集羣中（肯定是越快越好）。
目前每日 20 億數據，可遇見的一段時間後的規模是 100 億每日以上。
能快速地查到最新的數據，這裏包含兩部分含義：從 Mysql 到大數據集羣的速度快、從大數據集羣中查詢的速度要快。

我們最終選定一下方案：

注意：

小文件，分鐘級別的文件落地，肯定會有小文件的問題，這裏要考慮的是，小文件的處理儘量不要和數據接入流程耦合太重，可以考慮每天、每週、甚至每月合併一次小文件。
數據流的邏輯複雜度問題，比如從 Kafka 落地 HDFS 會有一個取捨的考慮，比如說，我可以在一個 SS 程序中就分別落地 HDFS 和 ES，但是這樣的話兩條流就會有大的耦合，如果 ES 集羣卡住，HDFS 的落地也會受到影響。但是如果兩個隔開的話，就會重複消費同一份數據兩次，會有一定網絡和計算資源的浪費。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

基於Ascend C的FlashAttention算子性能優化最佳實踐

本文分享自華爲雲社區《基於Ascend C的FlashAttention算子性能優化最佳實踐》，作者：昇騰CANN。 LLM的Attention部分處理給計算系統帶來巨大的計算和訪存壓力。業界先後出現FlashAttention、Flash

2024-06-12 22:56:52

一文教你在MindSpore中實現A2C算法訓練

本文分享自華爲雲社區《MindSpore A2C 強化學習》，作者：irrational。 Advantage Actor-Critic (A2C)算法是一個強化學習算法，它結合了策略梯度（Actor）和價值函數（Critic）的方法。A2

2024-06-07 10:56:57

vue3 scss style scope 加了無法重寫

在Vue中，style scope是一個特性，它可以防止組件的樣式影響到其他組件，從而減少樣式衝突。這個特性通過在生成的CSS選擇器中自動添加一個屬性（通常是data-v-hash）來實現。如果你遇到了style scope導致樣式無法被

2024-06-02 02:09:05

解讀注意力機制原理，教你使用Python實現深度學習模型

本文分享自華爲雲社區《使用Python實現深度學習模型：注意力機制（Attention）》，作者：Echo_Wish。在深度學習的世界裏，注意力機制（Attention Mechanism）是一種強大的技術，被廣泛應用於自然語言處理（NL

2024-05-27 10:58:44

圖表控件LightningChart JS v5.2正式發佈 - 全新的開發體驗

LightningChart JS是Web上性能特高的圖表庫，具有出色的執行性能 - 使用高數據速率同時監控數十個數據源。 GPU加速和WebGL渲染確保您的設備的圖形處理器得到有效利用，從而實現高刷新率和流暢的動畫，常用於貿易，工程，航空

2024-05-23 12:20:12

CaffeineCache Api介紹以及與Guava Cache性能對比| 京東物流技術團隊

一、簡單介紹： CaffeineCache和Guava的Cache是應用廣泛的本地緩存。在開發中，爲了達到降低依賴、提高訪問速度的目的。會使用它存儲一些維表接口的返回值和數據庫查詢結果，在有些場景下也會在分佈式緩存上再加上一層本地緩存，

2024-05-17 23:56:43

探索大語言模型：理解Self Attention| 京東物流技術團隊

一、背景知識在ChatGPT引發全球關注之後，學習和運用大型語言模型迅速成爲了熱門趨勢。作爲程序員，我們不僅要理解其表象，更要探究其背後的原理。究竟是什麼使得ChatGPT能夠實現如此卓越的問答性能？自注意力機制的巧妙融入無疑是關鍵因素

2024-05-14 23:57:26

Vue 學習筆記簡寫

一.Vue文件內容 <template> </template> <script> </script> <style> </style>

2024-05-13 21:42:40

Lovato BFX1031 PIZZALO FP 931

SCHNEIDER SD326RU25S2 BUHLER MKS 1/W ART.NR 2889999 Delta Sensor FT2027 Delta Sensor V5-JC-S +R

2024-05-11 11:23:36

帶你瞭解GaussDB SQL中的BOOLEAN表達式

本文分享自華爲雲社區《GaussDB SQL基礎語法示例-BOOLEAN表達式》，作者：Gauss松鼠會小助手2。一、前言 SQL是用於訪問和處理數據庫的標準計算機語言。GaussDB支持的SQL標準（默認支持SQL2、SQL3和SQL

2024-05-10 11:30:10

AIGC在京東廣告創意的技術應用

一、前言電商廣告圖片不僅能夠抓住消費者的眼球，還可以傳遞品牌核心價值和故事，建立起與消費者之間的情感聯繫。然而現有的廣告圖片大多依賴人工製作，存在效率和成本的限制。儘管最近AIGC技術取得了卓越的進展，但其在廣告圖片的應

京東雲開發者

2024-05-08 23:24:18

十年編程經驗一朝面試被刷，技術面試如何提升表現？

又是一年金三銀四，不同以往的是，當前的職場環境已經不再是那個雙向奔赴的美好時代了。求職者在變多，HC 在變少，崗位要求還更高了，面對這樣的困境，技術人員應該如何突圍？騰訊雲開發者社區特邀前貝殼金服小微企業生態 CTO、騰訊雲 TVP

2024-05-08 23:17:58

任務映像已損壞或篡改（異常來自HRESULT:0x80041321）

1. 以管理員身份運行命令提示符並執行命令 cmd ----------------->chcp 437 2. 該命令將返回損壞的任務計劃程序名稱. 輸入命令： schtasks /query /v | find /i "ERROR:

2024-05-08 21:56:24

6個實例帶你解讀TinyVue 組件庫跨框架技術

本文分享自華爲雲社區《6個實例帶你解讀TinyVue 組件庫跨框架技術》，作者：華爲雲社區精選。在DTSE Tech Talk 《手把手教你實現mini版TinyVue組件庫》的主題直播中，華爲雲前端開發DTSE技術佈道師阿健老師給

2024-04-26 10:33:20

網絡安全數字孿生：一種新穎的汽車軟件解決方案

摘要隨着汽車行業轉變爲數據驅動的業務，軟件在車輛的開發和維護中發揮了核心作用。隨着軟件數量的增加，相應的網絡安全風險、責任和監管也隨之增加，傳統方法變得不再適用於這類任務。相應的結果是整車廠和供應商都在努力應對汽車軟件日益增加

2024-04-22 22:42:12

24小時熱門文章

最新文章

最新評論文章