實戰 | 利用Delta Lake使Spark SQL支持跨表CRUD操作

原創

阿里雲E-MapReduce團隊

2020-04-16 12:22

本文轉載自公衆號： eBay技術薈
作者 | 金瀾濤
原文鏈接：https://mp.weixin.qq.com/s/L64xhtKztwWhlBQrreiDfQ

摘要

大數據處理技術朝傳統數據庫領域靠攏已經成爲行業趨勢，目前開源的大數據處理引擎，如Apache Spark、Apache Hadoop、Apache Flink等等都已經支持SQL接口，且SQL的使用往往佔據主導地位。各個公司使用以上開源軟件構建自己的ETL框架和OLAP技術，但在OLTP技術上，仍然是傳統數據庫的強項。其中的一個主要原因是傳統數據庫對ACID的支持。具有ACID能力的傳統商用數據庫基本都實現了完整的CRUD操作。而在大數據技術領域，由於缺少ACID的支持，基本只實現了C/R操作，對U/D操作很少涉及。

eBay數據倉庫的部分基礎設施是構建在商用數據產品Ter

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署環境中構建無服務器數據倉庫

引言在數據驅動的世界中，企業正在尋求可靠且高性能的解決方案來管理其不斷增長的數據需求。本系列博客從一個重視數據安全和合規性的 B2C 金融科技客戶的角度來討論雲上雲下混合部署的情況下如何利用亞馬遜雲科技雲原生服務、開源社區產品以及第三方

2024-04-25 21:18:23

對接HiveMetaStore，擁抱開源大數據

本文分享自華爲雲社區《對接HiveMetaStore，擁抱開源大數據》，作者：睡覺是大事。 1. 前言適用版本：9.1.0及以上在大數據融合分析時代，面對海量的數據以及各種複雜的查詢，性能是我們使用一款數據處理引擎最重要的考量

2024-04-24 22:33:08

【案例+PPT】普元信息臧一超：海量數據下“流批一體”的數據平臺演進路線

“數據中臺新範式”雲端峯會，深入解析湖倉一體、批流一體、治理與運營“三位一體”的數據中臺新範式特徵，普元信息數智研究院副院長臧一超在峯會發表演講《海量數據下的高性能流批一體數據開發平臺》。 18分鐘完整回放視頻見文末，拎幾個特別精彩的內

2024-04-23 11:43:51

入職3年-我如何做一名AI產品經理

引言從2021年校招加入京東開始，我一直從事AI產品經理的工作，有幸見證了AI行業的熱情從一臺臺服務器燒到了全世界各個角落，也見證了京東AI中臺團隊的影響力如何一步步的擴大。從21年的迷茫到24年的堅定，很慶幸我正走在適合自己的道路上，

2024-04-22 11:16:31

WhaleScheduler爲銀行業全信創環境打造統一調度管理平臺解決方案

項目背景數字金融是數字經濟的重要支撐和驅動力。近年來，我國針對數字金融的發展政策頻頻出臺，《金融科技發展規劃（2022-2025年）》、《“十四五”數字經濟發展規劃》、《關於銀行業保險業數字化轉型的指導意見》、《金融標準化“十四五”

2024-04-19 21:18:25

用戶行爲分析模型實踐（四）—— 留存分析模型

作者：vivo 互聯網大數據團隊- Wu Yonggang、Li Xiong 本文是vivo互聯網大數據團隊《用戶行爲分析模型實踐》系列文章第4篇 -留存分析模型。本文詳細介紹了留存分析模型的概念及基本原理，並

2024-04-19 11:26:00

6個實例帶你解讀TinyVue 組件庫跨框架技術

本文分享自華爲雲社區《6個實例帶你解讀TinyVue 組件庫跨框架技術》，作者：華爲雲社區精選。在DTSE Tech Talk 《手把手教你實現mini版TinyVue組件庫》的主題直播中，華爲雲前端開發DTSE技術佈道師阿健老師給

2024-04-26 10:33:20

詳解數倉的向量化執行引擎

本文分享自華爲雲社區《GaussDB(DWS)向量化執行引擎詳解》，作者： yd_212508532。前言適用版本：【基線功能】傳統的行執行引擎大多采用一次一元組的執行模式，這樣在執行過程中CPU大部分時間並沒有用來處理數據，更

2024-04-25 10:33:17

搶先體驗：Zabbix 7.0全新Dashboard和MFA功能，增強可視化、安全性、靈活性！

（感謝本文作者張世宏，Zabbix開源社區專家，暱稱張思德。） Zabbix 7.0 beta2 已於2024年3月20日發佈，Zabbix 7.0 LTS預計於2024年Q2正式發佈。筆者立即下載體驗，感受是Zabbix 7.0在數據

2024-04-17 22:13:12

server_id 引發的 MySQL 級聯複製同步異常

MySQL 級聯複製的坑，我幫你們踩了。作者：蔣士峯，愛可生 DBA 團隊成員，熟悉 MySQL，Oracle 等數據庫。每天的積累，時間久了，會帶來不一樣的收貨。愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明

2024-04-16 23:20:27

MaxCompute 近實時增全量處理一體化新架構和使用場景介紹

隨着當前數據處理業務場景日趨複雜，對於大數據處理平臺基礎架構的能力要求也越來越高，既要求數據湖的大存儲能力，也要求具備海量數據高效批處理能力，同時還可能對延時敏感的近實時鏈路有強需求，本文主要介紹基於 MaxCompute 的離線近實時一體

2024-04-15 23:41:52

MySQL 主從 AUTO_INCREMENT 不一致問題分析

作者：vivo 互聯網數據庫團隊 - Wei Haodong 本文介紹了 MySQL5.7 中常見的replace into 操作造成的主從auto_increment不一致現象，一旦觸發了主從切換，業務的正常插入

2024-04-07 11:24:46

kube-apiserver限流機制原理

本文分享自華爲雲社區《kube-apiserver限流機制原理》，作者：可以交個朋友。背景 apiserver是kubernetes中最重要的組件，一旦遇到惡意刷接口或請求量超過承載範圍，apiserver服務可能會崩潰，導致整個kub

2024-04-07 10:32:03

TiDB MVCC 版本堆積相關原理及排查手段

導讀本文介紹了 TiDB 中 MVCC（多版本併發控制）機制的原理和相關排查手段。 TiDB 使用 MVCC 機制實現事務，在寫入新數據時不會直接替換舊數據，而是保留舊數據的同時以時間戳區分版本。當歷史版本堆積過多時，會導致讀寫性能下降

2024-04-07 10:23:10

TiDB 社區智慧合集丨解碼 TiDB 性能謎題：讓你的數據庫發揮最強動力!

來自社區，迴歸社區。非常感謝各位 TiDBer 在之前【TiDBer 嘮嗑茶話會丨徵集 TiDB 數據庫性能優化大師，你是如何優化 TiDB 數據庫性能的吶？】( https://asktug.com/t/topic/1005563

2024-04-05 22:23:12

24小時熱門文章

最新文章

最新評論文章