实战 | 利用Delta Lake使Spark SQL支持跨表CRUD操作

原創

阿里云E-MapReduce团队

2020-04-16 12:22

本文转载自公众号： eBay技术荟
作者 | 金澜涛
原文链接：https://mp.weixin.qq.com/s/L64xhtKztwWhlBQrreiDfQ

摘要

大数据处理技术朝传统数据库领域靠拢已经成为行业趋势，目前开源的大数据处理引擎，如Apache Spark、Apache Hadoop、Apache Flink等等都已经支持SQL接口，且SQL的使用往往占据主导地位。各个公司使用以上开源软件构建自己的ETL框架和OLAP技术，但在OLTP技术上，仍然是传统数据库的强项。其中的一个主要原因是传统数据库对ACID的支持。具有ACID能力的传统商用数据库基本都实现了完整的CRUD操作。而在大数据技术领域，由于缺少ACID的支持，基本只实现了C/R操作，对U/D操作很少涉及。

eBay数据仓库的部分基础设施是构建在商用数据产品Ter

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Sql Server数据库sql语句去除所有空格

空格包含一般空格和特殊空格。 1、一般空格前後的空格，使用LTRIM()和RTRIM()即可，例如：LTRIM(RTRIM(name)) 中間的空格，使用REPLACE()函數替換，例如：REPLACE(name,' ','') 2、特殊

2024-05-08 23:32:56

企业大模型如何成为自己数据的“百科全书”？

作者 | 郭煒編輯 | Debra Chen 在當今的商業環境中，大數據的管理和應用已經成爲企業決策和運營的核心組成部分。然而，隨着數據量的爆炸性增長，如何有效利用這些數據成爲了一個普遍的挑戰。本文將探討大數據架構、大模型的集成，以及如

2024-05-15 21:22:50

Apache DolphinScheduler 4月简报：社区发展与技术革新速递

各位熱愛 DolphinScheduler 的小夥伴們，4 月份的 DolphinScheduler 社區月報更新啦！這裏將記錄 DolphinScheduler 社區每月的重要更新，歡迎關注！月度 Merge 之星感謝以下小夥伴 4

2024-05-08 21:19:32

利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署环境中构建无服务器数据仓库

引言在數據驅動的世界中，企業正在尋求可靠且高性能的解決方案來管理其不斷增長的數據需求。本系列博客從一個重視數據安全和合規性的 B2C 金融科技客戶的角度來討論雲上雲下混合部署的情況下如何利用亞馬遜雲科技雲原生服務、開源社區產品以及第三方

2024-04-25 21:18:23

对接HiveMetaStore，拥抱开源大数据

本文分享自華爲雲社區《對接HiveMetaStore，擁抱開源大數據》，作者：睡覺是大事。 1. 前言適用版本：9.1.0及以上在大數據融合分析時代，面對海量的數據以及各種複雜的查詢，性能是我們使用一款數據處理引擎最重要的考量

2024-04-24 22:33:08

【案例+PPT】普元信息臧一超：海量数据下“流批一体”的数据平台演进路线

“數據中臺新範式”雲端峯會，深入解析湖倉一體、批流一體、治理與運營“三位一體”的數據中臺新範式特徵，普元信息數智研究院副院長臧一超在峯會發表演講《海量數據下的高性能流批一體數據開發平臺》。 18分鐘完整回放視頻見文末，拎幾個特別精彩的內

2024-04-23 11:43:51

入职3年-我如何做一名AI产品经理

引言從2021年校招加入京東開始，我一直從事AI產品經理的工作，有幸見證了AI行業的熱情從一臺臺服務器燒到了全世界各個角落，也見證了京東AI中臺團隊的影響力如何一步步的擴大。從21年的迷茫到24年的堅定，很慶幸我正走在適合自己的道路上，

2024-04-22 11:16:31

详解 MySQL 的 binlog 时间戳与 exec_time 的关系

詳解 binlog 時間戳與 exec_time 的關係。作者：李錫超，蘇商銀行DBA，負責數據庫和中間件運維和建設。擅長 MySQL、Python、Oracle，愛好騎行、技術研究和分享。愛可生開源社區出品，原創內容未經授權不得隨意

2024-05-15 00:02:08

2024 开源之夏｜报名 NebulaGraph 项目，领取你的 ¥12,000 奖金

滴滴滴~ NebulaGraph 今年再次參與由中科院軟件所“開源軟件供應鏈點亮計劃”發起的開源之夏啦！關於開源之夏 “開源之夏”（簡稱 OSPP）是中國科學院軟件研究所發起的“開源軟件供應鏈點亮計劃系列”暑期活動，旨

2024-05-13 03:51:52

数仓安全：数据脱敏技术深度解析

本文分享自華爲雲社區《GaussDB(DWS)安全管理之數據脫敏原理與使用方法介紹》，作者： VV一笑。 1. 前言適用版本：8.2.0及以上版本 GaussDB (DWS)產品數據脫敏功能，是數據庫產品內化和夯實數據安全能力的重要

2024-05-10 23:30:54

带你了解GaussDB SQL中的BOOLEAN表达式

本文分享自華爲雲社區《GaussDB SQL基礎語法示例-BOOLEAN表達式》，作者：Gauss松鼠會小助手2。一、前言 SQL是用於訪問和處理數據庫的標準計算機語言。GaussDB支持的SQL標準（默認支持SQL2、SQL3和SQL

2024-05-10 11:30:10

sqlserver MERGE 异常

在執行MERGE 語句時，一定要確保只更新一條數據 com.microsoft.sqlserver.jdbc.SQLServerException: The MERGE statement attempted to UPDATE or DE

2024-05-09 12:41:29

lightdb操作出错:ERROR: current transaction is aborted, commands ignored until end of transaction block

前言 lightdb數據庫是恆生自主研發的面向金融領域的支持集中式和分佈式的國產數據庫，實現基於PostgreSQL，因此也會遵循postgreSQL的一些事務特性。本文章主要說明的特性爲：在一個事務中，如果有一個SQL執

2024-05-05 21:55:25

6个实例带你解读TinyVue 组件库跨框架技术

本文分享自華爲雲社區《6個實例帶你解讀TinyVue 組件庫跨框架技術》，作者：華爲雲社區精選。在DTSE Tech Talk 《手把手教你實現mini版TinyVue組件庫》的主題直播中，華爲雲前端開發DTSE技術佈道師阿健老師給

2024-04-26 10:33:20

详解数仓的向量化执行引擎

本文分享自華爲雲社區《GaussDB(DWS)向量化執行引擎詳解》，作者： yd_212508532。前言適用版本：【基線功能】傳統的行執行引擎大多采用一次一元組的執行模式，這樣在執行過程中CPU大部分時間並沒有用來處理數據，更

2024-04-25 10:33:17

24小時熱門文章

最新文章

最新評論文章