原创 重磅!flink-table-store 將作爲獨立數據湖項目重新加入 Apache

數據湖是大數據近年來的網紅項目,大家熟知的開源數據湖三劍客 Apache hudi、Apache iceberg 、Databricks delta 近年來野蠻生長,目前各自背後也都有商業公司支持,投入了大量的人力物力去做研發和宣傳。然而今

原创 均有商業公司支持!2023再看數據湖 hudi iceberg delta2 社區發展現狀!

開源數據湖三劍客 Apache hudi、Apache iceberg 、Databricks delta 近年來大動作不斷。 2021年8月,Apache Iceberg 的創始人 Ryan Blue、Dan Weeks 和 Netfl

原创 Flink 創始人團隊二次收購案!阿里恐成冤大頭!

大數據開源商業化領域近日有一個爆炸性新聞,“Confluent 收購 Immerok”,字越少事越大,先給大家簡單科普一下 Confluent 和 Immerok 這兩家公司,Confluent 是掌控 Apache Kafka 社區的大數

原创 大數據公衆號

原创 Hive 集成 Hudi 實踐(含代碼)| 可能是全網最詳細的數據湖系列

公衆號後臺越來越多人問關於數據湖相關的內容,看來大家對新技術還是很感興趣的。關於數據湖的資料網絡上還是比較少的,特別是實踐系列,對於新技術來說,基礎的入門文檔還是很有必要的,所以這一篇希望能夠幫助到想使用Hudi的同學入門。 本篇的Hudi

原创 戲說中臺 — 大佬玩概念,小弟寫接口

“最近阿里的數據中臺好像挺火的,咱們也搞箇中臺吧。” Boss一句話,讓大數據部門的Leader陷入了沉思,買了本《大數據之路》看了兩天… 兩天後的夜裏,Leader在朋友圈發了公司同事不可見的動態 “沒有大公司的命,得了大公司的病…

原创 Spark比MR快是因爲在內存中計算?錯!

MapReduce 就像一臺又慢又穩的老爺車,雖然距離 MapReduce 面市到現在已經過去了十幾年的時間,但它始終沒有被淘汰,任由大數據技術日新月異、蓬蓬勃勃、花裏胡哨地發展,這個生態圈始終有它的一席之地。 不過 Spark 的到來確實

原创 如何比較裝X地回答問題 | 面試系列.1

公衆號後臺比較多同學讓我寫面試相關的文章,在之前的文章 從面試官的角度談談大數據面試 也聊了很多,但是有同學吐槽說我沒有把答案寫上去,當時我的心裏是拒絕寫的,這有啥好寫的,又不難,Google一大堆。但是呢,吐槽的人多了我也就妥協了,這次我

原创 唐朝的大數據平臺 - 大案牘術

週末不務正業一回,寫點輕鬆點的內容,最近在陪老婆追一部挺火的劇《長安十二時辰》,劇情還是挺有意思的,但是有個叫"大案牘術"的東西看得我有點出戲,職業病犯了聯想了一堆亂七八糟的東西… 劇中有一個統管了大唐三省六部所有檔案資料的機構叫靖安司,

原创 大數據 SQL Boy 脫坑指南

不可否認的是 SQL 是一個偉大的發明,它讓增刪改查的操作更加地便捷化,而且 SQL 的學習成本相對其他編程語言來說較低,被逼到會寫 SQL 的運營和產品我都見過不少。。。 大數據行業跟 SQL 更是有不解之緣,可謂“萬物皆可 SQL

原创 說說實時流式計算

​ 六年前提起實時流式計算,熟悉的同學會想起Storm,三年前提起,大家應該會想到Spark Streaming,現在再提起那無疑是Flink了。可見開源世界技術的迭代是飛速的,稍不留神就落伍了,所以我們要不停地學習,跟着技術的浪潮上下翻

原创 zookeeper篇(7)-如何修改源碼

本篇文章僅僅是起一個拋磚迎玉的作用,舉一個如何修改源碼的例子。文章的靈感來自 ZOOKEEPER-2784。 提一個問題先 之前的文章講過zxid的設計,我們先複習下: zxid有64位,分成兩部分: 高32位是Leader的epo

原创 zookeeper篇(5)-分佈式鎖的代碼實現

本文涉及到幾個zookeeper簡單的知識點,永久節點、有序節點、watch機制。 每個線程在/locks節點下創建一個臨時有序節點test_lock_0000000040 獲得/locks節點下所有子節點A、B、C,排序獲得最小值

原创 zookeeper(1)-應用場景與操作

Zookeeper作爲一個分佈式協調系統提供了一項基本服務:分佈式鎖服務,分佈式鎖是分佈式協調技術實現的核心內容。像配置管理、任務分發、組服務、分佈式消息隊列、分佈式通知/協調等,這些應用實際上都是基於這項基礎服務由用戶自己摸索出來的。

原创 HBase篇(5)- BloomFilter

【每日五分鐘搞定大數據】系列,HBase第五篇。上一篇我們落下了Bloom Filter,這次我們來聊聊這個東西。 Bloom Filter 是什麼? 先簡單的介紹下Bloom Filter(布隆過濾器)是1970年由布隆提出的。它實際上