原创 Uber 如何使用 Apache Hudi 支撐 PB 級數據湖

1. 引言從確保準確預計到達時間到預測最佳交通路線,在Uber平臺上提供安全、無縫的運輸和交付體驗需要可靠、高性能的大規模數據存儲和分析。2016年,Uber開發了增量處理框架Apache Hudi,以低延遲和高效率爲關鍵業務數據管道賦

原创 你要的 Spark AI Summit 2020 PPT 我已經給你整理好了

爲期五天的 Spark Summit North America 2020在美國時間 2020-06-22 ~ 06-26 舉行。由於今年新冠肺炎的影響,本次會議第一次以線上的形式進行。這次會議雖然是五天,但是前兩天是培訓,後面三天才是

原创 年薪40w的大數據開發,它不香麼?

薪資高、機會多、缺口大,讓大數據在開發圈裏成了香餑餑。 與此同時,在我做公衆號的這兩年,目睹了太多人「從入門到放棄」,甚至有些人連大數據的門都沒進來。看看你是哪種? 在中小企業做了一段時間大數據,但是隻做大數據全流程中的一小塊工作,對整

原创 Spark SQL 中 Broadcast Join 一定比 Shuffle Join 快?那你就錯了。

本資料來自 Workday 的軟件開發工程師 Jianneng Li 在 Spark Summit North America 2020 的 《On Improving Broadcast Joins in Spark SQL》議題的分

原创 Redis 集羣原理,再也不怕面試被問倒

圖片來自 Pexels本文主要圍繞如下幾個方面介紹集羣:集羣簡介集羣作用配置集羣手動、自動故障轉移故障轉移原理本文實現環境:CentOS 7.3Redis 4.0Redis 工作目錄 /usr/local/redis所有操作均在虛擬機模

原创 美團點評實時數倉實踐

整理 | 青淵(Flink 社區志願者)校對 | 青雉(Flink 社區志願者)摘要:本文根據 Apache Flink 系列直播整理而成,由美團點評數據系統研發工程師黃偉倫老師分享。主要內容如下:實時數倉建設目的如何建立實時數倉倉庫質

原创 騰訊月薪20k的數據分析人才,需要具備怎樣的技能?

每年5、6月份,都難逃求職話題。尤其在當前不容易樂觀的經濟形勢下,更讓人關注。據招聘平臺智聯調研,2020復工第七週,周競爭指數超去年1.8。求職的同學今年明顯感受到競爭的激烈。據獵聘對全國各重點高校的應屆畢業生調研結果顯示:在參與調研

原创 跨境電商 Shopee 的實時數倉演進之路

摘要:本文講述 Flink 在 Shopee 新加坡數據組(Shopee Singapore Data Team)的應用實踐,主要內容包括:實時數倉建設背景Flink 在實時數據數倉建設中結合 Druid、Hive 的應用場景實時任務監

原创 全方位解讀數磚的 Delta Engine

在 Spark AI Summit 的第一天會議中,數磚重磅發佈了 Delta Engine。這個引擎 100% 兼容 Apache Spark 的向量化查詢引擎,並且利用了現代化的 CPU 架構,優化了 Spark 3.0 的查詢優化

原创 完成你的第一個智能無人機

前 言對於大多數無人機愛好者來說,能自己從頭開始組裝一臺無人機,之後加入AI算法,能夠航拍,可以目標跟蹤,是心中的夢想。並且,親自從零開始完成複雜系統,這是掌握核心技術的必經之路。基於此,開課吧特邀北京航空航天大學無人機專家,進行設計和

原创 Spark 背後的商業公司收購的 Redash 是個啥?

在2020年6月24日的 Spark AI summit Keynote 上,數磚的首席執行官 Ali Ghodsi 宣佈其收購了 Redash 開源產品的背後公司 Redash!如果想及時瞭解Spark、Hadoop或者HBase相關

原创 馬鐵大神的 Apache Spark 十年回顧

首先祝大家端午節快樂,幸福安康。就在上週五, Apache Spark 3.0 全新發布,此版本給我們帶來了許多重要的特性,感興趣的同學可以看下這篇文章: Apache Spark 3.0.0 正式版終於發佈了,重要特性全面解析 。Sp

原创 一份 Hadoop 面試 【避坑指南】 拍了拍你!

在熱招的開發崗面試中,Hadoop、HDFS 題被面試官選中的機率非常大,也是 HR 的殺手鐗之一,常會被問的有以下幾種面試題:  1. HDFS 的架構設計是怎樣的?  2. HDFS 的讀寫流程是怎樣的?  3. MapReduce

原创 YARN 在字節跳動的優化與實踐

導讀: 本文從利用率提升、多負載場景優化、穩定性提升、異地多活四個方面介紹了字節跳動在四年來對 Hadoop YARN 進行的一系列的優化,以及生產環境中的實踐經驗。1.YARN 簡介1.1 YARN 生態圈YARN (Yet Anot

原创 Apache Arrow:跨平臺的內存數據交換格式

Apache Arrow是Apache基金會下一個全新的開源項目,同時也是頂級項目。它的目的是作爲一個跨平臺的數據層來加快大數據分析項目的運行速度。它爲列式內存存儲的處理和交互提供了規範。目前來自 Calcite, Cassandra,