台部落过往记忆

1. 引言從確保準確預計到達時間到預測最佳交通路線，在Uber平臺上提供安全、無縫的運輸和交付體驗需要可靠、高性能的大規模數據存儲和分析。2016年，Uber開發了增量處理框架Apache Hudi，以低延遲和高效率爲關鍵業務數據管道賦

2020-07-06 11:10:38

爲期五天的 Spark Summit North America 2020在美國時間 2020-06-22 ~ 06-26 舉行。由於今年新冠肺炎的影響，本次會議第一次以線上的形式進行。這次會議雖然是五天，但是前兩天是培訓，後面三天才是

2020-07-06 11:10:38

薪資高、機會多、缺口大，讓大數據在開發圈裏成了香餑餑。與此同時，在我做公衆號的這兩年，目睹了太多人「從入門到放棄」，甚至有些人連大數據的門都沒進來。看看你是哪種？在中小企業做了一段時間大數據，但是隻做大數據全流程中的一小塊工作，對整

2020-07-06 11:10:38

本資料來自 Workday 的軟件開發工程師 Jianneng Li 在 Spark Summit North America 2020 的《On Improving Broadcast Joins in Spark SQL》議題的分

2020-07-06 11:10:38

圖片來自 Pexels本文主要圍繞如下幾個方面介紹集羣：集羣簡介集羣作用配置集羣手動、自動故障轉移故障轉移原理本文實現環境：CentOS 7.3Redis 4.0Redis 工作目錄 /usr/local/redis所有操作均在虛擬機模

2020-07-06 11:10:38

整理 | 青淵（Flink 社區志願者）校對 | 青雉（Flink 社區志願者）摘要：本文根據 Apache Flink 系列直播整理而成，由美團點評數據系統研發工程師黃偉倫老師分享。主要內容如下：實時數倉建設目的如何建立實時數倉倉庫質

2020-07-02 01:26:47

每年5、6月份，都難逃求職話題。尤其在當前不容易樂觀的經濟形勢下，更讓人關注。據招聘平臺智聯調研，2020復工第七週，周競爭指數超去年1.8。求職的同學今年明顯感受到競爭的激烈。據獵聘對全國各重點高校的應屆畢業生調研結果顯示：在參與調研

2020-07-02 01:26:47

摘要：本文講述 Flink 在 Shopee 新加坡數據組（Shopee Singapore Data Team）的應用實踐，主要內容包括：實時數倉建設背景Flink 在實時數據數倉建設中結合 Druid、Hive 的應用場景實時任務監

2020-06-29 02:39:57

在 Spark AI Summit 的第一天會議中，數磚重磅發佈了 Delta Engine。這個引擎 100% 兼容 Apache Spark 的向量化查詢引擎，並且利用了現代化的 CPU 架構，優化了 Spark 3.0 的查詢優化

2020-06-29 02:39:55

前言對於大多數無人機愛好者來說，能自己從頭開始組裝一臺無人機，之後加入AI算法，能夠航拍，可以目標跟蹤，是心中的夢想。並且，親自從零開始完成複雜系統，這是掌握核心技術的必經之路。基於此，開課吧特邀北京航空航天大學無人機專家，進行設計和

2020-06-29 02:39:55

在2020年6月24日的 Spark AI summit Keynote 上，數磚的首席執行官 Ali Ghodsi 宣佈其收購了 Redash 開源產品的背後公司 Redash！如果想及時瞭解Spark、Hadoop或者HBase相關

2020-06-27 15:51:22

首先祝大家端午節快樂，幸福安康。就在上週五， Apache Spark 3.0 全新發布，此版本給我們帶來了許多重要的特性，感興趣的同學可以看下這篇文章： Apache Spark 3.0.0 正式版終於發佈了，重要特性全面解析。Sp

2020-06-26 14:48:22

在熱招的開發崗面試中，Hadoop、HDFS 題被面試官選中的機率非常大，也是 HR 的殺手鐗之一，常會被問的有以下幾種面試題： 1. HDFS 的架構設計是怎樣的？ 2. HDFS 的讀寫流程是怎樣的？ 3. MapReduce

2020-06-25 11:19:44

導讀: 本文從利用率提升、多負載場景優化、穩定性提升、異地多活四個方面介紹了字節跳動在四年來對 Hadoop YARN 進行的一系列的優化，以及生產環境中的實踐經驗。1.YARN 簡介1.1 YARN 生態圈YARN (Yet Anot

2020-06-25 11:19:44

Apache Arrow是Apache基金會下一個全新的開源項目，同時也是頂級項目。它的目的是作爲一個跨平臺的數據層來加快大數據分析項目的運行速度。它爲列式內存存儲的處理和交互提供了規範。目前來自 Calcite, Cassandra,

2020-06-23 04:40:55