原创 2天擼了個大數據中臺出來,我飄了~

提起業務流量,除了全民搶票平臺 12306,當數阿里最有發言權。 上到雙十一千億級流量洪峯,下到日均百萬、千萬交易量的平臺,每個業務模塊背後的高併發架構理念,無處不在。 成熟的架構設計只是其一,要取得突破性地業務增速和領先行業的地位,

原创 我們在學習Yarn的時候,到底在學習什麼?(附源碼)

曾有人調侃:HBase 沒有資源什麼事情也做不了,Spark 佔用了資源卻沒有事情可做?   那 YARN瞭解一下? 01 YARN! 伴隨着Hadoop生態的發展,不斷湧現

原创 Yarn 源碼 | 分佈式資源調度引擎 Yarn 內核源碼剖析

曾有人調侃:HBase 沒有資源什麼事情也做不了,Spark 佔用了資源卻沒有事情可做?   那 YARN瞭解一下? 01 YARN! 伴隨着Hadoop生態的發展,不斷湧現

原创 三流面試聊數據庫,二流面試聊數倉,一流面試…

前幾天面了一位 91 年的大數據架構師,他工作 8 年,5年後端開發經驗,從事架構設計只有短短 3 年時間,上份工作已經10萬月薪了。但讓我驚訝的是,他對架構設計的理解深度與廣度,遠在很多經驗豐富的“老江湖”之上,並且已經完全形成了一套自

原创 字節大數據手冊火了 ! 離線數據/實時數據/數據倉庫ETL/實時交易系統/啥都有 !

最近有幸在一位字節跳動大數據高級工程師手裏扒到了這份學習筆記,將部分知識章節發佈到了在B站上竟然獲得了5000+點贊! 本來想將文件上傳到github上,但由於文件太大有的都無法顯示所以直接整理成多個文件夾,供大家學習,也能爲老鐵們省去

原创 數據湖 | 下一代數倉的實戰攻略

大數據領域,傳統的數倉技術顯然已經無法滿足時代的發展需求。   隨着我國數字化社會的加速構建,“以數據爲基礎,以業務爲核心,依託生產、流通、交易等場景化載體,綜合應用人工智能等新一代信息技術,全面提升企業的智能化運營水平和數字化

原创 爲什麼巨頭公司的Spark、Flink 作業運行都在 YARN 上?

這兩天有粉絲問我,你們公司的 Flink 作業運行在什麼上面?我的回答是:YARN。 之前我做過一些調查,發現目前還是有很多公司的大數據計算平臺離不開 YARN,會將 MapReduce、Spark、Flink 等任務運

原创 又一個巨頭決定徹底放棄數倉,全面擁抱數據中臺!

提起業務流量,除了全民搶票平臺 12306,當數阿里最有發言權。 上到雙十一千億級流量洪峯,下到日均百萬、千萬交易量的平臺,每個業務模塊背後的高併發架構理念,無處不在。 成熟的架構設計只是其一,要取得突破性地業務增速

原创 ElasticSearch 億級數據檢索深度優化

數據平臺已迭代三個版本,從頭開始遇到很多常見的難題,終於有片段時間整理一些已完善的文檔,在此分享以供所需朋友的實現參考,少走些彎路,在此篇幅中偏重於ES的優化。 -     需求說明    - 項目背景

原创 企業級大數據平臺建設參考(續集)

很早之前我寫過一篇《 企業級大數據平臺建設參考 | 淘寶&滴滴&美團&360&快手&京東 》。本文是李智慧老師《大數據技術架構:核心原理與應用實踐》書中的部分內容,來看看來自同程旅行交通首席架構師的分享。可見我和李老師還是英雄所見略同的

原创 用戶標籤&營銷體系的客戶數據平臺(CDP)建設

點擊上方藍色字體,選擇“設爲星標” 回覆”面試“獲取更多驚喜 什麼是 CDP CDP(Customer Data Platform,客戶數據平臺)是由營銷人管理的客戶數據庫,將來自不同渠道、不同場景的實時和非實時的客戶數據進行採集、整

原创 Spark如何協調來完成整個Job的運行詳解

點擊上方 藍色字體 ,選擇“ 設爲星標 ” 回覆”資源“獲取更多資源 恭喜你有毅力看到這裏,先複習: Spark的Cache和Checkpoint區別和聯繫拾遺 Spark Job 邏輯執行圖和數據依賴解析

原创 解除限制!阿里、美團面試真題限時下載!

之前參加了一個技術論壇,有幸認識幾位大佬,本着“近朱者赤近墨者黑”的原則,夢想有朝一日也當上大佬的我只好厚着臉皮要資料,據說有不少小夥伴靠這份祕籍成功掌握了大數據的核心技能,拿到了 BAT Offer。今天無私分享給你們,感謝的話別多說

原创 最新Hive/Hadoop高頻面試點小集合

點擊上方藍色字體,選擇“設爲星標” 回覆”資源“獲取更多資源 Hive部分: 1、Hive的兩張表關聯,使用MapReduce怎麼實現? 如果其中有一張表爲小表,直接使用map端jo

原创 Flink性能調優小小總結

點擊上方 藍色字體 ,選擇“ 設爲星標 ” 回覆”資源“獲取更多資源 1 配置內存 操作場景 Flink是依賴內存計算,計算過程中內存不夠對Flink的執行效率影響很大。可以通過監控GC(Ga