重磅推薦:建大數據平臺太難了!給我發個工程原型吧!

 

​1. 故事緣起:我們需要工程原型!

 

從2008年Hadoop成爲Apache的頂級項目開始,大數據技術迎來了十多年的持續發展,其間隨着Spark的異軍突起,整個大數據生態圈又經歷了一次“裝備升級”,變得更加完善和強大。

今天,很多企業已經完成了早期對大數據技術的嘗試和探索轉而進入到應用階段,但不得不說的是,大數據平臺的架構體系龐大,技術堆棧非常深,從事大數據開發的同學對此應該都深有體會。而在很多細分領域(例如實時計算、作業調度)也沒有像樣的工程模板,這一現狀與Java社區使用Spring Boot信手拈來地搭建Web工程原型形成了鮮明瞭對比。

這導致很多團隊在啓動大數據平臺建設時往往感到無所侍從,也使得希望深入學習大數據技術的開發者由於缺少工程級的示例參考而感到迷茫。如果在大數據領域也有基於最佳實踐提煉出來的工程原型,幫助團隊快速啓動開發,上手就寫業務代碼的話,你想了解一下嗎?

在歷時三年的艱苦寫作和源代碼編寫之後,這本凝結了我多年知識積累和從業經驗的《大數據平臺架構與原型實現:數據中臺建設實戰》(點擊書名進入京東購書頁面)終於和大家見面了!本書就是以此爲命題創作的!

在這裏插入圖片描述

↓掃碼獲取詳情↓

在這裏插入圖片描述

(限時活動,下單立減50元)

 

2. 鮮明特色:原型驅動與腳手架項目

 

作爲一名長期堅持在一線編寫代碼的架構師,我曾經參與過多個大數據平臺的設計和開發工作,在長期的工作中積累了一些值得分享的寶貴經驗。同時,在項目初期我還會爲團隊搭建工程原型,在經過多個項目的優化和提煉之後積累了一套成熟通用的原型方案,本書講解的原型系統正是由此而來。

原型系統的8個子項目

原型系統的8個子項目

 

原型系統由8個子項目組成,總計超過2萬行源代碼,已在Github上開源。它們並不是相互孤立的,而是密切協同工作的一個完整平臺,8個子項目會在一個虛擬的輕量業務場景下完成數據採集 、實時處理、數倉建設和作業調度等若干重要環節,直至輸出最後的結果數據。

 

在這裏插入圖片描述

本書原型系統各個子項目在系統架構中的定位與分工

 

本書的原型項目不僅僅是一套示例代碼,而是一個能應用於實際項目的“腳手架”,其源代碼具有很高的參考性和可移植性,將虛擬的業務邏輯抽離之後能很容易地應用到實際項目中,以幫助團隊快速啓動開發工作。

這本書會把大數據平臺的架構設計和原型系統的具體實現結合在一起講解,希望能幫助讀者有效地學習大數據平臺的設計方法和各項技術。

 

3. 正面應對:最實際的技術和管理難題

 

本書的很多建議和做法都是從過去項目的“踩坑”和“填坑”中總結提煉而來,針對的都是非常現實的技術和管理問題,是在一線進行大數據平臺研發必然會面臨的難題,以下列出的未必都是本書的重點,但一定是很多人在實際工作中曾經遇到和思考過的問題:

 

3.1 技術類難題

  • 如何合併每日增量數據?
  • 如何構建2型緩慢變化維度表?
  • 如何生成代理主鍵?
  • 如何處理Hive/Spark SQL腳本中的變量參數?
  • 如何設計流計算工程結構?
  • 如何在數據採集時應對作業超時和數據延遲就緒?
  • 如何設計理想的HBase Rowkey?
  • 如何切分工作流?
  • 如何一鍵編譯並部署項目?

 

3.2 策略與管理類難題

  • 如何判定企業目前對數據的應用能力?
  • 數據中臺如何落地?
  • 如何在數據平臺的長期基礎設施建設和短期上層業務需求之間進行平衡?
  • 當企業從舊的數據平臺向新一代數據中臺遷移時,有沒有“明智”的推進策略協調好兩者之間的關係?

如果你對這些問題也感同身受,那麼我相信這本書一定會對你有所幫助!因爲,所有這些問題書中都給出了答案!

 

4. 內容介紹:涵蓋平臺架構各個環節

 

本書開篇先從數據對企業的價值談起,給出了度量企業數據能力的成熟度模型,然後着重討論了企業如何建設數據團隊,培育數據文化;接着在第二章轉入對中臺架構的詳細介紹,給出了數據中臺建設的建議策略;然後,全書轉入對大平臺建設的具體介紹,包括了:基礎設施建設、平臺架構設計、數據採集、主數據管理、實時計算、批處理與數據倉庫、數據存儲和作業調度等,每個環節獨立成章,每一章會介紹相應主題的架構方案和技術選型,然後結合原型項目講解具體的實現細節。

 

5. ​精華揭祕:通用架構參考與最佳實踐

 

本書的架構方案與工程原型均來數個大數據平臺項目的積累,包含了很多經過繁複打磨和提煉才得以成型的設計方案和做法,其中有很多都已集成進原型項目,沉澱爲了最佳實踐。下面就爲大家揭祕本書的一部分精華內容。

 

5.1 企業數據應用能力和技術成熟度模型

我的企業在數據應用上處於什麼水平?還有哪些欠缺?下一步的發展方向是什麼?本書給出的企業數據應用能力和技術成熟度模型做了準確地度量,幫助企業認清現狀和未來發展方向。

在這裏插入圖片描述

本書推出的企業數據應用能力成熟度模型

在這裏插入圖片描述

本書推出的企業數據應用技術成熟度模型

 

5.2 通用型平臺架構參考

大數據平臺怎麼搭?有哪些數據處理環節和組件?它們之間如何集成?本書給出了一種以Lambda架構爲藍本的通用型架構參考,這個架構曾經歷經多個項目驗證,穩定、可靠並具有廣泛的適用性。

在這裏插入圖片描述

本書推薦的通用型大數據平臺架構參考

 

5.3 千錘百煉的數倉架構

數倉架構,千錘百煉,一切都是最好的安排。本書使用的數倉架構參考了衆多主流架構方案,不管你是從事傳統數倉開發還是在大數據平臺上構建數倉,相信對下面的數倉架構應該不會感到陌生。

在這裏插入圖片描述

本書推薦並使用的數倉架構

 

5.4 實時流計算的工程結構

實時流計算工程怎麼搭?代碼應改如何組織?看看下面這張圖,有沒有似曾相識,豁然開朗的感覺?這一工程結構充分借鑑了Java Web工程的做法,這也折射出我們對流計算的深刻解讀,即:流(Stream)只是流計算的“門面”(Facade),相當於某些MVC框架中的Action,業務實體和邏輯以及數據讀寫都有對應的組件負責,這是在Web應用常年積累出的最佳實踐,也同樣適用於流計算。

在這裏插入圖片描述

本書實時流計算推薦並使用的工程結構

 

5.5 合理有效的工作流切分策略

大數據平臺上作業衆多,相互之間關係密切,如何合理的組織工作流是一個很棘手的問題。本書提出的切分策略既能減輕作業間依賴又能很好的遵循業務主題,是對數據倉庫工作深度剖析之後的經驗總結。

在這裏插入圖片描述

本書推薦並使用的工作流切分策略

 

6. 適用讀者:技術開發與管理者

 

6.1 架構師、技術負責人

如果你是一位架構師或團隊技術負責人,這本書可以幫助你提升對大數據平臺的整體把控力。如果你的大數據平臺尚在規劃中,本書提出的架構方案和原型項目可以作爲你的重要參考;如果你的平臺已經進入實施階段,對於長期積累的技術債務和將要擴展的新能力,本書提出的一些解決方案也會對你有所幫助。

 

6.2 開發人員

如果你是有一定技術背景的工程師,想往大數據領域轉型,或者你已經是大數據領域內的中高級大數據開發人員,想要拓寬自己的技術堆棧,建議你有針對性地選擇數據處理流程中具體環節,結合原型項目代碼深入地學習其中的技術細節。

 

6.3 CIO、CTO、顧問諮詢

如果你是CIO、CTO或顧問諮詢,本書的第1、2、4章對於幫助你定製企業數據戰略、規劃數據平臺藍圖及組建數據團隊都有重要的參考價值。

 

7. 業界領袖親力推薦

 

這本書的架構理論、方案和一些重要建議都經過了實踐檢驗,並取得了良好的效果,我相信書中的知識和見解可以複用於很多企業,幫助他們打破信息孤島,將線上與線下渠道連接在一起,爲消費者提供更佳的用戶體驗,並幫助企業在激烈的市場競爭中迅速而敏捷地捕捉商機。


歐萊雅集團亞太區首席信息官
Rita Lau

本書涵蓋了大數據平臺建設的全部環節,通讀下來,整體上實操性很強,架構原理融於了工程原型的搭建過程,對於希望自己動手實踐的讀者會很有幫助,同時在操作步驟中介紹了相應的邏輯及設計,有利於讀者更好地領會背後的原理。在今天這個時代,我們不見得要自己搭建整個平臺,但是瞭解原理可以讓自己工作起來事半功倍,不管是自己搭建,還是利用成熟平臺,懂得理論,明白實踐,再開始在企業中搭建數據驅動內部經營的完善體系就會胸有成竹、遊刃有餘。


彩食鮮CTO、鯤鵬會榮譽導師、蘇寧科技集團原副總裁
喬新亮

這本書的理論基礎紮實,架構方案完備,更難能可貴的是它還有豐富詳實的原型系統代碼供讀者參考和學習,這對很多讀者來說是一份寶貴的“禮物”,而作爲企業的CTO,這本書給我的驚喜還在於除了技術之外,它還對企業的數據戰略和中臺架構做了精彩的論述,對很多企業構建數據中臺都有指導意義。這是一本很有誠意,乾貨滿滿的書,不僅對程序員、架構師有幫助,也同樣適合CIO、CTO。


華住集團技術副總裁及盟廣CTO
王曉光

數據中臺的概念滿天飛,但是數據中臺的落地始終是一個難點,很難統一。將數據中臺的核心通用組件抽象出來,一步步地指導企業如何去構建,這會是數據中臺領域的下一個課題。這本書率先在這一方向上進行了系統地闡述,它從數據中臺的概念出發,然後快速落地到實踐指導層面,講解如何從零開始構建數據中臺的核心組件,它是一本靠堅實的實踐積累出來的好書!


​ThoughtWorks數據智能總經理
史凱

 

8. 行業專家評論

 

企業品牌方在運營管理中一項非常重要的任務是提升用戶留存率並擴大產品用戶羣,而數據在其中起到的作用至關重要,但凡能做出一番成績的公司,都必定有一個具有自己DNA的數據分析團隊,他們在進行各類數據分析時,離不開強大而完善的大數據平臺。然而,常規的IT數據團隊對於業務方的需求及數據應用不甚瞭解,這本書對致力於在品牌方的數據工程師有很大的參考價值,可以幫助他們對大數據平臺有一個全面的認識,瞭解數據從獲取到產出爲分析結果這一過程中發生的事情,能更好的與業務部門協作,實現大數據賦能。


歐萊雅(中國)有限公司大衆化妝品部 大數據總監
唐雯

本書作者曾經分享過很多在中臺系統落地過程中遇到的問題及解決方案,這些方法論在我們搭建營銷相關的業務中臺過程中有很多啓示作用。而數據中臺也是助力企業數字化轉型的核心動力之一,它能爲業務發展提供強大的數據支撐和靈活決策支持。在我們經歷每日千萬級交易數據的中臺建設過程中,深刻地體會到數據中臺在數據驅動創新方面的價值。本書詳細介紹了數據中臺的技術選型和架構方案,以及落地過程中的一些關鍵要素。希望本書能夠幫助讀者快速搭自己企業的數據中臺,爲業務發展助力。


餓了麼營銷中臺 架構師
宋豔飛

本書的作者是一位深耕於大數據領域,並一直奮戰在一線編寫代碼的架構師,作者憑藉自身十多年的設計和研發經驗,歸納總結出了這本通俗易懂的大數據架構和技術書籍。從企業數據戰略規劃到架構方案設計與技術選型都給我們帶來了有益的幫助和啓發,並從開發人員最實際的需要出發給出了詳細的工程代碼,從理論到實戰都進行了專業而細緻的講解。


埃森哲(中國)有限公司 技術架構經理
張俊

這是一本富有實戰色彩的大數據新作,匯聚了作者寶貴的經驗與獨到的觀點。本書涵蓋的知識與內容非常豐富,並呈縱深化結構,除技術內容之外,還包括與大數據平臺配套的人才能力、組織架構與管理方法論,適合不同級別的讀者。除了信息技術行業的專業人士外,我也極力推薦此書給從事科技行業與數據合規的法律人士,嘗試用微觀視角來深入剖析近年來火爆的大數據技術及中臺等概念。


​希爾頓酒店集團 亞太區數據保護官,國際信息隱私專家協會前上海分會主席
李宵聲

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章