2020年重磅喜訊！熱烈祝賀王家林大咖大數據經典傳奇著作《Spark大數據商業實戰三部曲》暢銷書籍第二版清華大學出版社發行上市! 前浪致 Spark + AI 後浪

大咖心聲

Apache Spark已是我的天涯。
進，看不見幸福。
退，看不見你。

在Data + AI的漫漫黑夜中，Spark 猶如火花閃現。
這不是終結，
而是開天闢地的第一束數據智能火光。
愛，止於此。
心，也止於此。
止於此，春便還是春，夏便還是夏。
風止於秋水。
我，止於你。

——王家林2020年春分於硅谷

新書圖片

新書介紹

編輯推薦

基於最新的Spark2.4.X版本，分爲內核解密篇，商業案例篇，性能調優篇和Spark+AI解密篇，共32章，學習過程中有任何疑問，可加入QQ羣418110145，有專業人員答疑解惑。

內容簡介

在大數據和AI緊密協同時代，最佳的AI系統依賴海量數據才能構建出高度複雜的模型，海量數據需要藉助Al才能挖掘出終極價值。本書以數據智能爲靈魂，以Spark 2.4.X版本爲載體，以Spark+ AI商業案例實戰和生產環境下幾乎所有類型的性能調優爲核心，對企業生產環境下的Spark+AI商業案例與性能調優抽絲剝繭地進行剖析。全書共分4篇，內核解密篇基於Spark源碼，從一個實戰案例入手，循序漸進地全面解析Spark 2.4.X版本的新特性及Spark內核源碼;商業案例篇選取Spark開發中最具代表性的經典學習案例，在案例中綜合介紹Spark的大數據技術;性能調優篇覆蓋Spark在生產環境下的所有調優技術; Spark+ AI內幕解密篇講解深度學習動手實踐，通過整合Spark、PyTorch以及TensorFlow揭祕Spark上的深度學習內幕。
本書適合所有大數據和人工智能學習者及從業人員使用。對於有豐富大數據和AI應用經驗的人員，本書也可以作爲大數據和AI高手修煉的參考用書。同時，本書也特別適合作爲高等院校的大數據和人工智能教材。

作者簡介

王家林，Apache Spark執牛耳者現工作於硅谷的AI實驗室，專注於NLP框架超過20本Spark、Al、Android書籍作者Toastmasters International Division Director GRE博士入學考試連續兩次滿分獲得者
　　
段智華，就職於中國電信股份有限公司上海分公司，系統架構師，CSDN博客專家，專注於Spark大數據技術研發及推廣，跟隨Spark核心源碼技術的發展，深入研究Spark 2.1.1版本及Spark 2.4.0版本的源碼優化，對Spark大數據處理、機器學習等技術有豐富的實戰經驗和濃厚興趣。

新書目錄

第1篇內核解密篇
第1章電光石火間體驗Spark 2．4 開發實戰
1．1 通過RDD實戰電影點評系統入門及源碼閱讀
1．1．1 Spark核心概念圖解
1．1．2 通過RDD實戰電影點評系統案例
1．2 通過DataFrame和DataSet實戰電影點評系統
1．2．1 通過DataFrame實戰電影點評系統案例
1．2．2 通過DataSet實戰電影點評系統案例
1．3 Spark2．4 源碼閱讀環境搭建及源碼閱讀體驗
第2章 Spark 2．4 技術及原理
2．1 Spark 2．4 綜述
2．1．1 連續應用程序
2．1．2 新的API
2．2 Spark 2．4 Core
2．2．1 第二代Tungsten引擎
2．2．2 SparkSession
2．2．3 累加器API
2．3 Spark 2．4 SQL
2．3．1 Spark SQL
2．3．2 DataFrame和Dataset API
2．3．3 Timed Window
2．4 Spark 2．4 Streaming
2．4．1 Structured Streaming
2．4．2 增量輸出模式
2．5 Spark 2．4 MLlib
2．5．1 基於DataFrame的Machine Learning API
2．5．2 R的分佈式算法
2．6 Spark 2．4 GraphX
第3章 Spark的靈魂：RDD和DataSet
3．1 爲什麼說RDD和DataSet是Spark的靈魂
3．1．1 RDD的定義及五大特性剖析
3．1．2 DataSet的定義及內部機制剖析
3．2 RDD彈性特性7個方面解析
3．3 RDD依賴關係
3．3．1 窄依賴解析
3．3．2 寬依賴解析
3．4 解析Spark中的DAG邏輯視圖
3．4．1 DAG生成的機制
3．4．2 DAG邏輯視圖解析
3．5 RDD內部的計算機制
3．5．1 Task解析
3．5．2 計算過程深度解析
3．6 SparkRDD容錯原理及其四大核心要點解析
3．6．1 Spark RDD容錯原理
3．6．2 RDD容錯的四大核心要點
3．7 SparkRDD中Runtime流程解析
3．7．1 Runtime架構圖
3．7．2 生命週期
3．8 通過WordCount實戰解析Spark RDD內部機制
3．8．1 Spark WordCount動手實踐
3．8．2 解析RDD生成的內部機制
3．9 基於DataSet的代碼如何轉化爲RDD
第4章 Spark Driver啓動內幕剖析
4．1 Spark Driver Program剖析
4．1．1 Spark Driver Program
4．1．2 SparkContext深度剖析
4．1．3 SparkContext源碼解析
4．2 DAGScheduler解析
4．2．1 DAG的定義
4．2．2 DAG的實例化
4．2．3 DAGScheduler劃分Stage的原理
4．2．4 DAGScheduler劃分Stage的具體算法
4．2．5 Stage內部Task獲取最佳位置的算法
4．3 TaskScheduler解析
4．3．1 TaskScheduler原理剖析
4．3．2 TaskScheduler源碼解析
4．4 SchedulerBackend解析
4．4．1 SchedulerBackend原理剖析
4．4．2 SchedulerBackend源碼解析
4．4．3 Spark程序的註冊機制
……

第2篇商業案例篇
第3篇性能調優篇
第4篇 Spark+AI解密篇

第二版前言

2019年 4月，在美國舊金山舉辦的 Spark+AI峯會提出，大數據和人工智能需要統一，人工智能應用需要大量的、不斷更新的訓練數據來構建先進的模型。到目前爲止， Apache Spark是唯一一個將大規模數據處理與機器學習和人工智能算法完美結合的引擎。
　　Apache Spark是大數據領域的通用計算平臺。在 Full Stack思想的指導下， Spark中的 Spark SQL、Spark Streaming、MLLib、GraphX、R五大子框架和庫之間可以無縫地共享數據和操作，這不僅形成了 Spark在當今大數據計算領域其他計算框架無可匹敵的優勢，而且使其加速成爲大數據處理中心首選的通用計算平臺。
　　回顧 Spark的歷史可以發現，在任何規模的數據計算中， Spark在性能和擴展性上都更具優勢。
　　Hadoop之父 Doug Cutting指出：大數據項目的 MapReduce引擎的使用將下降，由 Apache Spark取代。
　　Hadoop商業發行版本的市場領導者 Cloudera、HortonWorks、MapR紛紛轉投 Spark，並把 Spark作爲大數據解決方案的首選和核心計算引擎。
　　在 2014年的 Sort Benchmark測試中，Spark秒殺 Hadoop，在使用其十分之一計算資源的情況下，對相同數據的排序， Spark比 MapReduce快 3倍。在沒有官方千萬億字節（ PB）排序對比的情況下，首次利用 Spark對 1PB數據（ 10萬億條記錄）排序，在使用 190個節點的情況下，工作負載在 4小時內完成，同樣遠超雅虎之前使用 3800臺主機耗時 16小時的記錄。
　　2015年 6月，Spark最大的集羣—— 8000個節點來自騰訊，單個最大 Job——1PB來自阿里巴巴和 Databricks。
　　IBM公司於 2015年 6月承諾大力推進 Apache Spark項目，並稱該項目爲以數據爲主導的、未來 10年最重要的、新的開源項目。
　　2016年，在有“計算界奧運會”之稱的國際著名 Sort Benchmark全球數據排序大賽中，由南京大學計算機科學與技術系 PASA大數據實驗室、阿里巴巴和 Databricks公司組成的參賽團隊 NADSort，使用 Apache Spark大數據計算平臺，以 144美元的成本完成了 100TB標準數據集的排序處理，創下了每萬億字節（ TB）數據排序 1.44美元成本的世界紀錄。
　　2017年，Spark Structured streaming發佈無縫整合流處理和其他計算範式。
　　2018年，Spark 2.4.0發佈，成爲全球最大的開源項目。
　　2019年，任何個人和組織都可以基於 Spark打造符合自己需求的基於大數據的 AI全生態鏈計算引擎。
　　本書以 Spark 2.4.3爲基礎，在第 1版的基礎上根據 Spark的新版本全面更新源碼，並以 TensorFlow和 PyTorch爲核心，大幅度增加人工智能的內容及相應的實戰案例。本書以 Spark內核解密爲基石，分爲內核解密篇、商業案例篇、性能調優篇和 Spark+AI內幕解密篇。雖然本書的內容增加了一篇，爲了更好地與第 1版延續，仍沿用三部曲的書名。
　　（1）內核解密篇。第 1版基於 Spark 2.2.X版本源碼，從一個動手實戰案例入手，循序漸進地全面解析了 Spark 新特性及 Spark內核源碼。第 2版在第 1版的基礎上，將 Spark 2.2.X
　　源碼更新爲 Spark 2.4.X源碼，並對源碼的版本更新做了詳細解讀，幫助讀者學習 Spark源碼框架的演進及發展。
　　（2）商業案例篇。沿用第 1版的案例內容，選取 Spark開發中最具代表性的經典學習案例，深入淺出地介紹綜合應用 Spark的大數據技術。
　　（3）性能調優篇。第 1版基於 Spark 2.2.X源碼，基本完全覆蓋了 Spark在生產環境下的所有調優技術；第 2版在第 1版的基礎上，將 Spark 2.2.X源碼更新爲 Spark 2.4.X源碼，基於 Spark 2.4.X版本講解 Spark性能調優的內容。
　　（4）Spark+AI內幕解密篇。本篇是第 2版的全新內容，大幅度增加大數據在人工智能領域的應用內容，包括深度學習動手實踐：人工智能下的深度學習、深度學習數據預處理、單節點深度學習訓練、分佈式深度學習訓練； Spark+PyTorch案例實戰： PyTorch在 Spark上的安裝、使用 PyTorch實戰圖像識別、 PyTorch性能調優最佳實踐； Spark+TensorFlow實戰： TensorFlow在 Spark上的安裝、 TensorBoard解密、 Spark TensorFlow的數據轉換； Spark上的深度學習內核解密：使用 TensorFlow進行圖片的分佈式處理、數據模型源碼剖析、邏輯節點源碼剖析、構建索引源碼剖析、深度學習下 Spark作業源碼剖析、性能調優最佳實踐。
　　在閱讀本書的過程中，如發現任何問題或有任何疑問，可以加入本書的閱讀羣（QQ： 418110145）討論，會有專人答疑。同時，該羣也會提供本書所用案例源碼及本書的配套學習視頻。作者的新浪微博是 http：//weibo.com/ilovepains/，歡迎大家在微博上與作者進行互動。
　　由於時間倉促，書中難免存在不妥之處，請讀者諒解，並提出寶貴意見。
　　王家林 2020年 4月於美國硅谷

第一版前言

大數據像當年的石油、人工智能（ Artificial Intelligence），像當年的電力一樣，正以前所未有的廣度和深度影響所有的行業，現在及未來公司的核心壁壘是數據，核心競爭力來自基於大數據的人工智能的競爭。 Spark是當今大數據領域最活躍、最熱門、最高效的大數據通用計算平臺， 2009年誕生於美國加州大學伯克利分校 AMP實驗室，2010年正式開源， 2013年成爲 Apache基金項目， 2014年成爲 Apache基金的頂級項目。基於 RDD，Spark成功構建起了一體化、多元化的大數據處理體系。
　　在任何規模的數據計算中， Spark在性能和擴展性上都更具優勢。
　　（1）Hadoop之父 Doug Cutting指出：Use of MapReduce engine for Big Data projects will decline， replaced by Apache Spark（大數據項目的 MapReduce引擎的使用將下降，由 Apache Spark取代）。
　　（2）Hadoop商業發行版本的市場領導者 Cloudera、HortonWorks、MapR紛紛轉投 Spark，並把 Spark作爲大數據解決方案的首選和核心計算引擎。
　　2014年的 Sort Benchmark測試中，Spark秒殺 Hadoop，在使用十分之一計算資源的情況下，相同數據的排序上， Spark比 MapReduce快 3倍！在沒有官方千萬億字節（ PB）排序對比的情況下，首次將 Spark推到了 1PB數據（ 10萬億條記錄）的排序，在使用 190個節點的情況下，工作負載在 4小時內完成，同樣遠超雅虎之前使用 3800臺主機耗時 16個小時的記錄。
　　2015年 6月，Spark最大的集羣—— 8000個節點來自騰訊，單個 Job——1PB最大分別是阿里巴巴和 Databricks，震撼人心！同時， Spark的 Contributor比 2014年漲了 3倍，達到 730人；總代碼行數也比 2014年漲了 2倍多，達到 40萬行。IBM於 2015年 6月承諾大力推進 Apache Spark項目，並稱該項目爲：以數據爲主導的，未來十年最重要的新的開源項目。
　　這一承諾的核心是將 Spark嵌入 IBM業內領先的分析和商務平臺，並將 Spark作爲一項服務，在 IBMBluemix平臺上提供給客戶。 IBM還將投入超過 3500名研究和開發人員在全球 10餘個實驗室開展與 Spark相關的項目，並將爲 Spark開源生態系統無償提供突破性的機器學習技術——IBM SystemML。同時，IBM還將培養超過 100萬名 Spark數據科學家和數據工程師。
　　2016年，在有“計算界奧運會”之稱的國際著名 Sort Benchmark 全球數據排序大賽中，
　　由南京大學計算機科學與技術系 PASA大數據實驗室、阿里巴巴和 Databricks公司組成的參賽團隊 NADSort，以 144美元的成本完成 100TB標準數據集的排序處理，創下了每萬億字節（TB）數據排序 1.44美元成本的最新世界紀錄，比 2014年奪得冠軍的加州大學聖地亞哥分校 TritonSort團隊每萬億字節數據 4.51美元的成本降低了近 70%，而這次比賽依舊使用 Apache Spark大數據計算平臺，在大規模並行排序算法以及 Spark系統底層進行了大量的優化，以盡
　　可能提高排序計算性能並降低存儲資源開銷，確保最終贏得比賽。
　　在 Full Stack理想的指引下， Spark中的 Spark SQL、SparkStreaming、MLLib、GraphX、 R五大子框架和庫之間可以無縫地共享數據和操作，這不僅打造了 Spark在當今大數據計算領域其他計算框架都無可匹敵的優勢，而且使得 Spark正在加速成爲大數據處理中心首選通用計算平臺，而 Spark商業案例和性能優化必將成爲接下來的重中之重！
　　本書根據王家林老師親授課程及結合衆多大數據項目經驗編寫而成，其中王家林、段智華編寫了本書近 90%的內容，具體編寫章節如下。
　　第3章 Spark的靈魂： RDD和 DataSet；
　　第4章 Spark Driver啓動內幕剖析；
　　第5章 Spark集羣啓動原理和源碼詳解；
　　第6章 Spark Application提交給集羣的原理和源碼詳解；
　　第7章 Shuffle原理和源碼詳解；
　　第8章 Job工作原理和源碼詳解；
　　第9章 Spark中 Cache和 checkpoint原理和源碼詳解；
　　第10章 Spark中 Broadcast和 Accumulator原理和源碼詳解；
　　第11章 Spark與大數據其他經典組件整合原理與實戰；
　　第12章 Spark商業案例之大數據電影點評系統應用案例；
　　第13章 Spark 2.2實戰之 Dataset開發實戰企業人員管理系統應用案例；
　　第14章 Spark商業案例之電商交互式分析系統應用案例；
　　第15章 Spark商業案例之 NBA籃球運動員大數據分析系統應用案例；
　　第16章電商廣告點擊大數據實時流處理系統案例；
　　第17章 Spark在通信運營商生產環境中的應用案例；
　　第18章使用 Spark GraphX實現婚戀社交網絡多維度分析案例；
　　第23章 Spark集羣中 Mapper端、Reducer端內存調優；
　　第24章使用 Broadcast實現 Mapper端 Shuffle聚合功能的原理和調優實戰；
　　第25章使用 Accumulator高效地實現分佈式集羣全局計數器的原理和調優案例；
　　第27章 Spark五大子框架調優最佳實踐；
　　第28章 Spark 2.2.0新一代鎢絲計劃優化引擎；
　　第30章 Spark性能調優之數據傾斜調優一站式解決方案原理與實戰；
　　第31章 Spark大數據性能調優實戰專業之路。
　　其中，段智華根據自身多年的大數據工作經驗對本書的案例等部分進行了擴展。
　　除上述章節外，剩餘內容由夏陽、鄭採翎、閆恆偉三位作者根據王家林老師的大數據授課內容而完成。

新書案例講解

Spark+AI新書介紹

Spark+AI新書介紹及大數據電影點評案例講解

第二版網購鏈接

《Spark大數據商業實戰三部曲》第二版購書鏈接

618是京東優惠力度最大的活動！新書現在優惠150元，讀者朋友們請抓緊時間購買！
5月27日00:00:00——5月31日23:59:59
優惠力度
自營圖書每滿100減50
滿減疊券享500減300

新書資訊

1.微博：王家林大咖微博

2.新書代碼： GitHub代碼庫
3.微信視頻號：段智華
4.知識星球：Spark+AI清華大學新書（星球內提供大量電子書資料）
5.微信羣：段智華@SPARK+AI清華新書讀者羣
6.CSDN博客

獻給Spark+AI的“後浪”

那些口口聲聲，一代不如一代的人，
應該看着你們，像我一樣。
我看着你們，滿懷羨慕。
大數據及人工智能行業積攢了幾十年的技術經驗，
所有的Spark、Tensorflow、Pytorch框架、機器學習深度學習算法、Java、Python軟件和架構，
像是專門爲你們準備的禮物。

科技強國戰略、人工智能技術先進、科技人才輩出
Spark+AI的科學成果被層層打開，
可以盡情享用。

自由學習一門語言，
學習一種框架，
欣賞一本新書，
到遙遠的地方旅行。

很多人從小你們就在自由探索自己的計算機興趣，
很多人在童年就進入了不惑之年，
不惑於自己喜歡什麼，
不喜歡什麼

Spark+AI科學家之間的壁壘被打破，
你們只憑相同的Spark+AI技術，
就能結交千萬個值得一起爲Spark+AI奮鬥的朋友。

你們擁有了，我們曾經夢寐以求的權利，
選擇的權利。
你所選擇的Spark+AI，就是你的生活。
你們有幸遇見這樣一個Spark+AI的人工智能時代，
但是Spark+AI人工智能時代更有幸遇見這樣的你們。

我看着你們，滿懷敬意，向你們的專業態度致敬。
你們正在把經典的變成分佈式的，
把學術的變成大衆的，
把國內的變成世界領先的，
把傳統的變成人工智能的。

你們把自己的Spark+AI代碼，
變成了一個和成千上萬的人分享快樂的事業，
向你們的自信致敬。

弱小的人才習慣嘲諷和否定，
Spark+AI科學家從不吝嗇讚美和鼓勵，
向你們的大氣致敬。

小人同而不和，
Spark+AI科學家美美與共，和而不同。

更年輕的身體，容得下更多元的文化、審美和價值觀。
有一天我終於發現，
不只是我們在教你們如何生活，
你們也在啓發我們怎樣去更好的生活。

那些抱怨一代不如一代的人，
應該看着你們，就像我一樣。
我看着你們，滿懷感激。
因爲你們，
這個世界會更喜歡中國，
因爲一個國家最好看的風景，
就是這個國家的Spark+AI科學家。

因爲你們，
這世上的微信視頻號、微博、公衆號、書籍所表現的青春，
就不再是焦慮、迷茫,
而是善良、勇敢、無私，
是心裏有Spark之火，眼裏有AI之光

不用活成我們想象中的樣子，
我們這一代人的想象力，
不足以想象你們AI世界的未來。

如果你們依然需要我們的祝福，那麼，
奔湧吧，後浪！
我們在同一條奔湧的Spark+AI浪潮。

2020年重磅喜訊！熱烈祝賀王家林大咖大數據經典傳奇著作《Spark大數據商業實戰三部曲》暢銷書籍第二版清華大學出版社發行上市! 前浪致 Spark + AI 後浪