馬鐵大神的 Apache Spark 十年回顧

首先祝大家端午節快樂,幸福安康。

就在上週五, Apache Spark 3.0 全新發布,此版本給我們帶來了許多重要的特性,感興趣的同學可以看下這篇文章: Apache Spark 3.0.0 正式版終於發佈了,重要特性全面解析 。

Spark 是從 2010 年正式開源,到今年正好整整十年了!

一年一度的 Spark+AI SUMMIT 在本週正在如火如荼的進行。Apache Spark 的發明者馬鐵大神給我們帶來了 Apache Spark 3.0 介紹:回顧 Spark 過去十年,以及未來展望

大神首先激情回顧了自己過去十年的情況,介紹了發明 Spark 的目的,以及後面幾年 Spark 的發展。

Apache Spark 大概是從 2009年8月開始開發的

2010年 Spark 正式開源

2010-2011年期間開始有大量的用戶使用,產生了許多預料之外的案例。

2012-2015年期間社區對 Spark 加了很多擴充,在語言支持上增加了 Python、R 以及 SQL 等;在類庫上增加了 ML、圖以及實時流處理功能;添加了許多高層次的 API。

今天,數磚公司的產品中 68% 的 notebook 命令都是使用 Python 寫的。

超過 90% 的 Spark API 都是通過調用 Spark SQL 進行的,所以搞到最後 Spark SQL 纔是最重要的東西,其底層的優化器爲大多數作業進行優化。最近發佈的 Spark 3.0 的 TPC-DS 測試性能比 Spark 2.4 提升近2倍,甚至比 Presto 還快!

數磚的產品每天處理5萬億條數據。

過去幾年學到的經驗:

  1. 產品的易用性很重要

  2. 支持最佳實踐的 API

接下來馬鐵大神簡單介紹了 Apache Spark 3.0 的新功能:感興趣的同學也可以到過往記憶大數據的 Apache Spark 3.0.0 正式版終於發佈了,重要特性全面解析 去看看。

猜你喜歡

1、Apache Spark 3.0.0 正式版終於發佈了,重要特性全面解析

2、來自 Facebook 的 Spark 大作業調優經驗

3、Apache Spark 在eBay 的優化

4、Spark 3.0 自適應查詢優化介紹,在運行時加速 Spark SQL 的執行性能

過往記憶大數據微信羣,請添加微信:fangzhen0219,備註【進羣】

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章