60TB 數據量的作業從 Hive 遷移到 Spark 在 Facebook 的實踐

Facebook 經常使用分析來進行數據驅動的決策。在過去的幾年裏,用戶和產品都得到了增長,使得我們分析引擎中單個查詢的數據量達到了數十TB。我們的一些批處理分析都是基於 Hive 平臺(Apache Hive 是 Facebook 在2009年貢獻給社區的)和 Corona( Facebook 內部的 MapReduce 實現)進行的。Facebook 還針對包括 Hive 在內的多個內部數據存儲,繼續增加了其 Presto 的 ANSI-SQL 查詢的覆蓋範圍。Facebook 內部還支持其他類型的分析,如圖計算、機器學習(Apache Giraph)和流處理(如 Puma、Swift 和 Stylus)。

儘管 Facebook 提供的服務涵蓋了分析領域的廣泛領域,但我們仍在不斷地與開源社區互動,以分享我們的經驗,並向他人學習



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章