E-MapReduce彈性低成本離線大數據分析

作者:明譽


大數據是一項涉及不同業務和技術領域的技術和工具的集合,海量離線數據分析可以應用於多種商業系統環境,例如,電商海量日誌分析、用戶行爲畫像分析、科研行業的海量離線計算分析任務等場景。

離線大數據分析概述

主流的三大分佈式計算框架系統分別爲Hadoop、Spark和Storm:

  • Hadoop可以運用在很多商業應用系統,可以輕鬆集成結構化、半結構化以及非結構化數據集。
  • Spark採用了內存計算,允許數據載入內存作反覆查詢,融合數據倉庫、流處理和圖形計算等多種計算範式,能夠與Hadoop很好地結合。
  • Storm適用於處理高速、大型數據流的分佈式實時計算,爲Hadoop添加可靠的實時數據處理能力。

海量離線數據分析可以應用於多種場景,例如:

  • 商業系統環境:電商海量日誌分析、用戶行爲畫像分析。
  • 科研行業:海量離線計算分析和數據查詢。
  • 遊戲行業:遊戲日誌

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章