Spark是一個基於內存計算的開源集羣計算系統,目的是更快速的進行數據分析。Spark由加州伯克利大學AMP實驗室Matei爲主的小團隊使用Scala開發開發,其核心部分的代碼只有63個Scala文件,非常輕量級。 Spark 提供了與 Hadoop 相似的開源集羣計算環境,但基於內存和迭代優化的設計,Spark 在某些工作負載表現更優秀。 在2014上半年,Spark開源生態系統得到了大幅增長,已成爲大數據領域最活躍的開源項目之一,當下已活躍在Hortonworks、IBM、Cloudera、MapR和Pivotal等衆多知名大數據公司。那麼Spark究竟以什麼吸引瞭如此多的關注,這裏我們看向Dzone上的6個總結。 1. 輕量級快速處理。着眼大數據處理,速度往往被置於第一位,我們經常尋找能儘快處理我們數據的工具。Spark允許Hadoop集羣中的應用程序在內存中以100倍的速度運行,即使在磁盤上運行也能快10倍。Spark通過減少磁盤IO來達到性能提升,它們將中間處理數據全部放到了內存中。
Spark使用了RDD(Resilient Distributed Dataset)的理念,這允許它可以透明的內存中存儲數據,只在需要時才持久化到磁盤。這種做法大大的減少了數據處理過程中磁盤的讀寫,大幅度的降低了所需時間。 2. 易於使用,Spark支持多語言。Spark允許Java、Scala及Python,這允許開發者在自己熟悉的語言環境下進行工作。它自帶了80多個高等級操作符,允許在shell中進行交互式查詢。 3. 支持複雜查詢。在簡單的“map”及“reduce”操作之外,Spark還支持SQL查詢、流式查詢及複雜查詢,比如開箱即用的機器學習機圖算法。同時,用戶可以在同一個工作流中無縫的搭配這些能力。
4.實時的流處理。 對比MapReduce只能處理離線數據,Spark支持實時的流計算。Spark依賴SparkStreaming對數據進行實時的處理,當然在YARN之後Hadoop也可以藉助其他
|
大數據爲什麼要選擇Spark
ark是一個基於內存計算的開源集羣計算系統,目的是更快速的進行數據分析。Spark由加州伯克利大學AMP實驗室Matei爲主的小團隊使用Scala開發開發,其核心部分的代碼只有63個Scala文件,
|
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章
Sql Server數據庫sql語句去除所有空格
原創
2024-05-08 23:32:56
Apache DolphinScheduler 4月簡報:社區發展與技術革新速遞
原創
2024-05-08 21:19:32
以全要素數據資產連接爲核心的數據治理與運營
原創
2024-05-09 13:12:55
【開啓報名】同學看過來,Apache DolphinScheduler開源之夏課題任務正式發佈!
原創
2024-05-09 11:55:30
愛奇藝數據湖實戰 - 實時湖倉一體化
01 概述 數據是洞察用戶、市場、運營決策的基礎資料,在愛奇藝被廣泛應用在推薦、廣告、用戶增長、營銷等場景中。愛奇藝大數據業務之前採用 Lambda 架構,滿足海量
愛奇藝技術產品團隊
2024-05-09 01:18:23
企業IT架構治理之道| 京東雲技術團隊
原創
2024-05-07 23:17:13
京東科技數字化營銷能力的演進與最佳實踐| 京東雲技術團隊
原創
2024-05-07 23:17:11
01-電商商品中心解密:僅憑SKU真的足夠嗎?
原創
2024-05-07 01:08:03
電子合同一站式解決方案 | 京東雲技術團隊
原創
2024-05-06 23:16:37
巧用 TiCDC Syncpiont 構建銀行實時交易和準實時計算一體化架構
原創
2024-04-30 22:24:58
Apache DolphinScheduler支持Flink嗎?
原創
2024-04-30 11:49:27
華爲云云原生FinOps解決方案,釋放雲原生最大價值
原創
2024-04-29 22:33:46
三喜臨門!信必優連收三家金融行業客戶表揚信
原創
2024-04-29 22:32:22
數字化轉型新篇章:企業通往智能化的新範式
原創
2024-04-29 21:22:20