Spark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析。Spark由加州伯克利大学AMP实验室Matei为主的小团队使用Scala开发开发,其核心部分的代码只有63个Scala文件,非常轻量级。 Spark 提供了与 Hadoop 相似的开源集群计算环境,但基于内存和迭代优化的设计,Spark 在某些工作负载表现更优秀。 在2014上半年,Spark开源生态系统得到了大幅增长,已成为大数据领域最活跃的开源项目之一,当下已活跃在Hortonworks、IBM、Cloudera、MapR和Pivotal等众多知名大数据公司。那么Spark究竟以什么吸引了如此多的关注,这里我们看向Dzone上的6个总结。 1. 轻量级快速处理。着眼大数据处理,速度往往被置于第一位,我们经常寻找能尽快处理我们数据的工具。Spark允许Hadoop集群中的应用程序在内存中以100倍的速度运行,即使在磁盘上运行也能快10倍。Spark通过减少磁盘IO来达到性能提升,它们将中间处理数据全部放到了内存中。
Spark使用了RDD(Resilient Distributed Dataset)的理念,这允许它可以透明的内存中存储数据,只在需要时才持久化到磁盘。这种做法大大的减少了数据处理过程中磁盘的读写,大幅度的降低了所需时间。 2. 易于使用,Spark支持多语言。Spark允许Java、Scala及Python,这允许开发者在自己熟悉的语言环境下进行工作。它自带了80多个高等级操作符,允许在shell中进行交互式查询。 3. 支持复杂查询。在简单的“map”及“reduce”操作之外,Spark还支持SQL查询、流式查询及复杂查询,比如开箱即用的机器学习机图算法。同时,用户可以在同一个工作流中无缝的搭配这些能力。
4.实时的流处理。 对比MapReduce只能处理离线数据,Spark支持实时的流计算。Spark依赖SparkStreaming对数据进行实时的处理,当然在YARN之后Hadoop也可以借助其他
|
大数据为什么要选择Spark
ark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析。Spark由加州伯克利大学AMP实验室Matei为主的小团队使用Scala开发开发,其核心部分的代码只有63个Scala文件,
|
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章
Sql Server数据库sql语句去除所有空格
原創
2024-05-08 23:32:56
Apache DolphinScheduler 4月简报:社区发展与技术革新速递
原創
2024-05-08 21:19:32
神策数据:详解保险 OMO 一体化的关键步骤
原創
2024-05-11 22:04:29
数仓安全:数据脱敏技术深度解析
原創
2024-05-10 23:30:54
以全要素数据资产连接为核心的数据治理与运营
原創
2024-05-09 13:12:55
【开启报名】同学看过来,Apache DolphinScheduler开源之夏课题任务正式发布!
原創
2024-05-09 11:55:30
爱奇艺数据湖实战 - 实时湖仓一体化
01 概述 數據是洞察用戶、市場、運營決策的基礎資料,在愛奇藝被廣泛應用在推薦、廣告、用戶增長、營銷等場景中。愛奇藝大數據業務之前採用 Lambda 架構,滿足海量
愛奇藝技術產品團隊
2024-05-09 01:18:23
企业IT架构治理之道| 京东云技术团队
原創
2024-05-07 23:17:13
京东科技数字化营销能力的演进与最佳实践| 京东云技术团队
原創
2024-05-07 23:17:11
01-电商商品中心解密:仅凭SKU真的足够吗?
原創
2024-05-07 01:08:03
电子合同一站式解决方案 | 京东云技术团队
原創
2024-05-06 23:16:37
巧用 TiCDC Syncpiont 构建银行实时交易和准实时计算一体化架构
原創
2024-04-30 22:24:58
Apache DolphinScheduler支持Flink吗?
原創
2024-04-30 11:49:27
华为云云原生FinOps解决方案,释放云原生最大价值
原創
2024-04-29 22:33:46