在数据领域可用的框架中,只有少数框架在采用和交付方面达到了Spark的水平。显然,该框架已经成为一个赢家,特别是在数据工程方面。本文是对Spark组件的一个非常简单的介绍,其主要目的是提供对Spark架构的一般理解。
本文最初发布于Towards Data Science博客,由InfoQ中文站翻译并分享。
为什么要了解Spark?
在数据领域可用的框架中,只有少数框架在采用和交付方面达到了Spark的水平。显然,该框架已经成为一个赢家,特别是在数据工程方面。
如果你正在阅读这篇文章,这意味着你已经理解了我这样说的原因,所以我们直接进入主题。
为什么要了解Spark的内部构造?
有人可能会说,开车并不需要了解发动机的工作原理,是这样。不过,有人可能会说,了解发动机会让你成为更好的驾驶员,因为你将能够了解整个车辆的性能、局限性和根本问题。
同理,你不需要了解Spark的内部构造就可以使用它提供的API。但是,如果你了解的话,就可以减轻糟糕的性能和隐藏的Bug所带来的许多痛苦。此外,你还将掌握在整个分布式系统领域随处可见的概念。
方法
在我看来,学习有两个方面: 知识 和 技术 。前者涉及到通过书本、结构化课程等形式获取知识。它更关注 是什么 。后者与技能有关,即“边做边学”,更侧重于 如何做 。这是我们这里要探讨的。
原文链接:【https://www.infoq.cn/article/c9fvmCxUosJLTp0dYff4】。未经作者许可,禁止转载。