DT_大数据梦工厂第18课 RDD持久化、广播、累加器

原創

chinsun_1

2018-08-31 14:25

今天内容

1.RRD持久化实战

2.Spark广播实战

3.Spark累加器实战

如果想在命令终端中看到执行结果，就必须collect
凡是Action级别的操作都会触发sc.runJob

Spark所有的算法都有persit。

persit原因: Spark在默认情况下，数据放在内存，适合高速迭代，风险当然也高，所以需要将前面的操作进行persit.

persist:

1.某步骤计算特别耗时；

2.计算链条特别长的情况；

3.checkpoint坐在的RDD也一定要持久化数据；

4.shuffle之后；

5.shuffle之前（框架默认帮助我们把数据持久化到本地磁盘）

前4步手动的，第5是系统自动的

序列化目的为节省空间

将内存中的数据序列化，使用数据时需要反序列化

StorageLevel

MEMORY

MEMORY_AND_DISK , 主要防止OOM

'都是使用内存，如果MEMORY不够，OOM数据会丢失

sc.textFile("/library/wordcount/input/Data").flatMap(_.split(" ")).map(word => (word, 1)).reduceByKey(_+_,1).cache.count

val cached = sc.textFile("/library/wordcount/input/Data").flatMap(_.split(" ")).map(word => (word, 1)).reduceByKey(_+_,1).cache

Cache之后一定不能立即有其它算子！！！

广播是由Driver发给当前Application分配的所有Executor内存级别的全局只读变量，Executor中的线程池中的线程共享该全局变量，极大的减少了网络传输（否则的话每个Task都要传输一次该变量）并极大的节省了内存，当然也隐形的提高的CPU的有效工作。

任务能享用唯一的变量，减少OOM的可能

大变量: 默认情况下，每个Task一定会COPY份数据副本，函数式编程变量不变. 变量大会导致 OOM

内存占用大，如果变量比较大，刚极易出现OOM

累加器，全局级别的

Accumulator：对于Executor只能修改但不可读，只对Driver可读

附上王老师个人名片信息

王家林中国Spark第一人

DT大数据梦工厂
新浪微博： http://weibo.com.ilovepains/
微信公共号：DT_Spark
博客：http://bolg.sina.com.cn/ilovepains
手机：18610086859
qq：1740415547
邮箱：[email protected]

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

DT_大数据梦工厂第18课 RDD持久化、广播、累加器

PDManer [元数建模]-v4.9.0 发布：一款简单好用的数据库建模平台

使用neovim打造go ide(支持代码跳转, 代码补全, 实时语法检查)

cs01 CSS Syntax

挑战程序设计竞赛 2.3章习题 poj 3046 Ant Counting

[MASM拾遗]Offset伪指令

h30 HTML Layout Elements

了解显卡

一款基于C#开发的通讯调试工具（支持Modbus RTU、MQTT调试）

Linux/Golang/glibC系统调用

cs04 CSS Measurement Units

about spring applicationContext.xml

Spark內核天機解密（2016）第三講 Scala函數式編程

關於Extjs翻頁問題解決

【This field BeanName.xxx is never read locally】

EXTJS 根據值顯示不同圖片

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

DT_大数据梦工厂 第18课 RDD持久化、广播、累加器

DT_大数据梦工厂第18课 RDD持久化、广播、累加器