spark-5.sparkcore_2_RDD的创建与类型

原創

2020-07-04 08:37

1.RDD的创建

1).从集合中创建RDD。

方法1

def makeRDD[T: ClassTag]( seq: Seq[T], numSlices: Int = defaultParallelism): RDD[T]

standalone模式下的并行度defaultParallelism：conf.getInt(“spark.default.parallelism”, math.max(totalCoreCount.get(), 2))

方法2

 def parallelize[T: ClassTag](seq: Seq[T],numSlices: Int = defaultParallelism): RDD[T]

方法3

def makeRDD[T: ClassTag](seq: Seq[(T, Seq[String])]): RDD[T]

可以为单个数据对象设置存放的节点。
例如：

scala> sc.makeRDD(Array((1,List("slave01")),(2,List("slave02"))))

2).从外部存储创建RDD。

将HDFS中的RELEASE文件导入到spark。

val data= sc.textFile("hdfs://master:9000/RELEASE")

3).从其它RDD转换。

2.RDD的类型

1）数值型RDD,单个值的类型。

RDD[Int]、RDD[(Int,Int)] 、RDD[(Int,(Int,Int))]
源码文件：RDD.scala

2）键值对RDD

RDD[(Int,Int)]、RDD[(Int,(Int,Int))]
源码文件：PairRDDFunctions.scala

注：所有键值对RDD都可以使用数据型RDD的操作。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

spark-5.sparkcore_2_RDD的创建与类型

1.RDD的创建

1).从集合中创建RDD。

方法1

方法2

方法3

2).从外部存储创建RDD。

3).从其它RDD转换。

2.RDD的类型

1）数值型RDD,单个值的类型。

2）键值对RDD

如何使用 JS 判断用户是否处于活跃状态

Mono 支持LoongArch架构

lightdb秒级增加列和删除列（not null带默认值）

lightdb数据库超时相关控制参数

通过HPA+CronHPA组合应对业务复杂弹性伸缩场景

❤️‍🔥 Solon Cloud Event 新的事务特性与应用

网络爬虫的秘密：如何高效地抓取JD.com视频链接

lightdb mysql 8.0兼容之不可见主键

使用 JS 实现在浏览器控制台打印图片 console.image()

基于Ubuntu-22.04安装K8s-v1.28.2实验（四）使用域名访问网站应用

Elasticsearch-javaAPI

Elasticsearch-IK分詞器

spark-33.spark機器學習_6_決策樹

spark-22.spark內核解析_2_Spark的腳本

spark-20.sparkGraphx_2_圖的轉換

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結