29 - Spark - sample算子

sample(withReplacement, fraction, seed) 案例

  1. 作用:以指定的随机种子随机抽样出数量为fraction的数据,withReplacement表示是抽出的数据是否放回,true为有放回的抽样,false为无放回的抽样,seed用于指定随机数生成器种子。
  2. 需求:创建一个RDD(1-10),从中选择放回和不放回抽样
package com.dark.spark.SparkStudent.Spark_RDD

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object Spark29 extends App {
  // 设定Spark计算环境
  val config: SparkConf = new SparkConf().setMaster("local[*]").setAppName("WordCount")

  // 创建上下文
  val sc = new SparkContext(config)

  private val listRDD: RDD[Int] = sc.makeRDD(1 to 10)

  // 生成数据,按照指定的规则进行分组
  // false, 0.4,1  取出数据是否放回,打分,种子生成器
  private val sampleRDD: RDD[Int] = listRDD.sample(false, 0.4,1)

  sampleRDD.collect().foreach(println)

}

2
3
5
6
8
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章