29 - Spark - sample算子

sample(withReplacement, fraction, seed) 案例

  1. 作用:以指定的隨機種子隨機抽樣出數量爲fraction的數據,withReplacement表示是抽出的數據是否放回,true爲有放回的抽樣,false爲無放回的抽樣,seed用於指定隨機數生成器種子。
  2. 需求:創建一個RDD(1-10),從中選擇放回和不放回抽樣
package com.dark.spark.SparkStudent.Spark_RDD

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object Spark29 extends App {
  // 設定Spark計算環境
  val config: SparkConf = new SparkConf().setMaster("local[*]").setAppName("WordCount")

  // 創建上下文
  val sc = new SparkContext(config)

  private val listRDD: RDD[Int] = sc.makeRDD(1 to 10)

  // 生成數據,按照指定的規則進行分組
  // false, 0.4,1  取出數據是否放回,打分,種子生成器
  private val sampleRDD: RDD[Int] = listRDD.sample(false, 0.4,1)

  sampleRDD.collect().foreach(println)

}

2
3
5
6
8
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章