第15課:RDD創建內幕徹底解密

本節課主要內容:

    1、RDD創建的幾種方式

    2、RDD創建實戰

    3、RDD內幕


RDD創建有很多種方式,以下幾種創建RDD的方式:

     1、使用程序中的集合創建RDD,實際意義用於測試用;

     2、使用本地文件系統創建RDD,測試大量數據的文件;

     3、使用HDFS創建RDD,最常用的方式;

     4、基於DB創建RDD;

     5、基於NoSQL創建RDD,例如HBase;

     6、基於S3創建RDD;

     7、基於數據源創建RDD;


RDD實戰:

//通過集合方式創建RDD

val conf = new SparkConf().setAppName("RDDDemo").setMaster("local")
val sc = new SparkContext(conf)
//創建RDD
val rdd = sc.parallelize(0 to 100)
//1+2=3 3+3 = 6 6+4 = 10 ....
val sum = rdd.reduce(_ + _)
println(sum)


//通過HDFS上文件創建RDD

val conf = new SparkConf().setAppName("RDDDemo").setMaster("local")
val sc = new SparkContext(conf)
//創建RDD
val 
lines = sc.textFile("hdfs://Master:9000/data/README.md")
val words = lines.flatMap(line => line.split(" ")).map(line => (line, 1))
val wordCount = words.reduceByKey(_ + _)
wordCount.collect().foreach(println)


備註:

資料來源於:DT_大數據夢工廠

更多私密內容,請關注微信公衆號:DT_Spark

如果您對大數據Spark感興趣,可以免費聽由王家林老師每天晚上2000開設的Spark永久免費公開課,地址YY房間號:68917580

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章