本節課主要內容:
1、RDD創建的幾種方式
2、RDD創建實戰
3、RDD內幕
RDD創建有很多種方式,以下幾種創建RDD的方式:
1、使用程序中的集合創建RDD,實際意義用於測試用;
2、使用本地文件系統創建RDD,測試大量數據的文件;
3、使用HDFS創建RDD,最常用的方式;
4、基於DB創建RDD;
5、基於NoSQL創建RDD,例如HBase;
6、基於S3創建RDD;
7、基於數據源創建RDD;
RDD實戰:
//通過集合方式創建RDD
val conf = new SparkConf().setAppName("RDDDemo").setMaster("local")
val sc = new SparkContext(conf)
//創建RDD
val rdd = sc.parallelize(0 to 100)
//1+2=3 3+3 = 6 6+4 = 10 ....
val sum = rdd.reduce(_ + _)
println(sum)
//通過HDFS上文件創建RDD
val conf = new SparkConf().setAppName("RDDDemo").setMaster("local")
val sc = new SparkContext(conf)
//創建RDD
val lines = sc.textFile("hdfs://Master:9000/data/README.md")
val words = lines.flatMap(line => line.split(" ")).map(line => (line, 1))
val wordCount = words.reduceByKey(_ + _)
wordCount.collect().foreach(println)
備註:
資料來源於:DT_大數據夢工廠
更多私密內容,請關注微信公衆號:DT_Spark
如果您對大數據Spark感興趣,可以免費聽由王家林老師每天晚上20:00開設的Spark永久免費公開課,地址YY房間號:68917580