Spark Core - 数据加载 - 从HDFS读取数据

package DataInput

import org.apache.spark.{SparkConf, SparkContext}

/**
  * @ Description:Spark Core - 从HDFS读取数据
  * @ Modified By:
  * @ Date       :22:53 2020/4/20 0020
  *
  * @ Author     :leoxry
  * @ Version    :1.0
  */
object HDFS {
  def main(args: Array[String]): Unit = {
    // 1. 创建SparkConf并设置App名称
    val conf = new SparkConf()
      .setMaster("local[*]")
      .setAppName("DataInput-HDFS")
    // 2. 创建SparkContext,该对象是提交Spark App的入口
    val sc = new SparkContext(conf)

    // 3. 使用sc创建RDD并执行想应的transformation和action
    val data01 = sc.textFile("hdfs://hadoop01:9000/data/WordCount/test01.txt")
      .flatMap(x => x.split(" "))
      .map(x => (x, 1))
      .reduceByKey(_+_, 1)
      .sortBy(_._2, false)

    data01.foreach(println)

    // 4. 关闭连接
    sc.stop()
  }
}

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章