使用spark读取hadoop文件的具体内容

      在一些情景下,需要用spark读取hadoop的文件的具体内容,这里做一下简单介绍。

pom.xml

      pom.xml如下:

<dependencies>
	<dependency>
	    <groupId>org.apache.hive</groupId>
	    <artifactId>hive-jdbc</artifactId>
	    <version>2.1.1</version>
	</dependency>
	
	<dependency>
	    <groupId>org.apache.hadoop</groupId>
	    <artifactId>hadoop-client</artifactId>
	    <version>3.0.0</version>
	</dependency>
	
	<dependency>
	    <groupId>org.apache.hadoop</groupId>
	    <artifactId>hadoop-common</artifactId>
	    <version>3.0.0</version>
	</dependency>
        
	<dependency>
	    <groupId>org.apache.spark</groupId>
	    <artifactId>spark-core_2.11</artifactId>
	    <version>2.4.0</version>
	</dependency>
</dependencies> 

具体代码以及注释


import org.apache.spark.{SparkConf, SparkContext}
object test {

    def main(args: Array[String]): Unit = {
    	// 本地模式, AppName里的参数可以随便写
        val conf = new SparkConf().setAppName("test").setMaster("local[*]")
        val sc = new SparkContext(conf)
		// 地址和端口是hadoop的,路径是要读取的文件
        val hadoopRdd = sc.textFile(
            "hdfs://192.168.153.129:9000/user/hive/warehouse/test.db/t1/dt=3/t1"
        )
        println(hadoopRdd.count())

    }
}

      这样就可以读取到hadoop文件中的具体内容,结合实际需求做相应处理即可。
      这里有一个和这个有关的项目的文章,建议一看
      Java,Scala - 使用代码统计hadoop中hdfs的文件大小以及文件夹大小
      
      
      
      
      
      
      
      
      
      
      
      
      
      

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章