pom.xml

pom.xml如下：

<dependencies>
	<dependency>
	    <groupId>org.apache.hive</groupId>
	    <artifactId>hive-jdbc</artifactId>
	    <version>2.1.1</version>
	</dependency>
	
	<dependency>
	    <groupId>org.apache.hadoop</groupId>
	    <artifactId>hadoop-client</artifactId>
	    <version>3.0.0</version>
	</dependency>
	
	<dependency>
	    <groupId>org.apache.hadoop</groupId>
	    <artifactId>hadoop-common</artifactId>
	    <version>3.0.0</version>
	</dependency>
        
	<dependency>
	    <groupId>org.apache.spark</groupId>
	    <artifactId>spark-core_2.11</artifactId>
	    <version>2.4.0</version>
	</dependency>
</dependencies>

具体代码以及注释


import org.apache.spark.{SparkConf, SparkContext}
object test {

    def main(args: Array[String]): Unit = {
    	// 本地模式， AppName里的参数可以随便写
        val conf = new SparkConf().setAppName("test").setMaster("local[*]")
        val sc = new SparkContext(conf)
		// 地址和端口是hadoop的，路径是要读取的文件
        val hadoopRdd = sc.textFile(
            "hdfs://192.168.153.129:9000/user/hive/warehouse/test.db/t1/dt=3/t1"
        )
        println(hadoopRdd.count())

    }
}

      这样就可以读取到hadoop文件中的具体内容，结合实际需求做相应处理即可。
      这里有一个和这个有关的项目的文章，建议一看
      Java，Scala - 使用代码统计hadoop中hdfs的文件大小以及文件夹大小

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

使用spark读取hadoop文件的具体内容

文章目录

pom.xml

具体代码以及注释

测试人员都是画画大神，让我看看谁还不会用代码图？

Object.values()对象遍历

网络现代化通向云原生应用的高速公路

面试官：说说你对序列化的理解

使用spark讀取hadoop文件的具體內容

Java，Scala - 使用代碼統計hadoop中hdfs的文件大小以及文件夾大小

java 使用FileSystem讀取hadoop文件

PostgreSQL如何建立自增主鍵

查看PostgreSQL數據庫中所有表 - 注意的事項 -- 爲什麼使用sql查詢所有表報錯

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結