scala 在 spark 中操作 hdfs

原創

2020-02-22 00:12

問題場景：在編寫spark程序時，輸出目錄存在會造成spark任務失敗。處理方法有2種，第一利用腳本方式，在主任務之上加層處理，第二，在spark任務中先處理掉目錄。spark支持的可編程語言有Scala、Python、Java。其中Python無需編譯打包，十分方便，但是貌似沒有處理hdfs系統的Python接口，而Python的執行腳本語言是異步於主任務的，換言之，主任務與腳本任務的執行完成順序是不確定的。而Java語言貌似不是主流的spark語言。其中最完善的就是原生的Scala語言。所以在Scala中完成對hdfs的控制，及對主任務計算方式的控制，是spark任務最優雅的方式。

所需jar包： spark-assembly-1.2.1-hadoop2.4.0.jar

實例代碼：

package com.util

import java.io.BufferedInputStream
import java.io.File
import java.io.FileInputStream
import java.io.InputStream

import org.apache.hadoop.conf._
import org.apache.hadoop.fs._
import org.apache.hadoop.fs.Path._

object ScalaHdfs {

def ls(fileSystem:FileSystem,path:String)= {
println("list path:"+path)
val fs = fileSystem.listStatus(new Path(path))
val listPath = FileUtil.stat2Paths(fs)
for( p <- listPath) {
println(p)
}
println("----------------------------------------")
}

def main(args: Array[String]) {
val conf = new Configuration()
println(conf)
val fileSystem = FileSystem.get(conf)
ls(fileSystem,"/")
}
}

輸出結果：

[hadoop@localhost spark-1.2]$ ./spark-submit --class com.util.ScalaHdfs ScalaHdfs.jar
Spark assembly has been built with Hive, including Datanucleus jars on classpath
Configuration: core-default.xml, core-site.xml
list path:/
hdfs://localhost:9000/aaa
hdfs://localhost:9000/bbb
hdfs://localhost:9000/ccc
hdfs://localhost:9000/ddd
hdfs://localhost:9000/count
hdfs://localhost:9000/hbase
hdfs://localhost:9000/tmp
hdfs://localhost:9000/user
----------------------------------------

參考：http://m.blog.csdn.net/blog/linger2012liu/43314651

刀砍磁感線

發佈了39 篇原創文章 · 獲贊 9 · 訪問量 21萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

scala 在 spark 中操作 hdfs

sqoop 安裝配置（Hadoop2.4 + hive0.13）

sqoop 導出 hive分區表數據到 mysql

HBase使用場景

查詢方式創建hive新表，並制定相應分隔符

shell 操作 MySQL

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結