java.io.IOException: No FileSystem for scheme: file spark hadoop

原創

2018-08-22 07:40

問題描述

在IDEA中新建maven工程運行基本的spark程序如下：

    // 創建一個Scala版本的Spark Context
    val conf = new     SparkConf().setAppName("wordCount").setMaster("local")
    val sc = new SparkContext(conf)
    // 讀取我們的輸入數據
    val input = sc.textFile(logFile)
    // 把它切分成一個個單詞
    val words = input.flatMap(line => line.split(" "))
    // 轉換爲鍵值對並計數
    val counts = words.map(word => (word, 1)).reduceByKey{case (x, y) => x + y}
    // 將統計出來的單詞總數存入一個文本文件，引發求值
    println(counts.collect().mkString(","))

結果報錯如下：


Exception in thread "main" java.lang.RuntimeException: java.io.IOException: No FileSystem for scheme: file
    at org.apache.hadoop.mapred.JobConf.getWorkingDirectory(JobConf.java:658)
    at org.apache.hadoop.mapred.FileInputFormat.setInputPaths(FileInputFormat.java:436)
    at org.apache.hadoop.mapred.FileInputFormat.setInputPaths(FileInputFormat.java:409)
    at org.apache.spark.SparkContext$$anonfun$hadoopFile$1$$anonfun$33.apply(SparkContext.scala:1015)
    at org.apache.spark.SparkContext$$anonfun$hadoopFile$1$$anonfun$33.apply(SparkContext.scala:1015)
    at org.apache.spark.rdd.HadoopRDD$$anonfun$getJobConf$6.apply(HadoopRDD.scala:176)
	at org.apache.spark.rdd.HadoopRDD$$anonfun$getJobConf$6.apply(HadoopRDD.scala:176)
    at scala.Option.map(Option.scala:145)
    ......

解決方案(加入了三句話)：

    // 創建一個Scala版本的Spark Context
    val conf = new SparkConf().setAppName("wordCount").setMaster("local")
    val sc = new SparkContext(conf)

    val h_conf = sc.hadoopConfiguration

    h_conf.set("fs.hdfs.impl", classOf[org.apache.hadoop.hdfs.DistributedFileSystem].getName)
    h_conf.set("fs.file.impl", classOf[org.apache.hadoop.fs.LocalFileSystem].getName)

    // 讀取我們的輸入數據
    val input = sc.textFile(logFile)
    // 把它切分成一個個單詞
    val words = input.flatMap(line => line.split(" "))
    // 轉換爲鍵值對並計數
    val counts = words.map(word => (word, 1)).reduceByKey{case (x, y) => x + y}
    // 將統計出來的單詞總數存入一個文本文件，引發求值
    println(counts.collect().mkString(","))

報錯原因：

在hadoop-commons和hadoop-hdfs兩個jar文件中在META-INFO/services下包含相同的文件名org.apache.hadoop.fs.FileSystem，而我們使用maven-assembly-plugin時，最終只有一個文件被保留，所以被重寫的那個文件系統就無法找到。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

java.io.IOException: No FileSystem for scheme: file spark hadoop

問題描述

結果報錯如下：

解決方案(加入了三句話)：

報錯原因：

MySQL 核心模塊揭祕 | 18 期 | 鎖在內存里長什麼樣*

使用perf工具生成火焰圖

HttpSecurity 是如何組裝過濾器鏈的

數說海南——近6年海南各市縣人口簡單看

長序列中Transformers的高級注意力機制總結

大齡程序員思考

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

xgboost 使用 MAE或MAPE 作爲目標函數

Prophet（預言者）facebook時序預測----論文總結以及調參思路

類別特徵處理與實體嵌入

Andrew Ng(吳恩達) deep learning 課程 (coursera)

pandas 解析json文件爲DataFrame的三種方式以及其靈活度和效率的比較

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結