scala-sparkML學習筆記：struct type tinyint size int indices array int values array double type

原創

2020-02-21 14:50

錯誤類型：

CSV data source does not support struct<type:tinyint,size:int,indices:array<int>,values:array<double>> data type.

predictPredict.select("user_id", "probability", "label").coalesce(1) 
          .write.format("com.databricks.spark.csv").mode("overwrite") 
          .option("header", "true").option("delimiter","\t").option("nullValue", Const.NULL) 
          .save(fileName.predictResultFile + day)

predictPredict選擇probability列保存會出現'`probability`' is of struct<type:tinyint,size:int,indices:array<int>,values:array<double>> type 這個錯誤，因爲是DenseVector不可以直接報保存到csv文件，可以有下面兩種解決方法：（主要思想是選擇DenseVector中預測爲1的那一列，類型爲double）

        /*
        import org.apache.spark.sql.SparkSession
        val spark = SparkSession.builder().config("spark.debug.maxToStringFields", 500).enableHiveSupport.appName("QDSpark Pipeline").getOrCreate()
        import spark.implicits._

        val probabilityDataFrame = predictPredict.select("user_id", "probability", "label").rdd.map( row => (row.getInt(0), row.getAs[DenseVector](1)(1), row.getDouble(2)) ).toDF

        probabilityDataFrame.select("_1", "_2", "_3").coalesce(1) 
          .write.format("com.databricks.spark.csv").mode("overwrite") 
          .option("header", "true").option("delimiter","\t").option("nullValue", Const.NULL) 
          .save(fileName.predictResultFile + day) 
        */
        
        val stages = new ArrayBuffer[StructField]() 
        stages += StructField("user_id", IntegerType, true) 
        stages += StructField("probability", DoubleType, true) 
        stages += StructField("label", DoubleType, true) 
        val schema = new StructType( stages.toArray  )
        val probabilityNewRDD = predictPredict.select("user_id", "probability", "label").rdd.map( row => Row(row.getInt(0), row.getAs[DenseVector](1)(1), row.getDouble(2)) )
        val probabilityDataFrame = SparkConfTrait.spark.createDataFrame(probabilityNewRDD, schema)

        probabilityDataFrame.select("user_id", "probability", "label").coalesce(1) 
          .write.format("com.databricks.spark.csv").mode("overwrite") 
          .option("header", "true").option("delimiter","\t").option("nullValue", Const.NULL) 
          .save(fileName.predictResultFile + day)

MachineLP

發佈了335 篇原創文章 · 獲贊 776 · 訪問量 176萬+

他的留言板關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

scala-sparkML學習筆記：struct type tinyint size int indices array int values array double type

[Solr] Solr8.5.2 安裝、中文分詞以及定時更新索引

[solr] solr Similarity:切換不同相似度計算方法

[solr] solr5.5.2配置結巴分詞工具

[solr] solr 測試 (python、curl、界面 )

[文本糾錯] pycorrector框架測試

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結