Caused by: java.lang.NumberFormatException: For input string: "|"

原創

2020-06-16 12:10

這個異常是在使用spark進行數據清洗處理的時候出現的異常，在百度上搜索，發現類似的異常都是出現在jsp頁面的參數設置中，困擾了好半天。

1|24|M|technician|85711
2|53|F|other|94043
3|23|M|writer|32067
4|24|M|technician|43537
5|33|F|other|15213
6|42|M|executive|98101
7|57|M|administrator|91344
8|36|M|administrator|05201
9|29|M|student|01002
10|53|M|lawyer|90703

這是原本的數據格式，以“|”作爲分隔符，所以一般的思路也是把”|”作爲分隔依據

 //讀取數據HDFS上
    val userRdd = sc.sparkContext.textFile("file:///C:/Users/Administrator/Desktop/ml-100k/u.user")
      .map(line=>(line.split("|"))) //需要進行轉義
      .map(t=>User(t(0).toInt,t(1).toInt,t(2),t(3),t(4).toInt))
    //4.導入相關的隱士依賴
    import  sc.implicits._
    val UserDF = userRdd.toDF()
    UserDF.select($"id",$"age",$"sex",$"occuption",$"number")
        .show()

這是代碼塊，這是在這裏忽略了切割字符需要進行轉義，不然確實會出現格式異常，在對“|”做了轉義處理後，正確得到了結果

正確的代碼塊

 //讀取數據HDFS上
    val userRdd = sc.sparkContext.textFile("file:///C:/Users/Administrator/Desktop/ml-100k/u.user")
      .map(line=>(line.split("\\|"))) //需要進行轉義
      .map(t=>User(t(0).toInt,t(1).toInt,t(2),t(3),t(4).toInt))
    //4.導入相關的隱士依賴
    import  sc.implicits._
    val UserDF = userRdd.toDF()
    UserDF.select($"id",$"age",$"sex",$"occuption",$"number")
        .show()

    sc.stop()

運行結果

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

JavaScript 高級知識技巧

對象 Js 共有number、string、boolean、null、undefined、object六種主要類型，除了object的其它五中類型都屬於基本類型，它們本身並不是對象。但是null有時會被當做對象處理，其原因在於不同

2020-06-28 08:41:54

編碼規範-----可維護性

我們都知道區分專業程序員和新手程序員的一個區別是看他們的代碼，一個好的編碼習慣不僅有利於賞心悅目，更有利於後期維護什麼是可維護性是要可理解的，其它人可以接手的代碼，而不是由代碼開發者一一解釋；是直觀的，不管多複雜的邏輯，都能一眼看懂

2020-06-27 03:24:40

最早的Tangram預覽

最早的Tangram預覽幾天前與好友在msn上聊天，朋友給我一個驚喜，他提供給我2001年我發佈的Tangram相關的信息，這些已經迷失的東西，

2020-06-26 22:35:48

也談數學基礎與軟件開發-追尋曾經的夢想(一)

經常看到數學與軟件開發之間的話題，偶爾，朋友們也在一起談論，數學與軟件到底有什麼聯繫。每當被問及此類話題的時候，心中似乎總要泛起陣陣漣漪，不能平靜，然而又很難簡單明瞭的表述，因此有一段時間我只好選擇沉默。數

2020-06-26 22:35:48

Tangram開源版本發佈

Tangram開源版本發佈經過一段難忘的忙碌，Tangram的第一個完整版本殺青了。回想來到北京的幾年，可謂感慨萬千，開發產品是心志的磨練，這話

2020-06-26 22:35:48

開始用QQ

寫Blog應該是一件愉快的事情，但如果沒有形成良好的習慣，也許就會顯得勉強、生硬，進而導致內容不連貫，我的Blog也許就是這樣，許多朋友指出，我這個人思維分散，想法變化很快，想得很多，寫的很少，真是沒辦法。最近一段時間，經過

2020-06-26 22:35:48

打造Chrome的平行世界：從Chrome到Chromium for Application

互聯網瀏覽器改變了軟件世界毋庸置疑，互聯網瀏覽器深刻的改變了世界，Google Chrome奠定了瀏覽器事實上的標準。（互聯網瀏覽器，深刻的改變了人們獲得內容的方式，也促使軟件形成了Web軟件與應用軟件之間的界限…

2020-06-26 22:35:37

互聯網公司職位簡介

PM(項目經理或產品經理) package 10W/30W/50W+ 1、項目經理爲整個項目的第一責任人。 2、項目經理對《質量檢查報告》中的所有細則負首要責任。 3、項目經理必須有效掌控項目開發的各個環節，協助、指導項目組成員

2020-06-26 21:16:32

Google地圖定位偏移矯正

Google地圖定位標記矯正技術交流QQ：1148824289 問題概述 google地圖在中國使用，都存在偏移問題，車輛明明在公路上的，點一打到地圖上，可能跑到人家房頂上了，或者跑到河裏去了，關於

2020-06-24 05:02:58

嵌入式C語言的一些面試題

預處理器（Preprocessor） 1. 用預處理指令#define 聲明一個常數，用以表明1年中有多少秒（忽略閏年問題） #define SECONDS_PER_YEAR (60 * 60 * 24 * 365)UL 我在這想看到幾件

2020-06-23 10:52:25

linux驅動優化重構提高效率的心得

1.定義的結構體，元素的size比較小的放前面，size比價大的放後面，編譯器會優化整個結構體佔用的內存 2.數組的大小最好按照4/8的倍速來定義 3.程序中用移位代替除法，提高程序運行的小籠包 4.需要循環，或者多次調度的函數，一

放狼的爷们

2020-06-20 22:28:04

短鏈接轉換

記一個在線轉換短鏈接的網址http://suo.im/ 非常好用

2020-06-14 06:29:28

《代碼之美》第7章漂亮的測試的bad smell

這章基於二分查找討論了一個漂亮的測試應該怎麼做。先看看原文怎麼做。這裏的討論省略了隨機，性能，數組中元素重複，以及輸入爲null的情況。 public void testBinarySearch() { int[

2020-06-13 08:50:05

Extjs.GridPanel 顯示多行工具欄 (tbar)

js文件。。 Ext.onReady(function() { //初始化數據 var proData = { records : [{

2020-06-09 22:46:36

UTF-8編碼規則（轉）

2020-03-14 21:14:15

24小時熱門文章

最新文章

最新評論文章