VectorAssembler:java.lang.IllegalArgumentException: Data type string of column xx is not supported

原創

sisiel

2020-02-23 04:39

使用pyspark 中的VectorAssembler出現報錯

vectorAssembler = ft.VectorAssembler(inputCols=['cust_sex','cust_age'],outputCol='features')

查看輸入數據類型

df1.printSchema()

發現輸入的inputCols的字段類型是string，而這個函數只接受float 或者int

故先進行類型轉換

df1=df1.withColumn('device_number', df1.device_number.astype("int"))
df1=df1.withColumn('cust_sex', df1.cust_sex.astype("int"))

再執行

ft.VectorAssembler(inputCols=['cust_sex','cust_age'],outputCol='features',handleInvalid='keep').transform(df1).show()

成功，同時注意若原列中有null，需要將handleInvalid設置爲'keep'或者"skip"，否則報錯：

Caused by: org.apache.spark.SparkException: Encountered null while assembling a row with handleInvalid = "keep". Consider
removing nulls from dataset or using handleInvalid = "keep" or "skip".

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

pyspark Window 窗口函數

參考：Introducing Window Functions in Spark SQL 窗口函數 At its core, a window function calculates a return value for ever

NoOne-csdn

2020-07-07 22:37:37

spark讀取elasticsearch nested array

anton spark讀elasticsearch array anton elasticsearch數組在Elasticsearch中，沒有專用的數組類型。默認情況下，任何字段都可以包含零個或多個值(數組中的所有值必須具有相同

Insightzen_xian

2020-07-07 22:21:01

Pyspark ValueError: Cannot run multiple SparkContexts at once 解決之道

pyspark執行可能就遇到問題 ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=PySparkShell, master

JRighte

2020-07-06 17:59:34

spark構建迴歸模型

Spark機器學習第六章實現加載數據集數據集爲Bike-Sharing-Dataset path = "hdfs:///user/yy/Bike-Sharing-Dataset/hour_noheader.csv" raw_

YiyangJump

2020-07-06 13:47:14

pyspark dataframe 自定義分區器

def myp(x): return x % 100 pp = F.udf(myp) df = spark.range(900) df.show() df = df.repartitionByRange(pp('i

NoOne-csdn

2020-07-05 13:35:28

(待解決) java.io.EOFException: End of File Exception between local host

背景 spark 設置checkpoint 的地址爲阿里雲的hdfs 報錯 spark.sparkContext.setCheckpointDir('dfs://f***iyuncs.com:10290/test') 集羣

NoOne-csdn

2020-07-05 13:35:26

pyspark入門系列 - 02 pyspark.sql入口 SparkSession簡介與實踐

SparkSesson爲使用Dataset和DataFrame API編程Spark的入口點。 SparkSesson對象可以創建DataFrame，將Dataframe註冊爲表，並在表上執行SQL、緩存表、讀parquet文件等

铁甲大宝

2020-07-04 10:41:11

pyspark入門系列 - 03 pyspark.sql.DataFrame函數彙總與實踐

先放上pyspark.sql.DataFrame的函數彙總 from pyspark.sql import SparkSession spark = SparkSession.Builder().master('local')

铁甲大宝

2020-07-04 10:00:55

pyspark入門系列 --pyspark.sql.Column函數彙總與實戰

from pyspark.sql import SparkSession spark = SparkSession.Builder().master('local').appName('sparksqlColumn').getO

铁甲大宝

2020-07-04 10:00:55

pyspark入門系列 - 01 統計文檔中單詞個數

導入SparkConf和SparkContext模塊，任何Spark程序都是SparkContext開始的，SparkContext的初始化需要一個SparkConf對象，SparkConf包含了Spark集羣配置的各種參數。初始

铁甲大宝

2020-07-04 10:00:55

pyspark入門系列 --pyspark.sql.Row函數彙總

from pyspark.sql import SparkSession spark = SparkSession.Builder().master('local').appName('pysparkSqlRow').getOr

铁甲大宝

2020-07-04 10:00:55

PySpark 之 flatMap

1. pyspark 版本 2.3.0版本 2. 官網 flatMap(f, preservesPartitioning=False)[source] Return a new RDD by first ap

G_scsd

2020-06-29 15:59:59

關鍵詞提取-TFIDF 自定義逆文檔IDF的值

TF-IDF 用於提取關鍵詞，那麼如何從多個文檔中提取出關鍵詞。文章的關鍵詞可能有什麼規律，表示文章主要意思，那這個詞應該在該文章中出現多次，但是在其他文章中出現次數不多。 TF 詞頻（Term Frequency）表示w在文檔

阿唐明

2020-07-06 22:43:56

富數科技：“數據不出門，可用不可見” | 百萬人學AI評選

2020 無疑是特殊的一年，而 AI 在開年的這場”戰疫“中表現出了驚人的力量。站在“新十年”的起點上，CSDN【百萬人學AI】評選活動正式啓動。本屆評選活動在前兩屆的基礎上再度升級，設立了「AI優秀案例獎Top 30」、「AI新銳公

Top30+评选

2020-07-03 19:59:31

機器學習小白日記

“人生最痛苦的事情，不是我不行，而是我本可以”。 - --- ----- --- -------- ------- -------- --------- - --------- --- 閱讀目錄https://www.jianshu.co

mickzheng

2020-07-03 07:03:48

24小時熱門文章

VectorAssembler:java.lang.IllegalArgumentException: Data type string of column xx is not supported

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

java由於越界導致的報錯

Joining multiple DataFrames only supported for joining on index

pyspark join 出現重複列的問題

pandas 中dataframe，groupby後得到的Series轉換成dataframe

pyspark:dataframe使用pandas_udf做groupby，帶多參數實現

pandas MultiIndex重新整理列

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結