今天在對一堆新數據進行數據清洗的時候,遇到了一個這樣的問題:
ValueError: cannot convert float NaN to integer
一開始是這樣的,我用的jupyter是python35的,使用DataFrame讀入了數據,其中有一列是year,默認讀入時是將year這一列轉換爲了float,所以就有了這樣的現象:
年份都是float類型了,看得我強迫症都犯了。於是通過這樣的代碼來進行強轉,於是就報了上面的錯誤了。
df.year = [int(y) for y in df.year]
簡單描述一下問題,其實就是NaN在python35中無法被強轉。
首先說一下,NaN類型在python25中在強轉int的時候默認是轉換爲0的,而在python25之後的版本再進行轉換的時候就會報以上的錯誤。
我們先打印看一下np.nan的類型:
print(type(np.nan))
<type 'float'>
np.nan是float類型,但是在進行int轉換的時候就會報錯。
解決方法:
使用is或者==進行判斷是不是NaN,不是NaN進行強轉int,是則用0代替。
先說一下==和is使用時的區別:
is和==都是對對象進行比較判斷作用的,但對對象比較判斷的內容並不相同。
如果有a跟b兩個變量,只有數值型和字符串型的情況下,a is b才爲True,當a和b是tuple,list,dict、set或者是實例化對象時,a is b爲False。
==是python標準操作符中的比較操作符,用來比較判斷兩個對象的value(值)是否相等。
通過下面的代碼可以看出,np.nan==np.nan結果是False,但是np.nan is np.nan卻是True。
a = np.nan
print(a == np.nan)
print(a == a)
print(a is np.nan)
print(a is a)
False
False
True
True
因此,通過每個元素與自身比較就可以解決了,代碼如下:
year = []
for y in df.year:
if y == y:
year.append(int(y))
else:
year.append(0)
作者:敲代碼的quant
來源:CSDN
原文:https://blog.csdn.net/frankiehello/article/details/79459645
版權聲明:本文爲博主原創文章,轉載請附上博文鏈接!