python2與python3中關於對NaN類型數據的判斷和轉換

今天在對一堆新數據進行數據清洗的時候,遇到了一個這樣的問題:

ValueError: cannot convert float NaN to integer 

一開始是這樣的,我用的jupyter是python35的,使用DataFrame讀入了數據,其中有一列是year,默認讀入時是將year這一列轉換爲了float,所以就有了這樣的現象:

年份都是float類型了,看得我強迫症都犯了。於是通過這樣的代碼來進行強轉,於是就報了上面的錯誤了。

df.year = [int(y) for y in df.year]

簡單描述一下問題,其實就是NaN在python35中無法被強轉。

首先說一下,NaN類型在python25中在強轉int的時候默認是轉換爲0的,而在python25之後的版本再進行轉換的時候就會報以上的錯誤。

我們先打印看一下np.nan的類型:

print(type(np.nan))

     
    <type 'float'>

np.nan是float類型,但是在進行int轉換的時候就會報錯。

解決方法:

使用is或者==進行判斷是不是NaN,不是NaN進行強轉int,是則用0代替。

先說一下==和is使用時的區別:

is和==都是對對象進行比較判斷作用的,但對對象比較判斷的內容並不相同。

如果有a跟b兩個變量,只有數值型和字符串型的情況下,a is b才爲True,當a和b是tuple,list,dict、set或者是實例化對象時,a is b爲False。

==是python標準操作符中的比較操作符,用來比較判斷兩個對象的value(值)是否相等。

通過下面的代碼可以看出,np.nan==np.nan結果是False,但是np.nan is np.nan卻是True。

a = np.nan
 
 
print(a == np.nan)
print(a == a)
print(a is np.nan)
print(a is a)
 
 
False
False
True
True

因此,通過每個元素與自身比較就可以解決了,代碼如下:

year = []
for y in df.year:
    if y == y:
        year.append(int(y))
    else:
        year.append(0)

作者:敲代碼的quant
來源:CSDN
原文:https://blog.csdn.net/frankiehello/article/details/79459645
版權聲明:本文爲博主原創文章,轉載請附上博文鏈接!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章