python2與python3中關於對NaN類型數據的判斷和轉換

原創

2019-05-21 13:55

今天在對一堆新數據進行數據清洗的時候，遇到了一個這樣的問題：

ValueError: cannot convert float NaN to integer

一開始是這樣的，我用的jupyter是python35的，使用DataFrame讀入了數據，其中有一列是year，默認讀入時是將year這一列轉換爲了float，所以就有了這樣的現象：

年份都是float類型了，看得我強迫症都犯了。於是通過這樣的代碼來進行強轉，於是就報了上面的錯誤了。

df.year = [int(y) for y in df.year]

簡單描述一下問題，其實就是NaN在python35中無法被強轉。

首先說一下，NaN類型在python25中在強轉int的時候默認是轉換爲0的，而在python25之後的版本再進行轉換的時候就會報以上的錯誤。

我們先打印看一下np.nan的類型：

print(type(np.nan))

     
    <type 'float'>

np.nan是float類型，但是在進行int轉換的時候就會報錯。

解決方法：

使用is或者==進行判斷是不是NaN，不是NaN進行強轉int，是則用0代替。

先說一下==和is使用時的區別：

is和==都是對對象進行比較判斷作用的，但對對象比較判斷的內容並不相同。

如果有a跟b兩個變量，只有數值型和字符串型的情況下，a is b才爲True，當a和b是tuple，list，dict、set或者是實例化對象時，a is b爲False。

==是python標準操作符中的比較操作符，用來比較判斷兩個對象的value(值)是否相等。

通過下面的代碼可以看出，np.nan==np.nan結果是False，但是np.nan is np.nan卻是True。

a = np.nan
 
 
print(a == np.nan)
print(a == a)
print(a is np.nan)
print(a is a)
 
 
False
False
True
True

因此，通過每個元素與自身比較就可以解決了，代碼如下：

year = []
for y in df.year:
    if y == y:
        year.append(int(y))
    else:
        year.append(0)

作者：敲代碼的quant
來源：CSDN
原文：https://blog.csdn.net/frankiehello/article/details/79459645
版權聲明：本文爲博主原創文章，轉載請附上博文鏈接！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.