在使用pandas處理數據時,會遇到這樣一個問題:打開文檔查看某些列明顯有很多是空的,但是在python裏用dataframe.info統計出來並不是空的,這是因爲excel表裏這些數據看起來是空的值,但其實是一個空格,但是用isnull判斷是爲False的。
解決方案:
對整張表dataframe替換空格爲np.nan,可以使用replace方法通過正則匹配空格,然後替換:
df.replace(to_replace=r'^\s*$',value=np.nan,regex=True,inplace=True)
其中\s表示空白字符,匹配任何空白字符,包括空格、製表符、換頁符等,*表示任意個。