最近在寫一個爬蟲,然後將數據保存到excel,但是有些列的數據爲空即沒有爬到,需要再重新爬,所以將空的該行全部複製到另一張表
import pandas as pd
data_path = 'excel路徑'
data = pd.read_excel(data_path)
data_new = data[data['groundingtime'] != data['groundingtime']]
data_new .to_excel('需要保存的新路徑',index=None)
這裏有個問題,當該行的某列爲空的時候,該類型爲nan,所以我用data['groundingtime'] != data['groundingtime'] 判斷它是否和自己相等,如果爲空就不相等,大功告成。
不過後面我發現自己其實可以不用將這些沒有爬取到的字段保存至另一個文件再進行爬取,我只需要在打開遍歷下表格,如果某個爲空,我就繼續爬取,如果不爲空,直接跳過,這樣就不用改代碼也不用新建excel文件了。