[工作] 用excel導出文件數據量和代碼讀取文件數據量不一樣

前景提要:
客戶發來starwar的文件,讓我們對數據進行處理,注意好文件的前後順序,然後對文件和文件之間進行de-duplication操作。

客戶的要求那就做唄。文件下載下來之後解壓,發現是兩個csv文件和一個excel文件。然後問題就來了,打開excel,發現excel顯示65556個左右的數據。本人直接將excel導出成csv文件,用wc命令看了一下數據大小,的確是六萬多。程序員都喜歡使用代碼來表示,所以我就用python的pandas讀取excel的時候發現竟然有11w個數據。

然後瞬間尿了,這是什麼鬼?第一反應就是讀取的數據是文件以前被刪除的東西。自己就嘗試做了一個excel用python來讀取。 然後發現沒有用!!該是多少還是多少,並沒有免費的數據。。。。

弄到最後才發現,自帶的版本太老了,顯示數據最多隻有6W多。。醉了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章