工作中需要大量excel讀寫,數據大小接近200M,傳統excel略顯喫力,
無論是數據處理還是讀取,很容易因爲操作過快導致程序崩掉,如果忘了保存,那將是很頭疼的事。
pandas除了讀取和存儲較慢,數據處理和查詢都比較出色,下面就寫入excel,對比pyexcelerate ,看看各自優勢。
數據質量
通過對比:
1、從時間看:pandas處理10m20s,pyexcelerate處理5m46s,pyexcelerate速度完勝,節省幾乎一半時間。
2、從存儲文件大小看:pandas:173M,pyexcelerate:228M,pandas完勝,內存節省55M
3、從數據質量看,pandas空數據NA,excel顯示正常,pyexcelerate空數據,無論數值型還是文本型,均顯示#NUM!,pandas完勝。
結論:
pandas大數據存儲比較快,但是數據質量可靠,文件小;
pyexcelerate存儲比較快,但是數據質量不佳,需要二次處理(excel再做處理,批量替換#NUM!不如用pandas),文件也比較大小
目前看來,pandas還是很穩妥,除了讀寫excel大文件比較慢,處理數據還是很快的。
【#NUM!:此錯誤表明公式或函數中含有無效的數值】