excel數據預處理

數據預處理

pandas對錶格的操作也是基於xlwt,但是pandas讀取數據要比xlrt更強大。

xlrt 讀取西班牙語的時候,會轉成數組,pandas不會

1.將數據二 值化

將表格中某列只有兩個結果,用1和0去替代

2.單獨修改一列爲不同的值

這裏是修改 product_id 這一列數據,更新數據爲它自身的某一部門

import pandas as pd,os
from pandas import DataFrame
# 修改表格
def updateExel(path,out_path,name):
    print('開始加載',os.path.join(path,name))
    data = pd.read_excel(os.path.join(path,name),sheet_name='sheet1')
    df = DataFrame(data)
    for index,row in df.iterrows():
        product_id1 = row['product_id'].split('.h')[0]
        product_id2 = product_id1.split('-')
        #修改數據
        df.at[index,'product_id'] = product_id2[-2] + '-' + product_id2[-1]
    #重新保存爲另一張表格
    df.to_excel(os.path.join(out_path,name), sheet_name='sheet1', index=False, header=True)

if __name__ == '__main__':
    path = 'C:\\Users\\SHEIN\\Desktop\\zalando-1'
    out_path = 'C:\\Users\\SHEIN\\Desktop\\zalando-2'
    for file in os.listdir(path):
        if file.endswith('.xls'):
            updateExel(path,out_path,file)

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章