Pandas和常見數據處理小模塊

前言

pandas 確實很好用, 但是網上的教程參差不齊, 找到可以用的比較花時間, 所以自己總結了一些會常常用到的。

Pandas部分

根據某一列找另一列

 import pandas  as pd 
 # 根據imagename 通過查找 Image  , 得到相應的Cloth_label列的數據
 label = train_lable.loc[train_lable.Image == imagename]['Cloth_label']

根據條件變換每一列

當label爲 y時, 變爲1, label爲 n時, 變爲0


# train_set 爲DataFrame   label 爲要轉換的列標題
label = 'sentiment'
labels = getattr(train_set, label).map({"y":1, "n": 0})

按照標籤保存爲DataFrame


output = pd.DataFrame(data={"id": test_id_arr, "polarity": result_sem})

數據處理

切分數據集和測試集


import pandas as pd
from sklearn.model_selection import train_test_split

x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.3,random_state=0)
print(len(x_train))
print(len(x_test))

其他

計時

import time
time_start = time.time()

time_end=time.time()
print('reading time : ',time_end-time_start,'s')
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章