前言
pandas 確實很好用, 但是網上的教程參差不齊, 找到可以用的比較花時間, 所以自己總結了一些會常常用到的。
Pandas部分
根據某一列找另一列
import pandas as pd
# 根據imagename 通過查找 Image , 得到相應的Cloth_label列的數據
label = train_lable.loc[train_lable.Image == imagename]['Cloth_label']
根據條件變換每一列
當label爲 y時, 變爲1, label爲 n時, 變爲0
# train_set 爲DataFrame label 爲要轉換的列標題
label = 'sentiment'
labels = getattr(train_set, label).map({"y":1, "n": 0})
按照標籤保存爲DataFrame
output = pd.DataFrame(data={"id": test_id_arr, "polarity": result_sem})
數據處理
切分數據集和測試集
import pandas as pd
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.3,random_state=0)
print(len(x_train))
print(len(x_test))
其他
計時
import time
time_start = time.time()
time_end=time.time()
print('reading time : ',time_end-time_start,'s')