第一次 數據競賽
這是我在學習完Python和機器學習的基本知識後的第一次實踐,更是一次成長。
獲取數據
在DataCastle中註冊,並且報名“達觀杯”文本智能處理挑戰賽(已經結束,但是任然可以使用),下載比賽數據。
讀取數據
數據分爲兩部分訓練數據和測試數據都是CSV格式的,首先通過利用Excel打開數據來進行觀察數據(數據較大,內存不夠的話會打不開,而且卡死電腦),訓練數據是進行脫敏的數據,數據不是乾淨的,在對數據進行後期處理前需要預處理。通過Python來讀取比賽數據,此處用到pandas庫中的csv格式讀取函數read_csv。
數據分割
對讀取進來的數據利用sklearn.model_selection中的train_test_split進行分割。train_test_split是交叉驗證中常用的函數,詳細教程可以參考官網train_test_split.
具體實現
import pandas as pd
from sklearn.model_selection import train_test_split
data = pd.read_csv('train_set.csv')
data_list = data.columns
data_list = data_list.drop('class')
data = data[data_list]
y_list = data['class']
X_train, X_test, Y_train, Y_test = train_test_split(data, y_list, test_size=0.3, random_state=2019)
參考文獻
[1]: https://blog.csdn.net/mrxjh/article/details/78481578
[2]: https://blog.csdn.net/together_cz/article/details/80001715
[3]: https://www.cnblogs.com/unnameable/p/7366437.html