數據競賽——0

第一次 數據競賽

這是我在學習完Python和機器學習的基本知識後的第一次實踐,更是一次成長。

獲取數據

在DataCastle中註冊,並且報名“達觀杯”文本智能處理挑戰賽(已經結束,但是任然可以使用),下載比賽數據。

讀取數據

數據分爲兩部分訓練數據和測試數據都是CSV格式的,首先通過利用Excel打開數據來進行觀察數據(數據較大,內存不夠的話會打不開,而且卡死電腦),訓練數據是進行脫敏的數據,數據不是乾淨的,在對數據進行後期處理前需要預處理。通過Python來讀取比賽數據,此處用到pandas庫中的csv格式讀取函數read_csv。

數據分割

對讀取進來的數據利用sklearn.model_selection中的train_test_split進行分割。train_test_split是交叉驗證中常用的函數,詳細教程可以參考官網train_test_split.

具體實現

import pandas as pd
from sklearn.model_selection import train_test_split

data = pd.read_csv('train_set.csv')

data_list = data.columns
data_list = data_list.drop('class')
data = data[data_list]
y_list = data['class']

X_train, X_test, Y_train, Y_test = train_test_split(data, y_list, test_size=0.3, random_state=2019)

參考文獻
[1]: https://blog.csdn.net/mrxjh/article/details/78481578
[2]: https://blog.csdn.net/together_cz/article/details/80001715
[3]: https://www.cnblogs.com/unnameable/p/7366437.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章