機器學習之數據集劃分

1.定義

由於數據集存在集中性,普通的人爲劃分可能會造成測試集(test_data)和訓練集(train_data)過於集中,因此需要採用某種方法對數據進行隨機劃分。

2.方法

import sklearn.model_selection as ms

ms.train_test_split(輸入集,輸出集,test_size=測試集佔比,random_state=隨機種子)

3.例子

import sklearn.model_selection as ms

train_x,test_x,train_y,test_y = \
    ms.train_test_split(x,y,test_size=0.25,random_state=7)

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章