sklearn.model_selection.train_test_split

原創

2018-08-29 19:18

数据集划分：sklearn.model_selection.train_test_split(*arrays, **options)

主要参数说明：

*arrays：可以是列表、numpy数组、scipy稀疏矩阵或pandas的数据框

test_size：可以为浮点、整数或None，默认为None

①若为浮点时，表示测试集占总样本的百分比

②若为整数时，表示测试样本样本数

③若为None时，test size自动设置成0.25

train_size：可以为浮点、整数或None，默认为None

①若为浮点时，表示训练集占总样本的百分比

②若为整数时，表示训练样本的样本数

③若为None时，train_size自动被设置成0.75

random_state：可以为整数、RandomState实例或None，默认为None

①若为None时，每次生成的数据都是随机，可能不一样

②若为整数时，每次生成的数据都相同

stratify：可以为类似数组或None

①若为None时，划分出来的测试集或训练集中，其类标签的比例也是随机的

②若不为None时，划分出来的测试集或训练集中，其类标签的比例同输入的数组中类标签的比例相同，可以用于处理不均衡的数据集

通过简单栗子看看各个参数的作用：

①test_size决定划分测试、训练集比例

In [1]: import numpy as np
...: from sklearn.model_selection import train_test_split
...: X = np.arange(20)
...: y = ['A','B','A','A','A','B','A','B','B','A','A','B','B','A','A','B','A
...: ','B','A','A']
...: X_train , X_test , y_train,y_test = train_test_split(X,y,test_size=0.25
...: ,random_state=0)
...:
In [2]: X_test.shape
Out[2]: (5,)
In [3]: X_train.shape
Out[3]: (15,)
In [4]: X_test ,y_test
Out[4]: (array([18, 1, 19, 8, 10]), ['A', 'B', 'A', 'B', 'A'])

②random_state不同值获取到不同的数据集

设置random_state=0再运行一次，结果同上述相同

In [5]: import numpy as np
...: from sklearn.model_selection import train_test_split
...: X = np.arange(20)
...: y = ['A','B','A','A','A','B','A','B','B','A','A','B','B','A','A','B','A
...: ','B','A','A']
...: X_train , X_test , y_train,y_test = train_test_split(X,y,test_size=0.25
...: ,random_state=0)
...: X_test ,y_test
...:
Out[5]: (array([18, 1, 19, 8, 10]), ['A', 'B', 'A', 'B', 'A'])

设置random_state=None运行两次，发现两次的结果不同

In [6]: import numpy as np
...: from sklearn.model_selection import train_test_split
...: X = np.arange(20)
...: y = ['A','B','A','A','A','B','A','B','B','A','A','B','B','A','A','B','A
...: ','B','A','A']
...: X_train , X_test , y_train,y_test = train_test_split(X,y,test_size=0.25
...: )
...: X_test ,y_test
...:
Out[6]: (array([ 3, 18, 14, 7, 4]), ['A', 'A', 'A', 'B', 'A'])
In [7]: import numpy as np
...: from sklearn.model_selection import train_test_split
...: X = np.arange(20)
...: y = ['A','B','A','A','A','B','A','B','B','A','A','B','B','A','A','B','A
...: ','B','A','A']
...: X_train , X_test , y_train,y_test = train_test_split(X,y,test_size=0.25
...: )
...: X_test ,y_test
...:
Out[7]: (array([18, 6, 3, 14, 8]), ['A', 'A', 'A', 'A', 'B'])

③设置stratify参数，可以处理数据不平衡问题

In [8]: import numpy as np
...: from sklearn.model_selection import train_test_split
...: X = np.arange(20)
...: y = ['A','B','A','A','A','B','A','B','B','A','A','B','B','A','A','B','A
...: ','B','A','A']
...: X_train , X_test , y_train,y_test = train_test_split(X,y,test_size=0.25
...: ,stratify=y)
...: X_test ,y_test
...:
Out[8]: (array([18, 8, 3, 10, 11]), ['A', 'B', 'A', 'A', 'B'])
In [9]: import numpy as np
...: from sklearn.model_selection import train_test_split
...: X = np.arange(20)
...: y = ['A','B','A','A','A','B','A','B','B','A','A','B','B','A','A','B','A
...: ','B','A','A']
...: X_train , X_test , y_train,y_test = train_test_split(X,y,test_size=0.25
...: ,stratify=y)
...: X_test ,y_test
...:
Out[9]: (array([ 6, 19, 8, 17, 0]), ['A', 'A', 'B', 'B', 'A'])
In [10]: X_train,y_train
Out[10]:
(array([ 7, 1, 11, 10, 15, 2, 3, 5, 4, 13, 12, 16, 18, 14, 9]),
['B', 'B', 'B', 'A', 'B', 'A', 'A', 'B', 'A', 'A', 'B', 'A', 'A', 'A', 'A'])

设置stratify=y时，我们发现每次划分后，测试集和训练集中的类标签比例同原始的样本中类标签的比例相同，都为2:3

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

乱序拼图验证的识别并还原 puzzle-captcha（开源）

一、前言亂序拼圖驗證是一種較少見的驗證碼防禦，市面上更多的是拖動滑塊，被完美攻克的有不少，都在行爲軌跡上下足了功夫，本文不討論軌跡模擬範疇，就只針對拼圖還原進行研究。找一個市面比較普及的頂像亂序拼圖進行驗證，它號稱的防禦能力4星，

2021-12-01 00:53:28

【转载】Python处理csv文件

Python處理csv文件 CSV(Comma-Separated Values)即逗號分隔值，可以用Excel打開查看。由於是純文本，任何編輯器也都可打開。與Excel文件不同，CSV文件中：值沒有類型，所有值都是字符串不能指定字

2020-07-18 14:25:30

Error:field larger than field limit(131072)解决方法

從csv文件讀取某一列的數據時，報錯顯示：Error:field larger than field limit(131072) 通過判斷髮現是因爲文件的行數超過csv限制的行數，所以導致結果既無法在控制檯打印，試着轉到df,存成csv文

2020-07-08 12:39:29

启动Jupyter时, 遇到 sudo: jupyterhub: command not found 问题的解决方案

最近在學習Jupyter, 但是我發現啓動不了多用戶的JupyterHub 官網的教程: sudo jupyterhub 直接輸入就會導致這樣子的結果後面我各種谷歌百度,都好複雜,然後我突然想到,這是沒有Jupyterhub

钢琴线与小刀

2020-07-08 12:39:19

Python小记 —— 文件读写操作里read()方法的深究

** 語法 ** 格式：read(size) 在read()方法裏，size表示要從文件中讀取的數據長度，如果沒有指定size或者指定爲“None”就表示讀取文件裏的全部數據。特別需要注意點： read()的讀取機制因訪問文件

2020-07-08 12:33:27

python使用pip指令安装并引用第三方模块及注意事项

python裏有內置模塊、自定義模塊還有第三方模塊。內置模塊就是python自帶的模塊了，我們直接引用就可以了，如：import sys。自定義模塊就是按照我們編程者的需求以方便編寫程序和維護代碼的一些“.py文件”，簡單地說，

2020-07-08 12:33:27

python小记 —— sys.argv

sys.argv到底是什麼? sys.argv是運行在黑屏終端運行python文件獲取的參數。即返回一個包含輸入參數的列表。話不多說了看下面，反手就是一堆代碼： import sys print("list長度：",len(sy

2020-07-08 12:33:16

Django Signals 信号

文章目錄Django Signals 信號入門connect Django Signals 信號入門 # receiver 接收者 def my_callback(sender, **kwargs): print sen

2020-07-08 12:31:35

sorted 在python2和3中的区别

文章目錄sorted 在python2和3中的區別 sorted 在python2和3中的區別 python3中取消了cmp參數 python3中的使用方法如下: from functools import cmp_to_key

2020-07-08 12:31:35

python3 排序 sort sorted

排序穩定性和排序複雜度排序保證是穩定的。這意味着當多個記錄具有相同的鍵值時，將保留其原始順序。 >>> data = [('red', 1), ('blue', 1), ('red', 2), ('blue', 2)] >

2020-07-08 12:31:35

python3 super 用法2

class MetaCls(type): def __new__(cls, *args, **kwargs): print("in MetaCls") # return super(Meta

2020-07-08 12:31:35

meta class 和类装饰器的执行顺序

meta class 和類裝飾器的執行順序先執行decorator,後執行metaclass 程序是從上到下執行,先遇到decorator,後遇到class,創建class 調用metaclass. 同理,裝飾器也是先執行上面的

2020-07-08 12:31:35

弱引用 weakref

弱引用 weakref 對對象的弱引用不能保證對象存活：當對像的引用只剩弱引用時， garbage collection 可以銷燬引用並將其內存重用於其他內容。但是，在實際銷燬對象之前，即使沒有強引用，弱引用也一直能返回該對象。

2020-07-08 12:31:35

python神级数据结构namedtuple

python神級數據結構namedtuple from collections import namedtuple 以前就知道有這個東西,也知道如何使用,但是沒覺得有什麼實際用處. 上次看框架源碼,無意間看到這個,發現非常好用.

2020-07-08 12:31:35

python3 super 用法

python3 super 用法標題黨了. 其實我也不確定這是不是python3的用法. 但是,今天工作的時候遇到了不一樣的寫法,試了一下,運行成功. 剛剛在官網找到了一個例子.以後用的更有底氣了. class C(B):

2020-07-08 12:31:35

24小時熱門文章

最新文章

最新評論文章