sklearn的train_test_split方法

原創

2020-07-04 22:07

這個方法是對數據進行分開，一共四個返回值，分別是訓練集的樣本，訓練集的目標值，測試集的樣本，測試集的目標值，順序就是這樣子的。
train_test_split中傳入的參數爲：數據集，目標集，測試集的大小其中測試集的大小是一個float類型。
下面用一個源碼中的小例子看一下：

    >>> import numpy as np
    >>> from sklearn.model_selection import train_test_split
    >>> X, y = np.arange(10).reshape((5, 2)), range(5)
    >>> X
    array([[0, 1],
           [2, 3],
           [4, 5],
           [6, 7],
           [8, 9]])
    >>> list(y)
    [0, 1, 2, 3, 4]

    >>> X_train, X_test, y_train, y_test = train_test_split(
    ...     X, y, test_size=0.33, random_state=42)
    ...
    >>> X_train
    array([[4, 5],
           [0, 1],
           [6, 7]])
    >>> y_train
    [2, 0, 3]
    >>> X_test
    array([[2, 3],
           [8, 9]])
    >>> y_test
    [1, 4]

    >>> train_test_split(y, shuffle=False)
    [[0, 1, 2], [3, 4]]

其中random_state表示隨機數種子，如果設置兩次一樣的隨機數種子，就能獲得完全一樣的數據集分開後的結果。
另外，源碼的小例子最後的測試只傳入了一個數據集：

train_test_split(y, shuffle=False)

shuffle：是對數據進行隨機排序，默認是True。
只傳入一個一維數據集時，數組長度小於5時會輸出最後一個爲目標集，否則爲最後兩個。

x, y = np.arange(10).reshape((5, 2)), range(8)
print(x)
y = list(y)
print(y)
print(train_test_split(y, shuffle=False))

輸出結果：

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
[0, 1, 2, 3, 4, 5, 6, 7]
[[0, 1, 2, 3, 4, 5], [6, 7]]

長度小於5：

y = range(4)
y = list(y)
print(train_test_split(y, shuffle=False))

結果：

[0, 1, 2, 3]
[[0, 1, 2], [3]]

暫存，不對的再改正。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

StreamJsonRpc.ConnectionLostException 在請求完成之前, 與遠程方的 JSON-RPC 連接已丟失

今天電腦重啓之後，發現 visual studio 2022 的智能提示與報錯經常性不好用，不光不能在正常時候提示代碼錯誤信息，甚至在編譯過後也不提示錯誤。反覆重啓，剛開始正常，隔一會兒就會提示什麼什麼功能不可用，點開打開詳情，提示：Str

波多爾斯基

2024-04-23 14:32:26

10分鐘本地運行llama3及初體驗

Meta最新推出的開源大模型llama-3,被譽爲目前最強的開源大模型，能力接近於GPT 4.5. 因此在本地搭建一下搶鮮體驗系統環境 CPU: AMD Ryzen 5 3600X 6-Core Processor 4.10 GHz RA

摩羯座先生

2024-04-23 14:32:16

【筆記】動手學深度學習-前言

1、學習深度學習，首先第一點要親自動手。 2、相關anacoda的環境的安裝方法，用來隔絕相關的依賴關係，防止安裝包衝突。 3、機器學習程序不同於一般程序，能夠隨着數據的增加，通過調節內部的參數，展現出一定的智能的想象。 4、機器學習中的核

2024-04-23 14:29:45

手寫協議報文 c語言手法

鑑於絕大部分文件、網絡通信協議、非網絡通信協議都有類似的結構{類型，長度，校驗，不定長數據，結束標誌}，再高級點的會包含多個單層TLV，甚至嵌套TLV，狀態機流轉標誌等等。所以編程語言上也需要採用一定的手法。建立結構結構體和聯合體例如

藍天上的雲℡

2024-04-23 14:22:15

公司新來一個幹練小夥，把 MyBatis 替換成 MyBatis-Plus，上線後哭暈在廁所。。。

作者：青石路來源：https://www.cnblogs.com/youzhibing/p/18019399 MyBatis 替換成 MyBatis-Plus 背景介紹一個老項目，數據庫用的是 MySQL 5.7.36 ， ORM 框

2024-04-23 14:22:15

goweb性能分析 - 遠程分析

gin集成pporf main.go添加 import _ "net/http/pprof" gin路由添加 // r is *gin.Engine pprof.Register(r) 本地電腦鏈接到遠程web服務進行分析然後本地

藍天上的雲℡

2024-04-23 14:22:15

RT-Thread 4.x STM32F107

官方文檔很坑，新舊不分開，文檔缺失/分類很亂有些文檔在IDE RT-STUDIO文檔裏，有些在RTThread標準版文檔裏，逆天坑：不支持STM32CUBEMX的Advanced工程，記得重新保存生成basic工程才能用。不能使用.c/

藍天上的雲℡

2024-04-23 14:22:15

Azure REST API (0) 概述 Windows Azure Platform 系列文章目錄

　　《Windows Azure Platform 系列文章目錄》　　1.概述　　1.我們在使用Azure 雲服務的時候，可以通過Azure Portal: https://portal.azure.com,輸入郵箱地址和密碼，然後

Lei Zhang的博客

2024-04-23 14:21:25

盟軍敢死隊2 108關

可以算是最耐玩的遊戲了. 108關後面自定義的關都非常難. https://bbs.3dmgame.com/thread-6354239-1-1.html 更多的360關: https://www.52pojie.cn/thread-117

張博的博客

2024-04-23 14:20:44

淺談sparse vec檢索工程化實現

前面我們通過兩篇文章: BGE M3-Embedding 模型介紹和 Sparse稀疏檢索介紹與實踐介紹了sparse 稀疏檢索，今天我們來看看如何建立一個工程化的系統來實現sparse vec的檢索。之前提過milvus最新的V

2024-04-23 14:20:04

甲骨文(Oracle)宣佈將以74億美元收購Sun公司

IBM與Sun公司之間的收購風波還未塵埃落定，半路卻殺出了甲骨文公司這個“程咬金”。Oracle甲骨文公司和Sun微系統公司今天共同宣佈，雙方已經達成協議，甲骨文將以每股9.5美元的現金收購Sun公司，交易總價值74億美元。　　就在幾周

2024-04-23 14:18:34

NSS：IE8是最安全的瀏覽器

NSS實驗室近日的一份研究報告指出，IE8在惡意軟件防護方面較其它瀏覽器表現突出，NSS表示，當前有超過50%的惡意軟件都是通過網絡下載傳播的，該實驗室首次對五種主流瀏覽器的惡意網站的攔截性能進行了測試，IE8（RC版本）以69%的攔截率居

2024-04-23 14:18:34

Brian Sun：回覆“爲啥就那麼痛恨IE？”

這位仁兄很有自知之明:) 但是我並不打算罵你，我打算跟你講講道理。首先，在講道理之前，我先要說明一個事實，Mozilla的前身是Netscape Navigator，人類第一個商業瀏覽器，即做了非常成功的產品又做了非常成功的創業企業

2024-04-23 14:18:34

支持非IE瀏覽器真的那麼難嗎？

來源：http://www.kenengba.com/post/774.html 微軟最近推出了IE8正式版。當你知道上網需要的是瀏覽器，而不是那個"e"時，你一定知道，不管IE推出什麼版本，只要它的核心不變，它一直是個“老掉牙”的瀏覽器。

2024-04-23 14:18:34

爲啥就那麼痛恨IE？

　　看了《評論:支持非IE瀏覽器真的那麼難嗎？》一文，我覺得作者的分析太深刻了——一個典型的技術型人才。其實從技術上說，要支持IE根本不是什麼困難的事情，這個大家都很清楚。但是不遵循技術標準，並不代表國人素質低，並不代表國人不思改變、不思進

2024-04-23 14:18:34

24小時熱門文章

最新文章

sklearn的train_test_split方法

最新評論文章