分層拆分

原創

2021-09-04 14:11

分層拆分保證拆分後的數據集標籤列比例還一樣。比如在原來數據集中正負樣本比例是2:1，那麼在拆分後的測試集和訓練集中，正負標籤也是2:1。
可以用來修正隨機拆分後的測試集和訓練中比例不一樣的問題。
如果正樣本特別少，並且測試集也很少，那麼測試集有可能抽不到正樣本，可以使用分層採樣。

使用sklearn 測試，不使用分層：

import pandas as pd
from sklearn.model_selection import train_test_split

df = pd.DataFrame(
    data={
        'c1': ['a', 'b', 'c', 'd', 'e', 'f'],
        'label': [1, 1, 1, 1, 0, 0]
    }
)
# X_train, X_test = train_test_split(df, test_size=0.333, random_state=100, stratify=df['label'])  # 使用分層抽樣，指定分層抽樣依據的列
X_train, X_test = train_test_split(df, test_size=0.333, random_state=100)

print('X_train: ')
print(X_train)
print('X_test: ')
print(X_test)

X_train: 
  c1  label
4  e      0
3  d      1
5  f      0
0  a      1
X_test: 
  c1  label
1  b      1
2  c      1

使用分層抽樣的輸出：

X_train: 
  c1  label
1  b      1
3  d      1
5  f      0
2  c      1
X_test: 
  c1  label
4  e      0
0  a      1

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

數據保護技巧揭祕：爲導出文件添加防護密碼的實用指南

一、前言當涉及到敏感數據的導出和共享時，數據安全是至關重要的。在現代數字化時代，保護個人和機密信息免受未經授權的訪問和竊取是每個組織和個人的首要任務之一。在這種背景下，葡萄城的純前端表格控件 SpreadJS 提供的加密功能爲用戶提供了一

葡萄城技術團隊

2024-06-03 14:30:40

圖牀軟件Minio oss

docker run -p 9000:9000 -p 9001:9001 --name minio -d --restart=always -e "MINIO_ACCESS_KEY=admin" -e "MINIO_SECRET_KEY=a

2024-06-03 14:25:00

一個docker容器暴露多個端口

how to configure multiple domain (virtual host) and multiple virtual port # start the nginx proxy docker run -d -p 80:80

2024-06-03 14:25:00

微軟官方開源免費的Blazor UI組件庫 - Fluent UI Blazor

前言今天大姚給大家分享一個由微軟官方開源（MIT License）、免費的Blazor UI組件庫：Fluent UI Blazor。全面的ASP.NET Core Blazor簡介和快速入門 Fluent UI Blazor介紹

2024-06-03 14:22:00

再也不用爲找.NET相關的項目和框架發愁了

前言最近經常在DotNetGuide技術社區交流羣裏看到有小夥伴問：有什麼好用的.NET定時任務調度框架推薦的？有什麼好的WPF/WinForm/Blazor圖表庫推薦的？.NET好用的後臺管理框架有推薦的嗎？大家平時都是怎麼找.NET

2024-06-03 14:22:00

leetcode 60 排列序列

排列序列已解答困難相關標籤相關企業給出集合 [1,2,3,...,n]，其所有元素共有 n! 種排列。按大小順序列出所有排列情況，並一一標記，當 n = 3 時, 所有排列如下： "123" "132" "213" "231

張博的博客

2024-06-03 14:19:49

k8S的kube-proxy相關ipvs

ipvsadm命令沒想到自己之前二進制部署的，也是ipvs代理模式 node2上沒有裝ipvs，也看不了一些ipvs規則 node1上安裝ipvsadm,然後就可以看的k8s添加的規則了 yum install ipvsadm

2024-06-03 14:13:49

零基礎寫框架：從零設計一個模塊化和自動服務註冊框架

關於從零設計 .NET 開發框架作者：癡者工良教程說明：倉庫地址：https://github.com/whuanle/maomi 文檔地址：https://maomi.whuanle.cn 作者博客： https://www.whu

2024-06-03 14:13:38

英語背單詞專四詞彙 2024年06月 ChatGPT

2024-06-03 index word pronunciation parts of speech explanation translation in Chinese 1 fuss /fʌs/ noun/verb unnec

2024-06-03 14:06:57

背單詞首字母 2024年06月

2024-06-302024-06-292024-06-282024-06-272024-06-262024-06-252024-06-242024-06-232024-06-222024-06-212024-06-202024-06-19

2024-06-03 14:06:57

初探富文本之基於虛擬滾動的大型文檔性能優化方案

初探富文本之基於虛擬滾動的大型文檔性能優化方案虛擬滾動是一種優化長列表性能的技術，其通過按需渲染列表項來提高瀏覽器運行效率。具體來說，虛擬滾動只渲染用戶瀏覽器視口部分的文檔數據，而不是整個文檔結構，其核心實現根據可見區域高度和容器的滾動位

2024-06-03 14:05:17

.Net 中間件 - 新開源代碼生成器 -ReZero

ReZero AP ReZero是一款.NET中間件：一款通過界面操作就能生成API , 可以集成到任何.NET6+ API項目,無破壞性，也可讓非.NET用戶使用exe文件 ReZero生成器功能簡介 1、表文檔導出：支持目錄導航

2024-06-03 14:03:26

Microsoft.Extensions.DependencyInjection會自動釋放通過DI（依賴注入）創建的對象

Microsoft.Extensions.DependencyInjection中（下面簡稱DI），在調用ServiceProvider和IServiceScope對象的Dispose()方法時，也會自動調用ServiceProvider和

2024-06-03 14:03:06

爲什麼以及如何要進行架構設計權衡？

對於“軟件架構”這個詞有很多定義和含義。而且，“軟件開發”、“軟件設計”和“軟件架構”這三個概念之間存在相當大的重疊，它們在許多方面相互交融。從核心上看，可以將軟件架構視爲在構建應用程序時，對不同選擇進行權衡的學科。 1 爲什麼需要權衡以

路人111122233

2024-06-03 14:00:36

如何使用Node.js、TypeScript和Express實現RESTful API服務

Node.js是一個基於 Chrome V8 引擎的 JavaScript 運行環境。Node.js 使用了一個事件驅動、非阻塞式 I/O 的模型,使其輕量又高效。Express是一個保持最小規模的靈活的 Node.js Web應用程序開發

2024-06-03 13:59:46

24小時熱門文章

最新文章

最新評論文章