【工具代码】将Mnist和Cifar-10数据集转换为numpy格式

原創

2020-05-24 01:22

Cifar-10:

import pickle
import glob
import numpy as np


def Dataloader():
	data_list = glob.glob("data_batch_*")

	for data in data_list:
		data = pickle.load(open(data, 'rb'), encoding='bytes')
		labels, data, filenames = data[b'labels'], data[b'data'], data[b'filenames']
		labels, data = map(np.array, [labels, data])
		try:
			Data = np.r_[Data, data]
			Labels = np.r_[Labels, labels]
		except:
			Data = data
			Labels = labels
	
	np.save("data/data.npy", Data)
	np.save("data/label.npy", Labels)
			
if __name__ == "__main__":
	Dataloader()

Mnist:

import numpy as np
import struct
 
def loadImageSet(filename):
 
    binfile = open(filename, 'rb') # 读取二进制文件
    buffers = binfile.read()
 
    head = struct.unpack_from('>IIII', buffers, 0) # 取前4个整数，返回一个元组
 
    offset = struct.calcsize('>IIII')  # 定位到data开始的位置
    imgNum = head[1]
    width = head[2]
    height = head[3]
 
    bits = imgNum * width * height  # data一共有60000*28*28个像素值
    bitsString = '>' + str(bits) + 'B'  # fmt格式：'>47040000B'
 
    imgs = struct.unpack_from(bitsString, buffers, offset) # 取data数据，返回一个元组
 
    binfile.close()
    imgs = np.reshape(imgs, [imgNum, width * height]) # reshape为[60000,784]型数组
 
    return imgs,head
 
 
def loadLabelSet(filename):
 
    binfile = open(filename, 'rb') # 读二进制文件
    buffers = binfile.read()
 
    head = struct.unpack_from('>II', buffers, 0) # 取label文件前2个整形数
 
    labelNum = head[1]
    offset = struct.calcsize('>II')  # 定位到label数据开始的位置
 
    numString = '>' + str(labelNum) + "B" # fmt格式：'>60000B'
    labels = struct.unpack_from(numString, buffers, offset) # 取label数据
 
    binfile.close()
    labels = np.reshape(labels, [labelNum]) # 转型为列表(一维数组)
 
    return labels,head
 
 
if __name__ == "__main__":
    file1= './train-images.idx3-ubyte'
    file2= './train-labels.idx1-ubyte'
 
    imgs,data_head = loadImageSet(file1)
 
    labels,labels_head = loadLabelSet(file2)

    np.save("data/data.npy", imgs)
    np.save("data/label.npy", labels)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【工具代码】将Mnist和Cifar-10数据集转换为numpy格式

使用c#强大的表达式树实现对象的深克隆之解决循环引用的问题

GPT-4o 引领人机交互新风向，向量数据库赛道沸腾了

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU启动那些事（12.A）- uSDHC eMMC启动时间(RT1170)

基于Ubuntu-22.04安装K8s-v1.28.2实验（二）使用kube-vip实现集群VIP访问

企业大模型如何成为自己数据的“百科全书”？

本地SSL证书过期输入命令在IIS自动生成

.NET周刊【5月第2期 2024-05-12】

基于Ubuntu-22.04安装K8s-v1.28.2实验（一）部署K8s

基于Ubuntu-22.04安装K8s-v1.28.2实验（三）数据卷挂载NFS（网络文件系统）

【記錄】Python修改非自定義的包中的函數 keras-retinanet之修改網絡

【分享】華爲EMUI免root一鍵刪除系統內置軟件

【分享】震驚！寫了二十年的Markdown，第一次知道竟然可以這樣插入圖片！—— Markdown插入圖片的三種方式

【教程】Win10重置電腦和重裝系統

【分享】小米MIUI免root一鍵刪除系統內置軟件

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結