H5文件简介和使用

原創

2020-05-31 21:34

H5文件是层次数据格式第5代的版本（Hierarchical Data Format，HDF5），它是用于存储科学数据的一种文件格式和库文件。接触到这个文件格式也是因为上Coursera深度学习课程的时候，作业用到了。它是由美国超级计算与应用中心研发的文件格式，用以存储和组织大规模数据。目前由非营利组织HDF小组提供支持。

目前，很多商业和非商业组织都支持这种文件格式，如Java，MATLAB，Python，R等。

官网网站：https://www.hdfgroup.org/

H5文件在内存占用、压缩、访问速度方面都有非常优秀的特性，在工业领域和科学领域都有很多运用。

H5将文件结构简化成两个主要的对象类型：
1、数据集，就是同一类型数据的多维数组。
2、组，是一种容器结构，可以包含数据集和其他组。

这导致了H5文件是一种真正的层次结构、文件系统式的数据类型。实际上，HDF5文件内部的资源是通过类似POSIX的语法进行访问的（/path/to/resource）。元数据是由用户定义的，以命名属性的形式附加到组和数据集中。更复杂的存储形式如图像和表格可以使用数据集、组和属性来构建。

除了文件格式的先进性，HDF5还包括了一个提升的类型系统，和数据空间对象，用以表示数据区域的选择。API也是关于数据集、组、属性、类型等的面向对象的形式。

由于使用B-tree来索引表格对象，H5非常适合时间序列的数据，如股票价格序列、网络监测序列数据和3D气象数据（中国国家卫星气象中心发布了一个文件HDF5.0使用简介应该也是用了这个数据格式）。

H5本身用C程序提供库函数来提供外部访问的接口。在Python中，主要使用h5py模块来操作相关格式。其读取的函数如下：

def load_data():
    train_dataset = h5py.File('datasets/train_catvnoncat.h5', "r")
    train_set_x_orig = np.array(train_dataset["train_set_x"][:]) # your train set features
    train_set_y_orig = np.array(train_dataset["train_set_y"][:]) # your train set labels

    test_dataset = h5py.File('datasets/test_catvnoncat.h5', "r")
    test_set_x_orig = np.array(test_dataset["test_set_x"][:]) # your test set features
    test_set_y_orig = np.array(test_dataset["test_set_y"][:]) # your test set labels

    classes = np.array(test_dataset["list_classes"][:]) # the list of classes
    
    train_set_y_orig = train_set_y_orig.reshape((1, train_set_y_orig.shape[0]))
    test_set_y_orig = test_set_y_orig.reshape((1, test_set_y_orig.shape[0]))
    
    return train_set_x_orig, train_set_y_orig, test_set_x_orig, test_set_y_orig, classes

train_dataset, train_set_x_orig, train_set_y_orig, test_set_x_orig, test_set_y_orig, classes = load_dataset()

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

H5文件简介和使用

vs2019+cuda10.1+opencv4.1+opencv_contrib4.1 加速的opecv(含擴展庫)環境配置

16位深度的TIF圖像轉8位深度——Matlab標定一片白

opencv namedwindow 出現兩個窗口、亂碼、按鍵事件不響應等原因

labelImg安裝方法（win10+Python3.6）

Kinect2 深度定義和空間的理解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結