python上数据存储.h5格式或者h5py

最近在做城市计算的项目,数据文件是以.h5的格式存储的,总结下其用法和特点

来自百度百科的简介:

HDF(Hierarchical Data Format),可以存储不同类型的图像和数码数据的文件格式,并且可以在不同类型的机器上传输,同时还有统一处理这种文件格式的函数库。大多数计算机都支持这种文件格式。

目前常用的图像文件格式很多,如GIF,JPG,PCX,TIFF等。这些格式共同的缺点是结构太简单,不能存放除影像信息外其他的有用数据,像遥感影像的坐标值、参数等都无法在其中保存,而且用不同格式存储影像数据使得读取、传输、共享变得复杂,因此,有必要建立一种标准格式以解决上述问题。

HDF是美国国家高级计算应用中心为了满足各种领域研究需求而研制的一种能高效存储和分发科学数据的新型数据格式。HDF可以表示出科学数据存储和分布的许多必要条件。HDF被设计为:

自述性:对于一个HDF文件里的每一个数据对象,有关该数据的综合信息(元数据)。在没有任何外部信息的情况下,HDF允许应用程序解释HDF文件的结构和内容。

通用性:许多数据类型都可以被嵌入在一个HDF文件里。例如,通过使用合适的HDF数据结构、符号、数字和图形数据可以同时存储在一个HDF文件里。

灵活性:HDF允许用户把相关的数据对象组合在一起,放到一个分层结构中,向数据对象添加描述和标签。它还允许用户把科学数据存放到多个HDF文件里。

扩展性:HDF极易容纳将来新增的数据模式,容易与其他标准格式兼容。

跨平台性:HDF是一个与平台无关的文件格式。HDF文件无需任何转换就可以在不同平台上使用。

科学家通常在不同的机器上生成和处理数据文件。各式各样的软件包被用来多种处理文件,同时也与其他使用不同机器和软件的人共享数据文件。在一组文件里,这些文件也许包含不同类型的信息。这些不同类型的信息混合结构在一个文件里的意义与另一个文件的意义不同。这些文件也许概念上有关但在实质上却不同。HDF通过提供一个一般目的的文件结构来表明这些问题:HDF为程序提供一个从数据文件本身获取数据信息的机制,而不是其他来源。

一、python读取HFD5文件

HDF5是一种层次化的格式(hierarchial format),经常用于存储复杂的科学数据。例如MATLAB就是用这个格式来存储数据,在存储带有关联的元数据(medata)的复杂层次化数据的时候,这个格式非常有用。例如计算机模拟实验室的运算结果等等。与HDF5相关的主要概念有以下几个:

文件file:层次化数据的容器,相当于树根(‘root’ for tree)

组group:树的一个节点(node for a tree)

数据集 dataset:数值数据的数组,可以非常非常大

属性atrribute:提供额外信息的小块的元数据

python操作HDF5文件:https://www.jianshu.com/p/998c861d32e3

示例:创建hdf5文件

 1 import os
 2 import h5py
 3 import numpy as np
 4 
 5 imgData = np.zeros((4392,2,16,8))
 6 
 7 if not os.path.exists('1.h5'):
 8     with h5py.File('1.h5') as f:
 9         f['data'] = imgData
10         f['labels'] = range(100)

示例:读取

import os
import h5py
import numpy as np
with h5py.File('test.hdf5') as f:
    print(f)
    print(f.keys)

HDF5的优点:

速度、内存占用,压缩程度都比cPickle+gzip来的优秀。

与其他方式对比:

1、numpy.save, numpy.savez, scipy.io.savemat

numpy和scipy提供的数据存储方法,官方说save的压缩版,尽管在实践中,什么都没能压缩到。

而且这三个方法产生的文件大小都一样的...非常大。

2、cPickle+gzip

这里忽略pickle这家伙,直接被cPickle虐了

.pkl.gz是mnist的官方后缀。看来是会很好用的样子。

但在实际使用中,有两个难以避免的问题:

速度慢,内存占用高(就是性能不好)

大矩阵存储无能

3、h5py

基本找不到缺点,唯一的缺点是很难安装。

参考:http://www.cnblogs.com/Ponys/p/3671458.html