mmap文件映射
使用内存映射的原因
为了随机访问文件的内容,使用mmap将文件映射到内存中是一个高效和优雅的方法。例如,无需打开一个文件并执行大量的seek(),read(),write()调用,只需要简单的映射文件并使用切片操作访问数据即可。
内存映射一个文件并不会导致这个文件被读取到内存中。也就是说,文件并没有被复制到内存缓存或数组中。相反,操作系统仅仅为文件内容保留了一段虚拟内存。当访问文件的不同区域时,这些区域的内容才根据需要被读取并映射到内存区域中。而那些从没被访问到的部分还是留在磁盘上。所有这些过程都是透明的,在幕后完成。
mmap介绍
mmap是一种虚拟内存映射文件的方法,它可以将一个文件或者其它对象映射到进程的地址空间,实现文件磁盘地址和进程虚拟地址空间中一段虚拟地址的一一对应关系。
*mmap 模块提供“内存映射的文件对象”,mmap 对象可以用在使用 plain string 的地方,mmap 对象和 plain string 的区别是:
- mmap 对象不提供字符串对象的方法;
- mmap 对象是可变的,而 str 对象是不可变的
- mmap 对象同时对应于打开的文件,多态于一个Python file 对象
- mmap 对象可以切片和索引,也可以为它的切片或索引赋值(因为 mmap 对象是可变的),为 mmap 对象的切片赋值时,赋值语句右值的长度必须和左值切片的长度相同。mmap 对象可以作为进程间通过文件进行 IPC 的一种替换手段。
mmap使用细节
1、使用mmap需要注意的一个关键点是,mmap映射区域大小必须是物理页大小(page_size)的整倍数(32位系统中通常是4k字节)。原因是,内存的最小粒度是页,而进程虚拟地址空间和内存的映射也是以页为单位。为了匹配内存的操作,mmap从磁盘到虚拟地址空间的映射也必须是页。
2、内核可以跟踪被内存映射的底层对象(文件)的大小,进程可以合法的访问在当前文件大小以内又在内存映射区以内的那些字节。也就是说,如果文件的大小一直在扩张,只要在映射区域范围内的数据,进程都可以合法得到,这和映射建立时文件的大小无关。具体情形参见“情形三”。
3、映射建立之后,即使文件关闭,映射依然存在。因为映射的是磁盘的地址,不是文件本身,和文件句柄无关。同时可用于进程间通信的有效地址空间不完全受限于被映射文件的大小,因为是按页映射。
创建mmap对象
m=mmap.mmap(fileno, length[, flags[, prot[, access[, offset]]]])
参数 | 功能 |
---|---|
fileno | 文件描述符,可以是file对象的fileno()方法,或者来自os.open(),在调用mmap()之前打开文件,不再需要文件时要关闭。 |
length | 要映射文件部分的大小(以字节为单位),这个值为0,则映射整个文件,如果大小大于文件当前大小,则扩展这个文件。 |
flags | MAP_PRIVATE:这段内存映射只有本进程可用;mmap.MAP_SHARED:将内存映射和其他进程共享,所有映射了同一文件的进程,都能够看到其中一个所做的更改; |
prot | mmap.PROT_READ, mmap.PROT_WRITE 和 mmap.PROT_WRITE ,mmap.PROT_READ。最后一者的含义是同时可读可写。 |
access | 在mmap中有可选参数access的值有:ACCESS_READ:读访问。ACCESS_WRITE:写访问,默认。ACCESS_COPY:拷贝访问,不会把更改写入到文件,使用flush把更改写到文件。 |
mmap对象的函数
函数 | 功能 |
---|---|
close() | 关闭 m 对应的文件 |
m.find(str, start=0) | 从 start 下标开始,在 m 中从左往右寻找子串 str 最早出现的下标 |
m.flush([offset, n]) | 把 m 中从offset开始的n个字节刷到对应的文件中 |
m.move(dstoff, srcoff, n) | 等于 m[dstoff:dstoff+n] = m[srcoff:srcoff+n],把从 srcoff 开始的 n 个字节复制到从 dstoff 开始的n个字节,可能会覆盖重叠的部分 |
m.read(n) | 返回一个字符串,从 m 对应的文件中最多读取 n 个字节,将会把 m 对应文件的位置指针向后移动 |
m.read_byte() | 返回一个1字节长的字符串,从 m 对应的文件中读1个字节,要是已经到了EOF还调用 read_byte(),则抛出异常 ValueError |
m.readline() | 返回一个字符串,从 m 对应文件的当前位置到下一个’\n’,当调用 readline() 时文件位于 EOF,则返回空字符串 |
m.seek(pos, how=0) | 同 file 对象的 seek 操作,改变 m 对应的文件的当前位置 |
m.size() | 返回 m 对应文件的长度(不是 m 对象的长度len(m)) |
m.tell() | 返回 m 对应文件的当前位置 |
m.write(str) | 把 str 写到 m 对应文件的当前位置,如果从 m 对应文件的当前位置到 m 结尾剩余的空间不足len(str),则抛出 ValueError |
m.write_byte(byte) | 把1个字节(对应一个字符)写到 m 对应文件的当前位置,实际上 m.write_byte(ch) 等于 m.write(ch) |
file的seek()函数
seek() 方法用于移动文件读取指针到指定位置。
fileObject.seek(offset[, whence])
- offset – 开始的偏移量,也就是代表需要移动偏移的字节数
- whence:可选,默认值为 0。给offset参数一个定义,表示要从哪个位置开始偏移;0代表从文件开头开始算起,1代表从当前位置开始算起,2代表从文件末尾算起。
如果操作成功,则返回新的文件位置,如果操作失败,则函数返回 -1。