VC中使用內存映射文件處理大文件

引言

文件操作是應用程序最爲基本的功能之一,Win32 API和MFC均提供有支持文件處理的函數和類,常用的有Win32 API的CreateFile()、WriteFile()、ReadFile()和MFC提供的CFile類等。一般來說,以上這些函數可以滿足大多數場合的要求,但是對於某些特殊應用領域所需要的動輒幾十GB、幾百GB、乃至幾TB的海量存儲,再以通常的文件處理方法進行處理顯然是行不通的。目前,對於上述這種大文件的操作一般是以內存映射文件的方式來加以處理的,本文下面將針對這種Windows核心編程技術展開討論。

內存映射文件概述

內存文件映射也是Windows的一種內存管理方法,提供了一個統一的內存管理特徵,使應用程序可以通過內存指針對磁盤上的文件進行訪問,其過程就如同對加載了文件的內存的訪問。通過文件映射這種使磁盤文件的全部或部分內容與進程虛擬地址空間的某個區域建立映射關聯的能力,可以直接對被映射的文件進行訪問,而不必執行文件I/O操作也無需對文件內容進行緩衝處理。內存文件映射的這種特性是非常適合於用來管理大尺寸文件的。

在使用內存映射文件進行I/O處理時,系統對數據的傳輸按頁面來進行。至於內部的所有內存頁面則是由虛擬內存管理器來負責管理,由其來決定內存頁面何時被分頁到磁盤,哪些頁面應該被釋放以便爲其它進程提供空閒空間,以及每個進程可以擁有超出實際分配物理內存之外的多少個頁面空間等等。由於虛擬內存管理器是以一種統一的方式來處理所有磁盤I/O的(以頁面爲單位對內存數據進行讀寫),因此這種優化使其有能力以足夠快的速度來處理內存操作。

使用內存映射文件時所進行的任何實際I/O交互都是在內存中進行並以標準的內存地址形式來訪問。磁盤的週期性分頁也是由操作系統在後臺隱蔽實現的,對應用程序而言是完全透明的。內存映射文件的這種特性在進行大文件的磁盤事務操作時將獲得很高的效益。

需要說明的是,在系統的正常的分頁操作過程中,內存映射文件並非一成不變的,它將被定期更新。如果系統要使用的頁面目前正被某個內存映射文件所佔用,系統將釋放此頁面,如果頁面數據尚未保存,系統將在釋放頁面之前自動完成頁面數據到磁盤的寫入。

對於使用頁虛擬存儲管理的Windows操作系統,內存映射文件是其內部已有的內存管理組件的一個擴充。由可執行代碼頁面和數據頁面組成的應用程序可根據需要由操作系統來將這些頁面換進或換出內存。如果內存中的某個頁面不再需要,操作系統將撤消此頁面原擁用者對它的控制權,並釋放該頁面以供其它進程使用。只有在該頁面再次成爲需求頁面時,纔會從磁盤上的可執行文件重新讀入內存。同樣地,當一個進程初始化啓動時,內存的頁面將用來存儲該應用程序的靜態、動態數據,一旦對它們的操作被提交,這些頁面也將被備份至系統的頁面文件,這與可執行文件被用來備份執行代碼頁面的過程是很類似的。圖1展示了代碼頁面和數據頁面在磁盤存儲器上的備份過程:


圖1 進程的代碼頁、數據頁在磁盤存儲器上的備份

顯然,如果可以採取同一種方式來處理代碼和數據頁面,無疑將會提高程序的執行效率,而內存映射文件的使用恰恰可以滿足此需求。

對大文件的管理

內存映射文件對象在關閉對象之前並沒有必要撤銷內存映射文件的所有視圖。在對象被釋放之前,所有的髒頁面將自動寫入磁盤。通過CloseHandle()關閉內存映射文件對象,只是釋放該對象,如果內存映射文件代表的是磁盤文件,那麼還需要調用標準文件I/O函數來將其關閉。在處理大文件處理時,內存映射文件將表示出卓越的優勢,只需要消耗極少的物理資源,對系統的影響微乎其微。下面先給出內存映射文件的一般編程流程框圖: 

 
圖2 使用內存映射文件的一般流程 

而在某些特殊行業,經常要面對十幾GB乃至幾十GB容量的巨型文件,而一個32位進程所擁有的虛擬地址空間只有232 = 4GB,顯然不能一次將文件映像全部映射進來。對於這種情況只能依次將大文件的各個部分映射到進程中的一個較小的地址空間。這需要對上面的一般流程進行適當的更改: 

1)映射文件開頭的映像。 

2)對該映像進行訪問。 

3)取消此映像 

4)映射一個從文件中的一個更深的位移開始的新映像。 

5)重複步驟2,直到訪問完全部的文件數據。 

下面給出一段根據此描述而寫出的對大於4GB的文件的處理代碼: 
?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
// 選擇文件
CFileDialog fileDlg(TRUE, "*.txt", "*.txt", NULL, "文本文件 (*.txt)|*.txt||", this);
fileDlg.m_ofn.Flags |= OFN_FILEMUSTEXIST;
fileDlg.m_ofn.lpstrTitle = "通過內存映射文件讀取數據";
if (fileDlg.DoModal() == IDOK)
{
 // 創建文件對象
 HANDLE hFile = CreateFile(fileDlg.GetPathName(), GENERIC_READ | GENERIC_WRITE,
   0, NULL, OPEN_EXISTING, FILE_ATTRIBUTE_NORMAL, NULL);
 if (hFile == INVALID_HANDLE_VALUE)
 {
  TRACE("創建文件對象失敗,錯誤代碼:%drn", GetLastError());
  return;
 }
 // 創建文件映射對象
 HANDLE hFileMap = CreateFileMapping(hFile, NULL, PAGE_READWRITE, 0, 0, NULL);
 if (hFileMap == NULL)
 {
  TRACE("創建文件映射對象失敗,錯誤代碼:%drn", GetLastError());
  return;
 }
 // 得到系統分配粒度
 SYSTEM_INFO SysInfo;
 GetSystemInfo(&SysInfo);
 DWORD dwGran = SysInfo.dwAllocationGranularity;
 // 得到文件尺寸
 DWORD dwFileSizeHigh;
 __int64 qwFileSize = GetFileSize(hFile, &dwFileSizeHigh);
 qwFileSize |= (((__int64)dwFileSizeHigh) << 32);
 // 關閉文件對象
 CloseHandle(hFile);
 // 偏移地址
 __int64 qwFileOffset = 0;
 // 塊大小
 DWORD dwBlockBytes = 1000 * dwGran;
 if (qwFileSize < 1000 * dwGran)
  dwBlockBytes = (DWORD)qwFileSize;
  while (qwFileOffset > 0)
  {
   // 映射視圖
   LPBYTE lpbMapAddress = (LPBYTE)MapViewOfFile(hFileMap,FILE_MAP_ALL_ACCESS,
      (DWORD)(qwFileOffset >> 32), (DWORD)(qwFileOffset & 0xFFFFFFFF),
      dwBlockBytes);
   if (lpbMapAddress == NULL)
   {
    TRACE("映射文件映射失敗,錯誤代碼:%drn", GetLastError());
    return;
   }
   // 對映射的視圖進行訪問
   for(DWORD i = 0; i < dwBlockBytes; i++)
    BYTE temp = *(lpbMapAddress + i);
    // 撤消文件映像
    UnmapViewOfFile(lpbMapAddress);
    // 修正參數
    qwFileOffset += dwBlockBytes;
    qwFileSize -= dwBlockBytes;
  }
  // 關閉文件映射對象句柄
  CloseHandle(hFileMap);
  AfxMessageBox("成功完成對文件的訪問");
}

在本例中,首先通過GetFileSize()得到被處理文件長度(64位)的高32位和低32位值。然後在映射過程中設定每次映射的塊大小爲1000倍的分配粒度,如果文件長度小於1000倍的分配粒度時則將塊大小設置爲文件的實際長度。在處理過程中由映射、訪問、撤消映射構成了一個循環處理。其中,每處理完一個文件塊後都通過關閉文件映射對象來對每個文件塊進行整理。CreateFileMapping()、MapViewOfFile()等函數是專門用來進行內存文件映射處理用的。
下面分別對這些關鍵函數進行說明: 

1)CreateFile():CreateFile()函數是一個用途非常廣泛的函數, 在這裏的用法並沒有什麼特殊的地方,但有幾點需要注意:一是訪問模式參數dwDesiredAccess。該參數設置了對文件內核對象的訪問類型,其允許設置的權限可以爲讀權限GENERIC_READ、寫權限GENERIC_WRITE、讀寫權限GENERIC_READ | GENERIC_WRITE和設備查詢權限0。在使用映射文件時,只能打開那些具有可讀訪問權限的文件,即只能應用GENERIC_READ和GENERIC_READ | GENERIC_WRITE這兩種組合;另一點需要注意的是共享模式參數dwShareMode。該參數定義了對文件內核對象的共享方式,其可能的設置爲FILE_SHARE_READ、FILE_SHARE_WRITE和0,並可對其組合使用。其中,設置爲0時不允許共享對象;FILE_SHARE_READ和FILE_SHARE_WRITE分別爲在要求只讀、只寫訪問的情況下才允許對象的共享。 

由於通過內存映射文件可以在多個進程間共享數據,因此在進行這種應用時應當考慮dwShareMode參數設置對運行結果的影響。 

2)CreateFileMapping():該函數的作用是創建一個文件映射內核對象,以告知系統文件映射對象需要多大的物理存儲器。創建內存映射文件對象對系統資源幾乎沒有什麼影響,也不會影響進程的虛擬地址空間。除了需要用來表示該對象的內部資源之外通常並不用爲其分配虛擬內存,但是如果內存映射文件對象是作共享內存之用的話,就要在創建對象時由系統爲內存映射文件的使用在系統頁文件中保留足夠的空間。 

函數第一個參數hFile爲標識要映射到進程的地址空間的文件的句柄。雖然由於內存映射文件的物理存儲器是來自於磁盤上的文件,而非系統的頁文件,使創建內存映射文件就像保留一個地址空間區域並將物理存儲器提交給該區域一樣。第二個參數爲指向文件映射內核對象的SECURITY_ATTRIBUTES結構的指針,由此來決定子進程能否繼承得到返回的句柄。通常爲其傳遞NULL值,以默認的安全屬性來禁止返回句柄的被繼承。 

接下來的參數用於文件被映射後設定文件映像的保護屬性。其可能的取值爲PAGE_READONLY、PAGE_READWRITE和PAGE_WRITECOPY。雖然在創建文件映射對象時,系統並不爲其保留地址空間區域,也不將文件的存儲器映射到該區域。但是,在系統將存儲器映射到進程的地址空間中去時,系統必須確切知道應賦予物理存儲器頁面的保護屬性。在設置保護屬性時,必須與用CreateFile()函數打開文件時所指定的訪問標識相匹配,否則將導致CreateFileMapping()的執行失敗。因此這裏設置PAGE_READWRITE屬性。除了上述三個頁面保護屬性外,還有4個區(Section)保護屬性也可以一起組合使用: 

區保護屬性 說明
SEC_COMMIT 爲區中的所有頁面在內存中或磁盤頁面文件中分配物理存儲器
SEC_IMAGE 告知系統,映射的文件是一個可移植的EXE文件映像
SEC_NOCACHE 告知系統,未將文件的任何內存映射文件放入高速緩存,多供硬件設備驅動程序開發人員使用
SEC_RESERVE 對一個區的所有頁面進行保留而不分配物理存儲器

後面的兩個參數指定了要創建的文件映射對象的最大字節數的高32位值和低32位值,實際也就設定了文件的最大字節數(最大可以處理16EB的文件)。這兩個參數可以滿足確保文件映射對象能夠得到足夠的物理存儲器這一基本條件。在參數設置的大小小於文件實際大小時,系統將從文件映射指定的字節數。這裏將其設置爲0,將使所創建的文件映射對象將爲文件的當前大小,以上兩種情況均無法改變文件的大小。如果設置的參數大於文件的實際大小,系統將會在CreateFileMapping()函數返回前擴展該文件。需要指出的是,文件映射對象的大小是靜態的,一旦創建完畢後將無法更改。如果設置的文件映射對象尺寸偏小將導致無法對文件進行全面的訪問。 

在本節開始也曾提到過,創建文件映射對象是不需要花費什麼系統資源的,因此遵循"寧多勿缺"的原則,一般應將文件映射對象的大小設置爲文件大小的相同值。函數最後的參數將可以爲映射對象命名。如果想打開一個已存在的文件映射對象,該對象必須要命名。對該名字字符串的要求僅限於未被其它對象使用過的名字即可。 

CreateFileMapping()在成功執行後將返回一個指向文件映射對象的句柄。如果對一個已經存在的文件映射對象調用了CreateFileMapping()函數,進程將得到一個指向現有映射對象的句柄。通過調用GetLastError()可以得到返回值ERROR_ALREADY_EXIST,由此可以判斷當前得到的內存映射對象句柄是新創建的還是打開已經存在的。如果系統無法創建文件映射對象,將導致CreateFileMapping()的執行失敗,返回N U L L句柄值。
3)MapViewOfFile():當創建了一個內存映射文件對象並得到其有效句柄後,該句柄即可用來在進程的虛擬地址空間中映射文件的一個映像。在內存映射文件對象已經存在的情況下,映像可被任意映射或取消映射。在文件映像被映射時,仍然必須由系統來爲文件的數據保留一個地址空間區域,並將文件的數據作爲映射到該區域的物理存儲器進行提交。在進程的地址空間中,一個足夠大的連續地址空間(通常足以覆蓋整個文件映像)將被指定給此文件映像。儘管如此,內存的物理頁面還是根據在實際使用中的需求而進行分配的。真正分配一個對應於內存映射文件映像頁面的物理內存頁面是在發生該頁的缺頁中斷時進行的,這將在第一次讀寫內存頁面中的任一地址時自動完成。MapViewOfFile()即負責映射內存映射文件的一個映像, 

函數的第一個參數爲CreateFileMapping()所返回的內存映射文件對象句柄,第二個參數指定了對文件映像的訪問類型,可能取值有FILE_MAP_WRITE、FILE_MAP_READ、FILE_MAP_ALL_ACCESS和FILE_MAP_COPY等幾種,具體的設置要根據文件映射對象允許的保護模式而定。根據前面代碼的設置,這裏應該使用FILE_MAP_ALL_ACCESS參數。這種機制爲對象的創建者提供了對映射此對象的方式進行控制的能力。接下來的2個參數分別指定了內存映射文件的64位偏移地址的低32位和高32位地址,該地址是從內存映射文件頭位置到映像開始位置的距離。最後的參數指定了視圖的大小,如果設置爲0,前面的偏移地址將被忽略,系統將會把整個文件映射爲一個映像。MapViewOfFile()如果成功執行,將返回一個指向文件映像在進程的地址空間中的起始地址的指針。如果失敗,則返回NULL。在進程中,可以爲同一個文件映射對象創建多個文件映像,這些映像可以在系統中共存和重疊,也可以與對應的文件映射對象大小不相一致,但不能大於文件映射對象的大小。 

4)UnmapViewOfFile():當不再需要保留映射到進程地址空間區域中的文件映像數據時,可通過調用UnmapViewOfFile()函數將其釋放。該函數結構非常簡單,只需要提供映像在進程中的起始地址(區域的基地址)作爲參數即可。該函數的輸入參數爲調用MapViewOfFile()時所返回的指向文件映像在進程的地址空間中的起始地址的指針。在調用MapViewOfFile()後,必須確保在進程退出之前能夠執行UnmapViewOfFile()函數,否則在進程終止之後先前保留的區域將得不到釋放,即使再次啓動進程重複調用MapViewOfFile()系統也總是在進程的地址空間中保留一個新的區域,而此前保留的所有區域將得不到釋放。 

一種比較特殊的情況是,對同一個內存映射文件映射了兩個相同的映像的撤消。前面曾經提到過,對於同一個內存映射文件可以有多個映像,這些映像也可以重疊,因此這種情況的存在是合法的。對於這種情況,雖然從表面看上去在單進程的地址空間內是不可能存在兩個基地址完全相同的映像的,這將導致無法對這它們的區分。但是事實上,由MapViewOfFile()所返回得到的基地址只是文件映像在進程地址空間中的起始基地址,因此在映射同一內存映射文件的兩個相同映像時將會產生對內存映射文件同一部分的兩個不同基地址的相同映像,可以用同樣的方法調用UnmapViewOfFile()將其從進程的地址空間中予以撤消。 

5)CloseHandle(): 與Win32的大多數對象一樣,在使用完畢之後總是要通過CloseHandle()函數將已打開的內核對象關閉。如果忘記關閉對象,在程序繼續運行時將會出現資源泄漏。雖然在程序退出運行時,操作系統會自動關閉在進程中已經打開但未關閉的任何對象。但是在進程的運行過程中,勢必會積累過多的資源句柄。因此在不再需要使用對象的時候通過CloseHandle()將其予以關閉是有意義的。 

小結 

本文對內存映射文件在大文件處理中的應用作了較爲詳細的闡述。經實際測試,內存映射文件在處理大數據量文件時表現出了良好的性能,比通常使用CFile類和ReadFile()和WriteFile()等函數的文件處理方式具有明顯的優勢。本文所述程序代碼在Windows 2000 Professional下由Microsoft Visual C++ 6.0編譯通過。 
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章