操作系統管理內存的機制——爲什麼要設置虛擬內存?

 
 
       在進入正題前先來談談操作系統內存管理機制的發展歷程,瞭解這些有利於我們更好的理解目前操作系統的內存管理機制。

一 早期的內存分配機制

        在早期的計算機中,要運行一個程序,會把這些程序全都裝入內存,程序都是直接運行在內存上的,也就是說程序中訪問的內存地址都是實際的物理內存地址。當計算機同時運行多個程序時,必須保證這些程序用到的內存總量要小於計算機實際物理內存的大小。那當程序同時運行多個程序時,操作系統是如何爲這些程序分配內存的呢?下面通過實例來說明當時的內存分配方法:

      某臺計算機總的內存大小是128M,現在同時運行兩個程序A和B,A需佔用內存10M,B需佔用內存110。計算機在給程序分配內存時會採取這樣的方法:先將內存中的前10M分配給程序A,接着再從內存中剩餘的118M中劃分出110M分配給程序B。這種分配方法可以保證程序A和程序B都能運行,但是這種簡單的內存分配策略問題很多。

操作系統管理內存的機制——爲什麼要設置虛擬內存? - 神之子 - 研究生了沒

圖一 早期的內存分配方法

       問題1:進程地址空間不隔離。由於程序都是直接訪問物理內存,所以惡意程序可以隨意修改別的進程的內存數據,以達到破壞的目的。有些非惡意的,但是有bug的程序也可能不小心修改了其它程序的內存數據,就會導致其它程序的運行出現異常。這種情況對用戶來說是無法容忍的,因爲用戶希望使用計算機的時候,其中一個任務失敗了,至少不能影響其它的任務。

        問題2:內存使用效率低。在A和B都運行的情況下,如果用戶又運行了程序C,而程序C需要20M大小的內存才能運行,而此時系統只剩下8M的空間可供使用,所以此時系統必須在已運行的程序中選擇一個將該程序的數據暫時拷貝到硬盤上,釋放出部分空間來供程序C使用,然後再將程序C的數據全部裝入內存中運行。可以想象得到,在這個過程中,有大量的數據在裝入裝出,導致效率十分低下。

       問題3:程序運行的地址不確定。當內存中的剩餘空間可以滿足程序C的要求後,操作系統會在剩餘空間中隨機分配一段連續的20M大小的空間給程序C使用,因爲是隨機分配的,所以程序運行的地址是不確定的。

二 分段

        爲了解決上述問題,人們想到了一種變通的方法,就是增加一箇中間層,利用一種間接的地址訪問方法訪問物理內存。按照這種方法,程序中訪問的內存地址不再是實際的物理內存地址,而是一個虛擬地址,然後由操作系統將這個虛擬地址映射到適當的物理內存地址上。這樣,只要操作系統處理好虛擬地址到物理內存地址的映射,就可以保證不同的程序最終訪問的內存地址位於不同的區域,彼此沒有重疊,就可以達到內存地址空間隔離的效果。

       當創建一個進程時,操作系統會爲該進程分配一個4GB大小的虛擬進程地址空間。之所以是4GB,是因爲在32位的操作系統中,一個指針長度是4字節,而4字節指針的尋址能力是從0x00000000~0xFFFFFFFF,最大值0xFFFFFFFF表示的即爲4GB大小的容量。與虛擬地址空間相對的,還有一個物理地址空間,這個地址空間對應的是真實的物理內存。如果你的計算機上安裝了512M大小的內存,那麼這個物理地址空間表示的範圍是0x00000000~0x1FFFFFFF。當操作系統做虛擬地址到物理地址映射時,只能映射到這一範圍,操作系統也只會映射到這一範圍。當進程創建時,每個進程都會有一個自己的4GB虛擬地址空間。要注意的是這個4GB的地址空間是“虛擬”的,並不是真實存在的,而且每個進程只能訪問自己虛擬地址空間中的數據,無法訪問別的進程中的數據,通過這種方法實現了進程間的地址隔離。那是不是這4GB的虛擬地址空間應用程序可以隨意使用呢?很遺憾,在Windows系統下,這個虛擬地址空間被分成了4部分:NULL指針區、用戶區、64KB禁入區、內核區。應用程序能使用的只是用戶區而已,大約2GB左右(最大可以調整到3GB)。內核區爲2GB,內核區保存的是系統線程調度、內存管理、設備驅動等數據,這部分數據供所有的進程共享,但應用程序是不能直接訪問的。

      人們之所以要創建一個虛擬地址空間,目的是爲了解決進程地址空間隔離的問題。但程序要想執行,必須運行在真實的內存上,所以,必須在虛擬地址與物理地址間建立一種映射關係。這樣,通過映射機制,當程序訪問虛擬地址空間上的某個地址值時,就相當於訪問了物理地址空間中的另一個值。人們想到了一種分段(Sagmentation)的方法,它的思想是在虛擬地址空間和物理地址空間之間做一一映射。比如說虛擬地址空間中某個10M大小的空間映射到物理地址空間中某個10M大小的空間。這種思想理解起來並不難,操作系統保證不同進程的地址空間被映射到物理地址空間中不同的區域上,這樣每個進程最終訪問到的

       物理地址空間都是彼此分開的。通過這種方式,就實現了進程間的地址隔離。還是以實例說明,假設有兩個進程A和B,進程A所需內存大小爲10M,其虛擬地址空間分佈在0x00000000到0x00A00000,進程B所需內存爲100M,其虛擬地址空間分佈爲0x00000000到0x06400000。那麼按照分段的映射方法,進程A在物理內存上映射區域爲0x00100000到0x00B00000,,進程B在物理內存上映射區域爲0x00C00000到0x07000000。於是進程A和進程B分別被映射到了不同的內存區間,彼此互不重疊,實現了地址隔離。從應用程序的角度看來,進程A的地址空間就是分佈在0x00000000到0x00A00000,在做開發時,開發人員只需訪問這段區間上的地址即可。應用程序並不關心進程A究竟被映射到物理內存的那塊區域上了,所以程序的運行地址也就是相當於說是確定的了。 圖二顯示的是分段方式的內存映射方法。

操作系統管理內存的機制——爲什麼要設置虛擬內存? - 神之子 - 研究生了沒

圖二 分段方式的內存映射方法

       這種分段的映射方法雖然解決了上述中的問題一和問題三,但並沒能解決問題二,即內存的使用效率問題。在分段的映射方法中,每次換入換出內存的都是整個程序,這樣會造成大量的磁盤訪問操作,導致效率低下。所以這種映射方法還是稍顯粗糙,粒度比較大。實際上,程序的運行有局部性特點,在某個時間段內,程序只是訪問程序的一小部分數據,也就是說,程序的大部分數據在一個時間段內都不會被用到。基於這種情況,人們想到了粒度更小的內存分割和映射方法,這種方法就是分頁(Paging)。

三 分頁

       分頁的基本方法是,將地址空間分成許多的頁。每頁的大小由CPU決定,然後由操作系統選擇頁的大小。目前Inter系列的CPU支持4KB或4MB的頁大小,而PC上目前都選擇使用4KB。按這種選擇,4GB虛擬地址空間共可以分成1048576個頁,512M的物理內存可以分爲131072個頁。顯然虛擬空間的頁數要比物理空間的頁數多得多。

       在分段的方法中,每次程序運行時總是把程序全部裝入內存,而分頁的方法則有所不同。分頁的思想是程序運行時用到哪頁就爲哪頁分配內存,沒用到的頁暫時保留在硬盤上。當用到這些頁時再在物理地址空間中爲這些頁分配內存,然後建立虛擬地址空間中的頁和剛分配的物理內存頁間的映射。

        下面通過介紹一個可執行文件的裝載過程來說明分頁機制的實現方法。一個可執行文件(PE文件)其實就是一些編譯鏈接好的數據和指令的集合,它也會被分成很多頁,在PE文件執行的過程中,它往內存中裝載的單位就是頁。當一個PE文件被執行時,操作系統會先爲該程序創建一個4GB的進程虛擬地址空間。前面介紹過,虛擬地址空間只是一箇中間層而已,它的功能是利用一種映射機制將虛擬地址空間映射到物理地址空間,所以,創建4GB虛擬地址空間其實並不是要真的創建空間,只是要創建那種映射機制所需要的數據結構而已,這種數據結構就是頁目和頁表。

        當創建完虛擬地址空間所需要的數據結構後,進程開始讀取PE文件的第一頁。在PE文件的第一頁包含了PE文件頭和段表等信息,進程根據文件頭和段表等信息,將PE文件中所有的段一一映射到虛擬地址空間中相應的頁(PE文件中的段的長度都是頁長的整數倍)。這時PE文件的真正指令和數據還沒有被裝入內存中,操作系統只是根據PE文件的頭部等信息建立了PE文件和進程虛擬地址空間中頁的映射關係而已。當CPU要訪問程序中用到的某個虛擬地址時,當CPU發現該地址並沒有相相關聯的物理地址時,CPU認爲該虛擬地址所在的頁面是個空頁面,CPU會認爲這是個頁錯誤(Page Fault),CPU也就知道了操作系統還未給該PE頁面分配內存,CPU會將控制權交還給操作系統。操作系統於是爲該PE頁面在物理空間中分配一個頁面,然後再將這個物理頁面與虛擬空間中的虛擬頁面映射起來,然後將控制權再還給進程,進程從剛纔發生頁錯誤的位置重新開始執行。由於此時已爲PE文件的那個頁面分配了內存,所以就不會發生頁錯誤了。隨着程序的執行,頁錯誤會不斷地產生,操作系統也會爲進程分配相應的物理頁面來滿足進程執行的需求。

       分頁方法的核心思想就是當可執行文件執行到第x頁時,就爲第x頁分配一個內存頁y,然後再將這個內存頁添加到進程虛擬地址空間的映射表中,這個映射表就相當於一個y=f(x)函數。應用程序通過這個映射表就可以訪問到x頁關聯的y頁了

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章