Linux內核高端內存

Linux內核地址映射模型
x86 CPU採用了段頁式地址映射模型。進程代碼中的地址爲邏輯地址,經過段頁式地址映射後,才真正訪問物理內存。

段頁式機制如下圖。

091011_1614_Linux1.png?w=620

Linux內核地址空間劃分

通常32位Linux內核地址空間劃分0~3G爲用戶空間,3~4G爲內核空間。注意這裏是32位內核地址空間劃分,64位內核地址空間劃分是不同的。

091011_1614_Linux2.png?w=620

Linux內核高端內存的由來

當內核模塊代碼或線程訪問內存時,代碼中的內存地址都爲邏輯地址,而對應到真正的物理內存地址,需要地址一對一的映射,如邏輯地址0xc0000003對應的物理地址爲0×3,0xc0000004對應的物理地址爲0×4,… …,邏輯地址與物理地址對應的關係爲

物理地址 = 邏輯地址 – 0xC0000000

邏輯地址物理內存地址
0xc00000000×0
0xc00000010×1
0xc00000020×2
0xc00000030×3
0xe00000000×20000000
0xffffffff0×40000000 ??

假設按照上述簡單的地址映射關係,那麼內核邏輯地址空間訪問爲0xc0000000 ~ 0xffffffff,那麼對應的物理內存範圍就爲0×0 ~ 0×40000000,即只能訪問1G物理內存。若機器中安裝8G物理內存,那麼內核就只能訪問前1G物理內存,後面7G物理內存將會無法訪問,因爲內核的地址空間已經全部映射到物理內存地址範圍0×0 ~ 0×40000000。即使安裝了8G物理內存,那麼物理地址爲0×40000001的內存,內核該怎麼去訪問呢?代碼中必須要有內存邏輯地址的,0xc0000000 ~ 0xffffffff的地址空間已經被用完了,所以無法訪問物理地址0×40000000以後的內存。

顯然不能將內核地址空間0xc0000000 ~ 0xfffffff全部用來簡單的地址映射。因此x86架構中將內核地址空間劃分三部分:ZONE_DMA、ZONE_NORMAL和ZONE_HIGHMEM。ZONE_HIGHMEM即爲高端內存,這就是內存高端內存概念的由來。


在x86結構中,三種類型的區域如下:

ZONE_DMA        內存開始的16MB

ZONE_NORMAL       16MB~896MB

ZONE_HIGHMEM       896MB ~ 結束091011_1614_Linux3.png?w=620

Linux內核高端內存的理解

前面我們解釋了高端內存的由來。 Linux將內核地址空間劃分爲三部分ZONE_DMA、ZONE_NORMAL和ZONE_HIGHMEM,高端內存HIGH_MEM地址空間範圍爲0xF8000000 ~ 0xFFFFFFFF(896MB~1024MB)。那麼如內核是如何藉助128MB高端內存地址空間是如何實現訪問可以所有物理內存

當內核想訪問高於896MB物理地址內存時,從0xF8000000 ~ 0xFFFFFFFF地址空間範圍內找一段相應大小空閒的邏輯地址空間,借用一會。借用這段邏輯地址空間,建立映射到想訪問的那段物理內存(即填充內核PTE頁面表),臨時用一會,用完後歸還。這樣別人也可以借用這段地址空間訪問其他物理內存,實現了使用有限的地址空間,訪問所有所有物理內存。如下圖。

091011_1614_Linux4.png?w=620

例如內核想訪問2G開始的一段大小爲1MB的物理內存,即物理地址範圍爲0×80000000 ~ 0x800FFFFF。訪問之前先找到一段1MB大小的空閒地址空間,假設找到的空閒地址空間爲0xF8700000 ~ 0xF87FFFFF,用這1MB的邏輯地址空間映射到物理地址空間0×80000000 ~ 0x800FFFFF的內存。映射關係如下:

邏輯地址物理內存地址
0xF87000000×80000000
0xF87000010×80000001
0xF87000020×80000002
0xF87FFFFF0x800FFFFF

當內核訪問完0×80000000 ~ 0x800FFFFF物理內存後,就將0xF8700000 ~ 0xF87FFFFF內核線性空間釋放。這樣其他進程或代碼也可以使用0xF8700000 ~ 0xF87FFFFF這段地址訪問其他物理內存。

從上面的描述,我們可以知道高端內存的最基本思想:借一段地址空間,建立臨時地址映射,用完後釋放,達到這段地址空間可以循環使用,訪問所有物理內存。

看到這裏,不禁有人會問:萬一有內核進程或模塊一直佔用某段邏輯地址空間不釋放,怎麼辦?若真的出現的這種情況,則內核的高端內存地址空間越來越緊張,若都被佔用不釋放,則沒有建立映射到物理內存都無法訪問了。

在香港尖沙咀有些寫字樓,洗手間很少且有門鎖的。客戶要去洗手間的話,可以向前臺拿鑰匙,方便完後,把鑰匙歸還到前臺。這樣雖然只有一個洗手間,但可以滿足所有客戶去洗手間的需求。要是某個客戶一直佔用洗手間、鑰匙不歸還,那麼其他客戶都無法上洗手間了。Linux內核高端內存管理的思想類似。


Linux內核高端內存的劃分
內核將高端內存劃分爲3部分:VMALLOC_START~VMALLOC_END、KMAP_BASE~FIXADDR_START和FIXADDR_START~4G。

091011_1614_Linux5.png?w=620


對於高端內存,可以通過 alloc_page() 或者其它函數獲得對應的 page,但是要想訪問實際物理內存,還得把 page 轉爲線性地址才行(爲什麼?想想 MMU 是如何訪問物理內存的),也就是說,我們需要爲高端內存對應的 page 找一個線性空間,這個過程稱爲高端內存映射。

對應高端內存的3部分,高端內存映射有三種方式:
映射到”內核動態映射空間”(noncontiguous memory allocation)
這種方式很簡單,因爲通過 vmalloc() ,在”內核動態映射空間”申請內存的時候,就可能從高端內存獲得頁面(參看 vmalloc 的實現),因此說高端內存有可能映射到”內核動態映射空間”中。

持久內核映射(permanent kernel mapping)
如果是通過 alloc_page() 獲得了高端內存對應的 page,如何給它找個線性空間?
內核專門爲此留出一塊線性空間,從 PKMAP_BASE 到 FIXADDR_START ,用於映射高端內存。在 2.6內核上,這個地址範圍是 4G-8M 到 4G-4M 之間。這個空間起叫”內核永久映射空間”或者”永久內核映射空間”。這個空間和其它空間使用同樣的頁目錄表,對於內核來說,就是 swapper_pg_dir,對普通進程來說,通過 CR3 寄存器指向。通常情況下,這個空間是 4M 大小,因此僅僅需要一個頁表即可,內核通過來 pkmap_page_table 尋找這個頁表。通過 kmap(),可以把一個 page 映射到這個空間來。由於這個空間是 4M 大小,最多能同時映射 1024 個 page。因此,對於不使用的的 page,及應該時從這個空間釋放掉(也就是解除映射關係),通過 kunmap() ,可以把一個 page 對應的線性地址從這個空間釋放出來。

臨時映射(temporary kernel mapping)
內核在 FIXADDR_START 到 FIXADDR_TOP 之間保留了一些線性空間用於特殊需求。這個空間稱爲”固定映射空間”在這個空間中,有一部分用於高端內存的臨時映射。

這塊空間具有如下特點:
(1)每個 CPU 佔用一塊空間
(2)在每個 CPU 佔用的那塊空間中,又分爲多個小空間,每個小空間大小是 1 個 page,每個小空間用於一個目的,這些目的定義在 kmap_types.h 中的 km_type 中。

當要進行一次臨時映射的時候,需要指定映射的目的,根據映射目的,可以找到對應的小空間,然後把這個空間的地址作爲映射地址。這意味着一次臨時映射會導致以前的映射被覆蓋。通過 kmap_atomic() 可實現臨時映射。


常見問題:

1、用戶空間(進程)是否有高端內存概念?

用戶進程沒有高端內存概念。只有在內核空間才存在高端內存。用戶進程最多只可以訪問3G物理內存,而內核進程可以訪問所有物理內存。

2、64位內核中有高端內存嗎?

目前現實中,64位Linux內核不存在高端內存,因爲64位內核可以支持超過512GB內存。若機器安裝的物理內存超過內核地址空間範圍,就會存在高端內存。

3、用戶進程能訪問多少物理內存?內核代碼能訪問多少物理內存?

32位系統用戶進程最大可以訪問3GB,內核代碼可以訪問所有物理內存。

64位系統用戶進程最大可以訪問超過512GB,內核代碼可以訪問所有物理內存。

4、高端內存和物理地址、邏輯地址、線性地址的關係?

高端內存只和物理地址有關係,和線性地址、邏輯地址沒有直接關係。

5、爲什麼不把所有的地址空間都分配給內核?

若把所有地址空間都給內存,那麼用戶進程怎麼使用內存?怎麼保證內核使用內存和用戶進程不起衝突?


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章