Linux內核高端內存

Linux內核地址映射模型
x86 CPU採用了段頁式地址映射模型。進程代碼中的地址爲邏輯地址，經過段頁式地址映射後，才真正訪問物理內存。

段頁式機制如下圖。

Linux內核地址空間劃分

通常32位Linux內核地址空間劃分0~3G爲用戶空間，3~4G爲內核空間。注意這裏是32位內核地址空間劃分，64位內核地址空間劃分是不同的。

Linux內核高端內存的由來

當內核模塊代碼或線程訪問內存時，代碼中的內存地址都爲邏輯地址，而對應到真正的物理內存地址，需要地址一對一的映射，如邏輯地址0xc0000003對應的物理地址爲0×3，0xc0000004對應的物理地址爲0×4，… …，邏輯地址與物理地址對應的關係爲

物理地址 = 邏輯地址 – 0xC0000000

邏輯地址	物理內存地址
0xc0000000	0×0
0xc0000001	0×1
0xc0000002	0×2
0xc0000003	0×3
…	…
0xe0000000	0×20000000
…	…
0xffffffff	0×40000000 ??

假設按照上述簡單的地址映射關係，那麼內核邏輯地址空間訪問爲0xc0000000 ~ 0xffffffff，那麼對應的物理內存範圍就爲0×0 ~ 0×40000000，即只能訪問1G物理內存。若機器中安裝8G物理內存，那麼內核就只能訪問前1G物理內存，後面7G物理內存將會無法訪問，因爲內核的地址空間已經全部映射到物理內存地址範圍0×0 ~ 0×40000000。即使安裝了8G物理內存，那麼物理地址爲0×40000001的內存，內核該怎麼去訪問呢？代碼中必須要有內存邏輯地址的，0xc0000000 ~ 0xffffffff的地址空間已經被用完了，所以無法訪問物理地址0×40000000以後的內存。

顯然不能將內核地址空間0xc0000000 ~ 0xfffffff全部用來簡單的地址映射。因此x86架構中將內核地址空間劃分三部分：ZONE_DMA、ZONE_NORMAL和ZONE_HIGHMEM。ZONE_HIGHMEM即爲高端內存，這就是內存高端內存概念的由來。

在x86結構中，三種類型的區域如下：

ZONE_DMA 內存開始的16MB

ZONE_NORMAL 16MB~896MB

ZONE_HIGHMEM 896MB ~ 結束

Linux內核高端內存的理解

前面我們解釋了高端內存的由來。 Linux將內核地址空間劃分爲三部分ZONE_DMA、ZONE_NORMAL和ZONE_HIGHMEM，高端內存HIGH_MEM地址空間範圍爲0xF8000000 ~ 0xFFFFFFFF（896MB～1024MB）。那麼如內核是如何藉助128MB高端內存地址空間是如何實現訪問可以所有物理內存？

當內核想訪問高於896MB物理地址內存時，從0xF8000000 ~ 0xFFFFFFFF地址空間範圍內找一段相應大小空閒的邏輯地址空間，借用一會。借用這段邏輯地址空間，建立映射到想訪問的那段物理內存（即填充內核PTE頁面表），臨時用一會，用完後歸還。這樣別人也可以借用這段地址空間訪問其他物理內存，實現了使用有限的地址空間，訪問所有所有物理內存。如下圖。

例如內核想訪問2G開始的一段大小爲1MB的物理內存，即物理地址範圍爲0×80000000 ~ 0x800FFFFF。訪問之前先找到一段1MB大小的空閒地址空間，假設找到的空閒地址空間爲0xF8700000 ~ 0xF87FFFFF，用這1MB的邏輯地址空間映射到物理地址空間0×80000000 ~ 0x800FFFFF的內存。映射關係如下：

邏輯地址	物理內存地址
0xF8700000	0×80000000
0xF8700001	0×80000001
0xF8700002	0×80000002
…	…
0xF87FFFFF	0x800FFFFF

當內核訪問完0×80000000 ~ 0x800FFFFF物理內存後，就將0xF8700000 ~ 0xF87FFFFF內核線性空間釋放。這樣其他進程或代碼也可以使用0xF8700000 ~ 0xF87FFFFF這段地址訪問其他物理內存。

從上面的描述，我們可以知道高端內存的最基本思想：借一段地址空間，建立臨時地址映射，用完後釋放，達到這段地址空間可以循環使用，訪問所有物理內存。

看到這裏，不禁有人會問：萬一有內核進程或模塊一直佔用某段邏輯地址空間不釋放，怎麼辦？若真的出現的這種情況，則內核的高端內存地址空間越來越緊張，若都被佔用不釋放，則沒有建立映射到物理內存都無法訪問了。

在香港尖沙咀有些寫字樓，洗手間很少且有門鎖的。客戶要去洗手間的話，可以向前臺拿鑰匙，方便完後，把鑰匙歸還到前臺。這樣雖然只有一個洗手間，但可以滿足所有客戶去洗手間的需求。要是某個客戶一直佔用洗手間、鑰匙不歸還，那麼其他客戶都無法上洗手間了。Linux內核高端內存管理的思想類似。

Linux內核高端內存的劃分
內核將高端內存劃分爲3部分：VMALLOC_START~VMALLOC_END、KMAP_BASE~FIXADDR_START和FIXADDR_START~4G。

對於高端內存，可以通過 alloc_page() 或者其它函數獲得對應的 page，但是要想訪問實際物理內存，還得把 page 轉爲線性地址才行（爲什麼？想想 MMU 是如何訪問物理內存的），也就是說，我們需要爲高端內存對應的 page 找一個線性空間，這個過程稱爲高端內存映射。

對應高端內存的3部分，高端內存映射有三種方式：
映射到”內核動態映射空間”（noncontiguous memory allocation）
這種方式很簡單，因爲通過 vmalloc() ，在”內核動態映射空間”申請內存的時候，就可能從高端內存獲得頁面（參看 vmalloc 的實現），因此說高端內存有可能映射到”內核動態映射空間”中。

持久內核映射（permanent kernel mapping）
如果是通過 alloc_page() 獲得了高端內存對應的 page，如何給它找個線性空間？
內核專門爲此留出一塊線性空間，從 PKMAP_BASE 到 FIXADDR_START ，用於映射高端內存。在 2.6內核上，這個地址範圍是 4G-8M 到 4G-4M 之間。這個空間起叫”內核永久映射空間”或者”永久內核映射空間”。這個空間和其它空間使用同樣的頁目錄表，對於內核來說，就是 swapper_pg_dir，對普通進程來說，通過 CR3 寄存器指向。通常情況下，這個空間是 4M 大小，因此僅僅需要一個頁表即可，內核通過來 pkmap_page_table 尋找這個頁表。通過 kmap()，可以把一個 page 映射到這個空間來。由於這個空間是 4M 大小，最多能同時映射 1024 個 page。因此，對於不使用的的 page，及應該時從這個空間釋放掉（也就是解除映射關係），通過 kunmap() ，可以把一個 page 對應的線性地址從這個空間釋放出來。

臨時映射（temporary kernel mapping）
內核在 FIXADDR_START 到 FIXADDR_TOP 之間保留了一些線性空間用於特殊需求。這個空間稱爲”固定映射空間”在這個空間中，有一部分用於高端內存的臨時映射。

這塊空間具有如下特點：
（1）每個 CPU 佔用一塊空間
（2）在每個 CPU 佔用的那塊空間中，又分爲多個小空間，每個小空間大小是 1 個 page，每個小空間用於一個目的，這些目的定義在 kmap_types.h 中的 km_type 中。

當要進行一次臨時映射的時候，需要指定映射的目的，根據映射目的，可以找到對應的小空間，然後把這個空間的地址作爲映射地址。這意味着一次臨時映射會導致以前的映射被覆蓋。通過 kmap_atomic() 可實現臨時映射。

常見問題：

1、用戶空間（進程）是否有高端內存概念？

用戶進程沒有高端內存概念。只有在內核空間才存在高端內存。用戶進程最多只可以訪問3G物理內存，而內核進程可以訪問所有物理內存。

2、64位內核中有高端內存嗎？

目前現實中，64位Linux內核不存在高端內存，因爲64位內核可以支持超過512GB內存。若機器安裝的物理內存超過內核地址空間範圍，就會存在高端內存。

3、用戶進程能訪問多少物理內存？內核代碼能訪問多少物理內存？

32位系統用戶進程最大可以訪問3GB，內核代碼可以訪問所有物理內存。

64位系統用戶進程最大可以訪問超過512GB，內核代碼可以訪問所有物理內存。

4、高端內存和物理地址、邏輯地址、線性地址的關係？

高端內存只和物理地址有關係，和線性地址、邏輯地址沒有直接關係。

5、爲什麼不把所有的地址空間都分配給內核？

若把所有地址空間都給內存，那麼用戶進程怎麼使用內存？怎麼保證內核使用內存和用戶進程不起衝突？

Linux內核高端內存

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（二）使用kube-vip實現集羣VIP訪問

企業大模型如何成爲自己數據的“百科全書”？

本地SSL證書過期輸入命令在IIS自動生成

.NET週刊【5月第2期 2024-05-12】

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（一）部署K8s

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（三）數據卷掛載NFS（網絡文件系統）

netlink 編程

oprofile

gdb 調試段錯誤

我的友情鏈接

linux 內存分配

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結