深入理解Linux高端內存【轉】

轉自:https://www.jianshu.com/p/0b8e1879729a

一、Linux內核地址映射模型

x86 CPU採用了段頁式地址映射模型。進程代碼中的地址爲邏輯地址,經過段頁式地址映射後,才真正訪問物理內存。

 

 

段頁式機制如下圖:
 
圖片發自簡書App

Linux簡化了分段機制,使得虛擬地址與線性地址總是一致,因此,Linux的虛擬地址空間也爲0~4G。Linux內核將這4G字節的空間分爲兩部分。將最高的1G字節(從虛擬地址0xC0000000到0xFFFFFFFF),供內核使用,稱爲“內核空間”。而將較低的3G字節(從虛擬地址0x00000000到0xBFFFFFFF),供各個進程使用,稱爲“用戶空間)。因爲每個進程可以通過系統調用進入內核,因此,Linux內核由系統內的所有進程共享。於是,從具體進程的角度來看,每個進程可以擁有4G字節的虛擬空間。

Linux使用兩級保護機制:0級供內核使用,3級供用戶程序使用。從圖中可以看出(這裏無法表示圖),每個進程有各自的私有用戶空間(0~3G),這個空間對系統中的其他進程是不可見的。最高的1GB字節虛擬內核空間則爲所有進程以及內核所共享。

1.虛擬內核空間到物理空間的映射
內核空間中存放的是內核代碼和數據,而進程的用戶空間中存放的是用戶程序的代碼和數據。不管是內核空間還是用戶空間,它們都處於虛擬空間中。讀者會問,系統啓動時,內核的代碼和數據不是被裝入到物理內存嗎?它們爲什麼也處於虛擬內存中呢?這和編譯程序有關,後面我們通過具體討論就會明白這一點。
雖然內核空間佔據了每個虛擬空間中的最高1GB字節,但映射到物理內存卻總是從最低地址(0x00000000)開始。對內核空間來說,其地址映射是很簡單的線性映射,0xC0000000就是物理地址與線性地址之間的位移量,在Linux代碼中就叫做PAGE_OFFSET。

 

 

我們來看一下在include/asm/i386/page.h中對內核空間中地址映射的說明及定義:
 
圖片發自簡書App

源代碼的註釋中說明,如果你的物理內存大於950MB,那麼在編譯內核時就需要加CONFIG_HIGHMEM4G和CONFIG_HIGHMEM64G選項,這種情況我們暫不考慮。如果物理內存小於950MB,則對於內核空間而言,給定一個虛地址x,其物理地址爲“x-PAGE_OFFSET”,給定一個物理地址x,其虛地址爲“x+PAGE_OFFSET”。

這裏再次說明,宏__pa()僅僅把一個內核空間的虛地址映射到物理地址,而決不適用於用戶空間,用戶空間的地址映射要複雜得多。

2.內核映像
在下面的描述中,我們把內核的代碼和數據就叫內核映像(kernel image)。當系統啓動時,Linux內核映像被安裝在物理地址0x00100000開始的地方,即1MB開始的區間(第1M留作它用)。然而,在正常運行時,整個內核映像應該在虛擬內核空間中,因此,連接程序在連接內核映像時,在所有的符號地址上加一個偏移量PAGE_OFFSET,這樣,內核映像在內核空間的起始地址就爲0xC0100000。

例如,進程的頁目錄PGD(屬於內核數據結構)就處於內核空間中。在進程切換時,要將寄存器CR3設置成指向新進程的頁目錄PGD,而該目錄的起始地址在內核空間中是虛地址,但CR3所需要的是物理地址,這時候就要用__pa()進行地址轉換。在mm_context.h中就有這麼一行語句:

asm volatile("movl %0,%%cr3": :"r"(__pa(next_pgd;pgd)));

這是一行嵌入式彙編代碼,其含義是將下一個進程的頁目錄起始地址next_pgd,通過__pa()轉換成物理地址,存放在某個寄存器中,然後用mov指令將其寫入CR3寄存器中。經過這行語句的處理,CR3就指向新進程next的頁目錄表PGD了。

二、Linux內核地址空間劃分

 

 

通常32位Linux內核地址空間劃分0 ~ 3G爲用戶空間,3 ~ 4G爲內核空間。注意這裏是32位內核地址空間劃分,64位內核地址空間劃分是不同的。
 
圖片發自簡書App

三、Linux內核高端內存的由來

當內核模塊代碼或線程訪問內存時,代碼中的內存地址都爲邏輯地址,而對應到真正的物理內存地址,需要地址一對一的映射,如邏輯地址0xc0000003對應的物理地址爲0×3,0xc0000004對應的物理地址爲0×4,… …,邏輯地址與物理地址對應的關係爲:

物理地址 = 邏輯地址 – 0xC0000000

假設按照上述簡單的地址映射關係,那麼內核邏輯地址空間訪問爲0xc0000000 ~ 0xffffffff,那麼對應的物理內存範圍就爲0×0 ~ 0×40000000,即只能訪問1G物理內存。若機器中安裝8G物理內存,那麼內核就只能訪問前1G物理內存,後面7G物理內存將會無法訪問,因爲內核 的地址空間已經全部映射到物理內存地址範圍0×0 ~ 0×40000000。即使安裝了8G物理內存,那麼物理地址爲0×40000001的內存,內核該怎麼去訪問呢?代碼中必須要有內存邏輯地址 的,0xc0000000 ~ 0xffffffff的地址空間已經被用完了,所以無法訪問物理地址0×40000000以後的內存。

顯然不能將內核地址空間0xc0000000 ~ 0xfffffff全部用來簡單的地址映射。因此x86架構中將內核地址空間劃分三部分:ZONE_DMA, ZONE_NORMAL和 ZONE_HIGHMEM。ZONE_HIGHMEM即爲高端內存,這就是內存高端內存概念的由來。

在x86結構中,三種類型的區域如下:

名稱範圍
ZONE_DMA 內存開始的16MB
ZONE_NORMAL 16MB~896MB
ZONE_HIGHMEM 896MB ~ 結束
 
圖片發自簡書App

四、Linux內核高端內存的理解

高端內存HIGH_MEM地址空間範圍爲0xF8000000~0xFFFFFFFF(896MB~1024MB)。那麼如內核是如何藉助128MB高端內存地址空間是如何實現訪問可以所有物理內存?

Linux將內核地址空間劃分爲三部分:

  • ZONE_DMA、
  • ZONE_NORMAL
  • ZONE_HIGHMEM

前面我們解釋了高端內存的由來。當內核想訪問高於896MB物理地址內存時,從0xF8000000 ~ 0xFFFFFFFF地址空間範圍內找一段相應大小空閒的邏輯地址空間,借用一會。借用這段邏輯地址空間,建立映射到想訪問的那段物理內存(即填充內核PTE頁面表),臨時用一會,用完後歸還。這樣別人也可以借用這段地址空間訪問其他物理內存,實現了使用有限的地址空間,訪問所有所有物理內存。如下圖。


 
圖片發自簡書App

例如內核想訪問2G開始的一段大小爲1MB的物理內存,即物理地址範圍爲0×80000000 ~ 0x800FFFFF。訪問之前先找到一段1MB大小的空閒地址空間,假設找到的空閒地址空間爲0xF8700000 ~ 0xF87FFFFF,用這1MB的邏輯地址空間映射到物理地址空間0×80000000 ~ 0x800FFFFF的內存。映射關係如下:

邏輯地址物理地址
0xF8700000 0x80000000
0xF8700001 0x80000001
0xF87FFFFF 0x800FFFFF

當內核訪問完0×80000000 ~ 0x800FFFFF物理內存後,就將0xF8700000 ~ 0xF87FFFFF內核線性空間釋放。這樣其他進程或代碼也可以使用0xF8700000 ~ 0xF87FFFFF這段地址訪問其他物理內存。

從上面的描述,我們可以知道高端內存的最基本思想:借一段地址空間,建立臨時地址映射,用完後釋放,達到這段地址空間可以循環使用,訪問所有物理內存。

看到這裏,不禁有人會問:萬一有內核進程或模塊一直佔用某段邏輯地址空間不釋放,怎麼辦?若真的出現的這種情況,則內核的高端內存地址空間越來越緊張,若都被佔用不釋放,則沒有建立映射到物理內存都無法訪問了。

五、Linux內核高端內存的劃分

內核將高端內存劃分爲3部分:

  • VMALLOC_START ~ VMALLOC_END
  • KMAP_BASE ~ FIXADDR_START
  • FIXADDR_START ~ 0xFFFFFFFF

對於高端內存,可以通過 alloc_page() 或者其它函數獲得對應的 page,但是要想訪問實際物理內存,還得把 page 轉爲線性地址纔行(爲什麼?想想 MMU 是如何訪問物理內存的),也就是說,我們需要爲高端內存對應的 page 找一個線性空間,這個過程稱爲高端內存映射。

對應高端內存的3部分,高端內存映射有三種方式:

  1. 映射到”內核動態映射空間”(noncontiguous memory allocation)。
    這種方式很簡單,因爲通過 vmalloc() ,在”內核動態映射空間”申請內存的時候,就可能從高端內存獲得頁面(參看 vmalloc 的實現),因此說高端內存有可能映射到”內核動態映射空間”中。

  2. 持久內核映射(permanent kernel mapping)。
    如果是通過 alloc_page() 獲得了高端內存對應的 page,如何給它找個線性空間?內核專門爲此留出一塊線性空間,從 PKMAP_BASE 到 FIXADDR_START ,用於映射高端內存。在 2.6內核上,這個地址範圍是 4G-8M 到 4G-4M 之間。這個空間起叫”內核永久映射空間”或者”永久內核映射空間”。這個空間和其它空間使用同樣的頁目錄表,對於內核來說,就是 swapper_pg_dir,對普通進程來說,通過 CR3 寄存器指向。通常情況下,這個空間是 4M 大小,因此僅僅需要一個頁表即可,內核通過來 pkmap_page_table 尋找這個頁表。通過 kmap(),可以把一個 page 映射到這個空間來。由於這個空間是 4M 大小,最多能同時映射 1024 個 page。因此,對於不使用的的 page,及應該時從這個空間釋放掉(也就是解除映射關係),通過 kunmap() ,可以把一個 page 對應的線性地址從這個空間釋放出來。

  3. 臨時映射(temporary kernel mapping)
    內核在 FIXADDR_START 到 FIXADDR_TOP 之間保留了一些線性空間用於特殊需求。這個空間稱爲”固定映射空間”在這個空間中,有一部分用於高端內存的臨時映射。

這塊空間具有如下特點:
(1)每個 CPU 佔用一塊空間
(2)在每個 CPU 佔用的那塊空間中,又分爲多個小空間,每個小空間大小是 1 個 page,每個小空間用於一個目的,這些目的定義在 kmap_types.h 中的 km_type中。當要進行一次臨時映射的時候,需要指定映射的目的,根據映射目的,可以找到對應的小空間,然後把這個空間的地址作爲映射地址。這意味着一次臨時映射會導致以前的映射被覆蓋。通過 kmap_atomic() 可實現臨時映射。

六、常見問題:

  1. 用戶空間(進程)是否有高端內存概念?
    用戶進程沒有高端內存概念。只有在內核空間才存在高端內存。用戶進程最多隻可以訪問3G物理內存,而內核進程可以訪問所有物理內存。

  2. 64位內核中有高端內存嗎?
    目前現實中,64位Linux內核不存在高端內存,因爲64位內核可以支持超過512GB內存。若機器安裝的物理內存超過內核地址空間範圍,就會存在高端內存。

  3. 用戶進程能訪問多少物理內存?內核代碼能訪問多少物理內存?
    32位系統用戶進程最大可以訪問3GB,內核代碼可以訪問所有物理內存。
    64位系統用戶進程最大可以訪問超過512GB,內核代碼可以訪問所有物理內存。

  4. 高端內存和物理地址、邏輯地址、線性地址的關係?
    高端內存只和邏輯地址有關係,和邏輯地址、物理地址沒有直接關係。

  5. 爲什麼不把所有的地址空間都分配給內核?
    若把所有地址空間都給內存,那麼用戶進程怎麼使用內存?怎麼保證內核使用內存和用戶進程不起衝突?
    (1)讓我們忽略Linux對段式內存映射的支持。 在保護模式下,我們知道無論CPU運行於用戶態還是核心態,CPU執行程序所訪問的地址都是虛擬地址,MMU 必須通過讀取控制寄存器CR3中的值作爲當前頁面目錄的指針,進而根據分頁內存映射機制(參看相關文檔)將該虛擬地址轉換爲真正的物理地址才能讓CPU真 正的訪問到物理地址。
    (2)對於32位的Linux,其每一個進程都有4G的尋址空間,但當一個進程訪問其虛擬內存空間中的某個地址時又是怎樣實現不與其它進程的虛擬空間混淆 的呢?每個進程都有其自身的頁面目錄PGD,Linux將該目錄的指針存放在與進程對應的內存結構task_struct.(struct mm_struct)mm->pgd中。每當一個進程被調度(schedule())即將進入運行態時,Linux內核都要用該進程的PGD指針設 置CR3(switch_mm())。
    (3)當創建一個新的進程時,都要爲新進程創建一個新的頁面目錄PGD,並從內核的頁面目錄swapper_pg_dir中複製內核區間頁面目錄項至新建進程頁面目錄PGD的相應位置,具體過程如下:
    do_fork() --> copy_mm() --> mm_init() --> pgd_alloc() --> set_pgd_fast() --> get_pgd_slow() --> memcpy(&PGD + USER_PTRS_PER_PGD, swapper_pg_dir + USER_PTRS_PER_PGD, (PTRS_PER_PGD - USER_PTRS_PER_PGD) * sizeof(pgd_t))
    這樣一來,每個進程的頁面目錄就分成了兩部分,第一部分爲“用戶空間”,用來映射其整個進程空間(0x0000 0000-0xBFFF FFFF)即3G字節的虛擬地址;第二部分爲“系統空間”,用來映射(0xC000 0000-0xFFFF FFFF)1G字節的虛擬地址。可以看出Linux系統中每個進程的頁面目錄的第二部分是相同的,所以從進程的角度來看,每個進程有4G字節的虛擬空間, 較低的3G字節是自己的用戶空間,最高的1G字節則爲與所有進程以及內核共享的系統空間。
    (4)現在假設我們有如下一個情景:
    在進程A中通過系統調用sethostname(const char *name,seze_t len)設置計算機在網絡中的“主機名”。在該情景中我們勢必涉及到從用戶空間向內核空間傳遞數據的問題,name是用戶空間中的地址,它要通過系統調用設置到內核中的某個地址中。讓我們看看這個 過程中的一些細節問題:系統調用的具體實現是將系統調用的參數依次存入寄存器ebx,ecx,edx,esi,edi(最多5個參數,該情景有兩個 name和len),接着將系統調用號存入寄存器eax,然後通過中斷指令“int 80”使進程A進入系統空間。由於進程的CPU運行級別小於等於爲系統調用設置的陷阱門的准入級別3,所以可以暢通無阻的進入系統空間去執行爲int 80設置的函數指針system_call()。由於system_call()屬於內核空間,其運行級別DPL爲0,CPU要將堆棧切換到內核堆棧,即 進程A的系統空間堆棧。我們知道內核爲新建進程創建task_struct結構時,共分配了兩個連續的頁面,即8K的大小,並將底部約1k的大小用於 task_struct( 如#define alloc_task_struct() ((struct task_struct *) __get_free_pages(GFP_KERNEL,1))),而其餘部分內存用於系統空間的堆棧空間,即當從用戶空間轉入系統空間時,堆棧指針 esp變成了(alloc_task_struct()+8192),這也是爲什麼系統空間通常用宏定義current(參看其實現)獲取當前進程的 task_struct地址的原因。每次在進程從用戶空間進入系統空間之初,系統堆棧就已經被依次壓入用戶堆棧SS、用戶堆棧指針ESP、EFLAGS、 用戶空間CS、EIP,接着system_call()將eax壓入,再接着調用SAVE_ALL依次壓入ES、DS、EAX、EBP、EDI、ESI、 EDX、ECX、EBX,然後調用sys_call_table+4*%EAX,本情景爲sys_sethostname()。
    5)在sys_sethostname()中,經過一些保護考慮後,調用copy_from_user(to,from,n),其中to指向內核空間 system_utsname.nodename,譬如0xE625A000,from指向用戶空間譬如0x8010FE00。現在進程A進入了內核,在 系統空間中運行,MMU根據其PGD將虛擬地址完成到物理地址的映射,最終完成從用戶空間到系統空間數據的複製。準備複製之前內核先要確定用戶空間地址和 長度的合法性,至於從該用戶空間地址開始的某個長度的整個區間是否已經映射並不去檢查,如果區間內某個地址未映射或讀寫權限等問題出現時,則視爲壞地址, 就產生一個頁面異常,讓頁面異常服務程序處理。過程如 下:copy_from_user()->generic_copy_from_user()->access_ok()+__copy_user_zeroing().

小結

  • 進程尋址空間0~4G 。
  • 進程在用戶態只能訪問03G,只有進入內核態才能訪問3G4G 。
  • 進程通過系統調用進入內核態。
  • 每個進程虛擬空間的3G~4G部分是相同的。
  • 進程從用戶態進入內核態不會引起CR3的改變但會引起堆棧的改變。
 
 
9人點贊
 
 
更多精彩內容下載簡書APP
 
"如果文章對你有用,請關注作者或給作者點贊鼓勵!"
還沒有人讚賞,支持一下


作者:Leon_Geo
鏈接:https://www.jianshu.com/p/0b8e1879729a
來源:簡書
著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章