[轉載] 萬字長文，別再說你不懂Linux內存管理了（合輯），30 張圖給你安排的明明白白

本文轉載自後端技術學堂微信公衆號，作者是 LemonCoder。

很少見能很清楚介紹Linux內存管理框架的文章。以下正文。

之前寫了兩篇詳細分析 Linux 內存管理的文章，讀者好評如潮。但由於是分開兩篇來寫，而這兩篇內容其實是有很強關聯的，有讀者反饋沒有看到另一篇讀起來不夠不連貫，爲方便閱讀這次特意把兩篇整合在一起，看這一篇就夠了！

萬字乾貨長文，建議收藏後閱讀，以下是正文。

連續寫了兩週的「微服務」有點膩，不過這個系列還會繼續寫。今天來帶大家研究一下Linux內存管理。

對於精通 CURD 的業務同學，內存管理好像離我們很遠，但這個知識點雖然冷門（估計很多人學完根本就沒機會用上）但絕對是基礎中的基礎。

這就像武俠小說中的內功修煉，學完之後看不到立竿見影的效果，但對你日後的開發工作是大有裨益的，因爲你站的更高了。

文中所有示例圖都是我親手畫的，畫圖比碼字還費時間，但大家看圖理解比文字更直觀，所以還是畫了。需要高清示例圖片的同學，文末有獲取方式自取。

再功利點的說，面試的時候不經意間透露你懂這方面知識，並且能說出個一二三來，也許能讓面試官對你更有興趣，離升職加薪，走上人生巔峯又近了一步。

虛擬地址

即使是現代操作系統中，內存依然是計算機中很寶貴的資源，看看你電腦幾個T固態硬盤，再看看內存大小就知道了。

爲了充分利用和管理系統內存資源，Linux採用虛擬內存管理技術，利用虛擬內存技術讓每個進程都有4GB 互不干涉的虛擬地址空間。

進程初始化分配和操作的都是基於這個「虛擬地址」，只有當進程需要實際訪問內存資源的時候纔會建立虛擬地址和物理地址的映射，調入物理內存頁。

打個不是很恰當的比方，這個原理其實和現在的某某網盤一樣。假如你的網盤空間是1TB，真以爲就一口氣給了你這麼大空間嗎？那還是太年輕，都是在你往裏面放東西的時候纔給你分配空間，你放多少就分多少實際空間給你，但你和你朋友看起來就像大家都擁有1TB空間一樣。

虛擬地址的好處

避免用戶直接訪問物理內存地址，防止一些破壞性操作，保護操作系統
每個進程都被分配了4GB的虛擬內存，用戶程序可使用比實際物理內存更大的地址空間

4GB 的進程虛擬地址空間被分成兩部分：「用戶空間」和「內核空間」

物理地址

上面章節我們已經知道不管是用戶空間還是內核空間，使用的地址都是虛擬地址，當需進程要實際訪問內存的時候，會由內核的「請求分頁機制」產生「缺頁異常」調入物理內存頁。

把虛擬地址轉換成內存的物理地址，這中間涉及利用MMU 內存管理單元（Memory Management Unit ) 對虛擬地址分段和分頁（段頁式）地址轉換，關於分段和分頁的具體流程，這裏不再贅述，可以參考任何一本計算機組成原理教材描述。

Linux 內核會將物理內存分爲3個管理區，分別是：

ZONE_DMA

DMA內存區域。包含0MB~16MB之間的內存頁框，可以由老式基於ISA的設備通過DMA使用，直接映射到內核的地址空間。

ZONE_NORMAL

普通內存區域。包含16MB~896MB之間的內存頁框，常規頁框，直接映射到內核的地址空間。

ZONE_HIGHMEM

高端內存區域。包含896MB以上的內存頁框，不進行直接映射，可以通過永久映射和臨時映射進行這部分內存頁框的訪問。

用戶空間

用戶進程能訪問的是「用戶空間」，每個進程都有自己獨立的用戶空間，虛擬地址範圍從從 0x00000000 至 0xBFFFFFFF 總容量3G 。

用戶進程通常只能訪問用戶空間的虛擬地址，只有在執行內陷操作或系統調用時才能訪問內核空間。

進程與內存

進程（執行的程序）佔用的用戶空間按照「訪問屬性一致的地址空間存放在一起」的原則，劃分成 5個不同的內存區域。訪問屬性指的是“可讀、可寫、可執行等。

代碼段

代碼段是用來存放可執行文件的操作指令，可執行程序在內存中的鏡像。代碼段需要防止在運行時被非法修改，所以只准許讀取操作，它是不可寫的。

數據段
數據段用來存放可執行文件中已初始化全局變量，換句話說就是存放程序靜態分配的變量和全局變量。
BSS段
BSS段包含了程序中未初始化的全局變量，在內存中 bss 段全部置零。
堆 heap
堆是用於存放進程運行中被動態分配的內存段，它的大小並不固定，可動態擴張或縮減。當進程調用malloc等函數分配內存時，新分配的內存就被動態添加到堆上（堆被擴張）；當利用free等函數釋放內存時，被釋放的內存從堆中被剔除（堆被縮減）
棧 stack
棧是用戶存放程序臨時創建的局部變量，也就是函數中定義的變量（但不包括 static 聲明的變量，static意味着在數據段中存放變量）。除此以外，在函數被調用時，其參數也會被壓入發起調用的進程棧中，並且待到調用結束後，函數的返回值也會被存放回棧中。由於棧的先進先出特點，所以棧特別方便用來保存/恢復調用現場。從這個意義上講，我們可以把堆棧看成一個寄存、交換臨時數據的內存區。

上述幾種內存區域中數據段、BSS 段、堆通常是被連續存儲在內存中，在位置上是連續的，而代碼段和棧往往會被獨立存放。堆和棧兩個區域在 i386 體系結構中棧向下擴展、堆向上擴展，相對而生。

你也可以在linux下用 size 命令查看編譯後程序的各個內存區域大小：

[lemon ~]# size /usr/local/sbin/sshd
   text	   data	    bss	    dec	    hex	filename
1924532	  12412	 426896	2363840	 2411c0	/usr/local/sbin/sshd

內核空間

在 x86 32 位系統裏，Linux 內核地址空間是指虛擬地址從 0xC0000000 開始到 0xFFFFFFFF 爲止的高端內存地址空間，總計 1G 的容量，包括了內核鏡像、物理頁面表、驅動程序等運行在內核空間。

直接映射區

直接映射區 Direct Memory Region：從內核空間起始地址開始，最大896M的內核空間地址區間，爲直接內存映射區。

直接映射區的896MB的「線性地址」直接與「物理地址」的前896MB進行映射，也就是說線性地址和分配的物理地址都是連續的。內核地址空間的線性地址0xC0000001所對應的物理地址爲0x00000001，它們之間相差一個偏移量PAGE_OFFSET = 0xC0000000

該區域的線性地址和物理地址存在線性轉換關係「線性地址 = PAGE_OFFSET + 物理地址」也可以用 virt_to_phys()函數將內核虛擬空間中的線性地址轉化爲物理地址。

高端內存線性地址空間

內核空間線性地址從 896M 到 1G 的區間，容量 128MB 的地址區間是高端內存線性地址空間，爲什麼叫高端內存線性地址空間？下面給你解釋一下：

前面已經說過，內核空間的總大小 1GB，從內核空間起始地址開始的 896MB 的線性地址可以直接映射到物理地址大小爲 896MB 的地址區間。

退一萬步，即使內核空間的1GB線性地址都映射到物理地址，那也最多隻能尋址 1GB 大小的物理內存地址範圍。

請問你現在你家的內存條多大？快醒醒都 0202 年了，一般 PC 的內存都大於 1GB 了吧！

所以，內核空間拿出了最後的 128M 地址區間，劃分成下面三個高端內存映射區，以達到對整個物理地址範圍的尋址。而在 64 位的系統上就不存在這樣的問題了，因爲可用的線性地址空間遠大於可安裝的內存。

動態內存映射區

vmalloc Region 該區域由內核函數vmalloc來分配，特點是：線性空間連續，但是對應的物理地址空間不一定連續。vmalloc 分配的線性地址所對應的物理頁可能處於低端內存，也可能處於高端內存。

永久內存映射區

Persistent Kernel Mapping Region 該區域可訪問高端內存。訪問方法是使用 alloc_page (_GFP_HIGHMEM) 分配高端內存頁或者使用kmap函數將分配到的高端內存映射到該區域。

固定映射區

Fixing kernel Mapping Region 該區域和 4G 的頂端只有 4k 的隔離帶，其每個地址項都服務於特定的用途，如 ACPI_BASE 等。

回顧一下

上面講的有點多，先彆着急進入下一節，在這之前我們再來回顧一下上面所講的內容。如果認真看完上面的章節，我這裏再畫了一張圖，現在你的腦海中應該有這樣一個內存管理的全局圖。

內存數據結構

要讓內核管理系統中的虛擬內存，必然要從中抽象出內存管理數據結構，內存管理操作如「分配、釋放等」都基於這些數據結構操作，這裏列舉兩個管理虛擬內存區域的數據結構。

用戶空間內存數據結構

在前面「進程與內存」章節我們提到，Linux進程可以劃分爲 5 個不同的內存區域，分別是：代碼段、數據段、BSS、堆、棧，內核管理這些區域的方式是，將這些內存區域抽象成vm_area_struct的內存管理對象。

vm_area_struct是描述進程地址空間的基本管理單元，一個進程往往需要多個vm_area_struct來描述它的用戶空間虛擬地址，需要使用「鏈表」和「紅黑樹」來組織各個vm_area_struct。

鏈表用於需要遍歷全部節點的時候用，而紅黑樹適用於在地址空間中定位特定內存區域。內核爲了內存區域上的各種不同操作都能獲得高性能，所以同時使用了這兩種數據結構。

用戶空間進程的地址管理模型：

內核空間動態分配內存數據結構

在內核空間章節我們提到過「動態內存映射區」，該區域由內核函數vmalloc來分配，特點是：線性空間連續，但是對應的物理地址空間不一定連續。vmalloc 分配的線性地址所對應的物理頁可能處於低端內存，也可能處於高端內存。

vmalloc 分配的地址則限於vmalloc_start與vmalloc_end之間。每一塊vmalloc分配的內核虛擬內存都對應一個vm_struct結構體，不同的內核空間虛擬地址之間有4k大小的防越界空閒區間隔區。

與用戶空間的虛擬地址特性一樣，這些虛擬地址與物理內存沒有簡單的映射關係，必須通過內核頁表纔可轉換爲物理地址或物理頁，它們有可能尚未被映射，當發生缺頁時才真正分配物理頁面。

前面分析了 Linux 內存管理機制，下面深入學習物理內存管理和虛擬內存分配。

通過前面的學習我們知道，程序可沒這麼好騙，任你內存管理把虛擬地址空間玩出花來，到最後還是要給程序實實在在的物理內存，不然程序就要罷工了。

所以物理內存這麼重要的資源一定要好好管理起來使用（物理內存，就是你實實在在的內存條），那麼內核是如何管理物理內存的呢？

物理內存管理

在Linux系統中通過分段和分頁機制，把物理內存劃分 4K 大小的內存頁 Page（也稱作頁框Page Frame），物理內存的分配和回收都是基於內存頁進行，把物理內存分頁管理的好處大大的。

假如系統請求小塊內存，可以預先分配一頁給它，避免了反覆的申請和釋放小塊內存帶來頻繁的系統開銷。

假如系統需要大塊內存，則可以用多頁內存拼湊，而不必要求大塊連續內存。你看不管內存大小都能收放自如，分頁機制多麼完美的解決方案！

But，理想很豐滿，現實很骨感。如果就直接這樣把內存分頁使用，不再加額外的管理還是存在一些問題，下面我們來看下，系統在多次分配和釋放物理頁的時候會遇到哪些問題。

物理頁管理面臨問題

物理內存頁分配會出現外部碎片和內部碎片問題，所謂的「內部」和「外部」是針對「頁框內外」而言，一個頁框內的內存碎片是內部碎片，多個頁框間的碎片是外部碎片。

外部碎片

當需要分配大塊內存的時候，要用好幾頁組合起來纔夠，而系統分配物理內存頁的時候會盡量分配連續的內存頁面，頻繁的分配與回收物理頁導致大量的小塊內存夾雜在已分配頁面中間，形成外部碎片，舉個例子：

內部碎片

物理內存是按頁來分配的，這樣當實際只需要很小內存的時候，也會分配至少是 4K 大小的頁面，而內核中有很多需要以字節爲單位分配內存的場景，這樣本來只想要幾個字節而已卻不得不分配一頁內存，除去用掉的字節剩下的就形成了內部碎片。

頁面管理算法

方法總比困難多，因爲存在上面的這些問題，聰明的程序員靈機一動，引入了頁面管理算法來解決上述的碎片問題。

Buddy（夥伴）分配算法

Linux 內核引入了夥伴系統算法（Buddy system），什麼意思呢？就是把相同大小的頁框塊用鏈表串起來，頁框塊就像手拉手的好夥伴，也是這個算法名字的由來。

具體的，所有的空閒頁框分組爲11個塊鏈表，每個塊鏈表分別包含大小爲1，2，4，8，16，32，64，128，256，512和1024個連續頁框的頁框塊。最大可以申請1024個連續頁框，對應4MB大小的連續內存。

因爲任何正整數都可以由2^n 的和組成，所以總能找到合適大小的內存塊分配出去，減少了外部碎片產生。

分配實例

比如：我需要申請4個頁框，但是長度爲4個連續頁框塊鏈表沒有空閒的頁框塊，夥伴系統會從連續8個頁框塊的鏈表獲取一個，並將其拆分爲兩個連續4個頁框塊，取其中一個，另外一個放入連續4個頁框塊的空閒鏈表中。釋放的時候會檢查，釋放的這幾個頁框前後的頁框是否空閒，能否組成下一級長度的塊。

命令查看

[lemon]]# cat /proc/buddyinfo 
Node 0, zone      DMA      1      0      0      0      2      1      1      0      1      1      3 
Node 0, zone    DMA32   3198   4108   4940   4773   4030   2184    891    180     67     32    330 
Node 0, zone   Normal  42438  37404  16035   4386    610    121     22      3      0      0      1

slab分配器

看到這裏你可能會想，有了夥伴系統這下總可以管理好物理內存了吧？不，還不夠，否則就沒有slab分配器什麼事了。

那什麼是slab分配器呢？

一般來說，內核對象的生命週期是這樣的：分配內存-初始化-釋放內存，內核中有大量的小對象，比如文件描述結構對象、任務描述結構對象，如果按照夥伴系統按頁分配和釋放內存，對小對象頻繁的執行「分配內存-初始化-釋放內存」會非常消耗性能。

夥伴系統分配出去的內存還是以頁框爲單位，而對於內核的很多場景都是分配小片內存，遠用不到一頁內存大小的空間。slab分配器，「通過將內存按使用對象不同再劃分成不同大小的空間」，應用於內核對象的緩存。

夥伴系統和slab不是二選一的關係，slab 內存分配器是對夥伴分配算法的補充。

大白話說原理

對於每個內核中的相同類型的對象，如：task_struct、file_struct 等需要重複使用的小型內核數據對象，都會有個 slab 緩存池，緩存住大量常用的「已經初始化」的對象，每當要申請這種類型的對象時，就從緩存池的slab 列表中分配一個出去；而當要釋放時，將其重新保存在該列表中，而不是直接返回給夥伴系統，從而避免內部碎片，同時也大大提高了內存分配性能。

主要優點

slab 內存管理基於內核小對象，不用每次都分配一頁內存，充分利用內存空間，避免內部碎片。
slab 對內核中頻繁創建和釋放的小對象做緩存，重複利用一些相同的對象，減少內存分配次數。

數據結構

kmem_cache 是一個cache_chain 的鏈表組成節點，代表的是一個內核中的相同類型的「對象高速緩存」，每個kmem_cache 通常是一段連續的內存塊，包含了三種類型的 slabs 鏈表：

slabs_full (完全分配的 slab 鏈表)
slabs_partial (部分分配的slab 鏈表)
slabs_empty ( 沒有被分配對象的slab 鏈表)
kmem_cache 中有個重要的結構體 kmem_list3 包含了以上三個數據結構的聲明。

slab 是slab 分配器的最小單位，在實現上一個 slab 由一個或多個連續的物理頁組成（通常只有一頁）。單個slab可以在 slab 鏈表之間移動，例如如果一個「半滿slabs_partial鏈表」被分配了對象後變滿了，就要從 slabs_partial 中刪除，同時插入到「全滿slabs_full鏈表」中去。內核slab對象的分配過程是這樣的：

如果slabs_partial鏈表還有未分配的空間，分配對象，若分配之後變滿，移動 slab 到slabs_full 鏈表
如果slabs_partial鏈表沒有未分配的空間，進入下一步
如果slabs_empty 鏈表還有未分配的空間，分配對象，同時移動slab進入slabs_partial鏈表
如果slabs_empty爲空，請求夥伴系統分頁，創建一個新的空閒slab，按步驟 3 分配對象

命令查看

上面說的都是理論，比較抽象，動動手來康康系統中的 slab 吧！你可以通過 cat /proc/slabinfo 命令，實際查看系統中slab 信息。

slabtop 實時顯示內核slab 內存緩存信息。

slab高速緩存的分類

slab高速緩存分爲兩大類，「通用高速緩存」和「專用高速緩存」。

通用高速緩存

slab分配器中用 kmem_cache 來描述高速緩存的結構，它本身也需要 slab 分配器對其進行高速緩存。cache_cache 保存着對「高速緩存描述符的高速緩存」，是一種通用高速緩存，保存在cache_chain 鏈表中的第一個元素。

另外，slab 分配器所提供的小塊連續內存的分配，也是通用高速緩存實現的。通用高速緩存所提供的對象具有幾何分佈的大小，範圍爲32到131072字節。內核中提供了 kmalloc() 和 kfree() 兩個接口分別進行內存的申請和釋放。

專用高速緩存

內核爲專用高速緩存的申請和釋放提供了一套完整的接口，根據所傳入的參數爲指定的對象分配slab緩存。

專用高速緩存的申請和釋放

kmem_cache_create() 用於對一個指定的對象創建高速緩存。它從 cache_cache 普通高速緩存中爲新的專有緩存分配一個高速緩存描述符，並把這個描述符插入到高速緩存描述符形成的 cache_chain 鏈表中。kmem_cache_destory() 用於撤消和從 cache_chain 鏈表上刪除高速緩存。

slab的申請和釋放

slab 數據結構在內核中的定義，如下：

kmem_cache_alloc() 在其參數所指定的高速緩存中分配一個slab，對應的 kmem_cache_free() 在其參數所指定的高速緩存中釋放一個slab。

虛擬內存分配

前面討論的都是對物理內存的管理，Linux 通過虛擬內存管理，欺騙了用戶程序假裝每個程序都有 4G 的虛擬內存尋址空間（如果這裏不懂我說啥，建議回頭看下別再說你不懂Linux內存管理了，10張圖給你安排的明明白白！）。

所以我們來研究下虛擬內存的分配，這裏包括用戶空間虛擬內存和內核空間虛擬內存。

注意，分配的虛擬內存還沒有映射到物理內存，只有當訪問申請的虛擬內存時，纔會發生缺頁異常，再通過上面介紹的夥伴系統和 slab 分配器申請物理內存。

用戶空間內存分配

malloc

malloc 用於申請用戶空間的虛擬內存，當申請小於 128KB 小內存的時，malloc使用 sbrk或brk 分配內存；當申請大於 128KB 的內存時，使用 mmap 函數申請內存；

存在問題

由於 brk/sbrk/mmap 屬於系統調用，如果每次申請內存都要產生系統調用開銷，cpu 在用戶態和內核態之間頻繁切換，非常影響性能。

而且，堆是從低地址往高地址增長，如果低地址的內存沒有被釋放，高地址的內存就不能被回收，容易產生內存碎片。

解決

因此，malloc採用的是內存池的實現方式，先申請一大塊內存，然後將內存分成不同大小的內存塊，然後用戶申請內存時，直接從內存池中選擇一塊相近的內存塊分配出去。

內核空間內存分配

在講內核空間內存分配之前，先來回顧一下內核地址空間。kmalloc 和 vmalloc 分別用於分配不同映射區的虛擬內存，看這張上次畫的圖：

kmalloc

kmalloc() 分配的虛擬地址範圍在內核空間的「直接內存映射區」。

按字節爲單位虛擬內存，一般用於分配小塊內存，釋放內存對應於 kfree ，可以分配連續的物理內存。函數原型在 <linux/kmalloc.h> 中聲明，一般情況下在驅動程序中都是調用 kmalloc() 來給數據結構分配內存。

還記得前面說的 slab 嗎？kmalloc 是基於slab 分配器的，同樣可以用cat /proc/slabinfo 命令，查看 kmalloc 相關 slab 對象信息，下面的 kmalloc-8、kmalloc-16 等等就是基於slab分配的 kmalloc 高速緩存。

vmalloc

vmalloc 分配的虛擬地址區間，位於 vmalloc_start 與vmalloc_end 之間的「動態內存映射區」。

一般用分配大塊內存，釋放內存對應於 vfree，分配的虛擬內存地址連續，物理地址上不一定連續。函數原型在<linux/vmalloc.h>中聲明。一般用在爲活動的交換區分配數據結構，爲某些 I/O 驅動程序分配緩衝區，或爲內核模塊分配空間。

下面的圖總結了上述兩種內核空間虛擬內存分配方式。

總結一下

Linux內存管理是一個非常複雜的系統，本文所述只是冰山一角，從宏觀角度給你展現內存管理的全貌，但一般來說，這些知識在你和麪試官聊天的時候還是夠用的，當然也希望大家能夠通過讀書瞭解更深層次的原理。

本文可以作爲一個索引一樣的學習指南，當你想深入某一點學習的時候可以在這些章節裏找到切入點，以及這個知識點在內存管理宏觀上的位置。

本文創作過程我也畫了大量的示例圖解，可以作爲知識索引，個人感覺看圖還是比看文字更清晰明瞭，你可以在我公衆號「後端技術學堂」後臺回覆「內存管理」獲取這些圖片的高清原圖。

老規矩，感謝各位的閱讀，文章的目的是分享對知識的理解，技術類文章我都會反覆求證以求最大程度保證準確性，若文中出現明顯紕漏也歡迎指出，我們一起在探討中學習。

今天的技術分享就到這裏，我們下期再見。