Linux內存管理之MMU的過程

之前寫過一篇《CPU是如何訪問內存的？》的文章，簡單介紹了cpu訪問內存的過程。有了之前的感性認識，這篇站在arm的角度再深度講解一下，看完你會發現不理解arm原理就直接擼內核代碼簡直是耍流氓。

ARMv8中的訪問內存流程

我喜歡用圖的方式來說明問題，簡單直接：

藍色部分是cpu，灰色部分是內存，白色部分就是cpu訪問內存的過程，也是地址轉換的過程。在解釋地址轉換的本質前我們先理解下幾個概念：

TLB：MMU工作的過程就是查詢頁表的過程。如果把頁表放在內存中查詢的時候開銷太大，因此爲了提高查找效率，專門用一小片訪問更快的區域存放地址轉換條目。（當頁表內容有變化的時候，需要清除TLB，以防止地址映射出錯。）
Caches：cpu和內存之間的緩存機制，用於提高訪問速率，armv8架構的話上圖的caches其實是L2 Cache，這裏就不做進一步解釋了。

「那麼CPU是如何通過MMU和Cache來訪問內存的呢？」

可以看出虛擬地址和物理地址的轉換關鍵是過程Table Walk Unit。

虛擬地址轉換爲物理地址的本質

我們知道內核中的尋址空間大小是由CONFIG_ARM64_VA_BITS控制的，這裏以48位爲例，ARMv8中，Kernel Space的頁表基地址存放在TTBR1_EL1寄存器中，User Space頁表基地址存放在TTBR0_EL0寄存器中，其中內核地址空間的高位爲全1，(0xFFFF0000_00000000 ~ 0xFFFFFFFF_FFFFFFFF)，用戶地址空間的高位爲全0，(0x00000000_00000000 ~ 0x0000FFFF_FFFFFFFF)

有了宏觀概念，下面我們以內核態尋址過程爲例看下是如何把虛擬地址轉換爲物理地址的。

我們知道linux採用了分頁機制，通常採用四級頁表，頁全局目錄(PGD)，頁上級目錄(PUD)，頁中間目錄(PMD)，頁表(PTE)。如下：

從CR3寄存器中讀取頁目錄所在物理頁面的基址(即所謂的頁目錄基址)，從線性地址的第一部分獲取頁目錄項的索引，兩者相加得到頁目錄項的物理地址。
第一次讀取內存得到pgd_t結構的目錄項，從中取出物理頁基址取出，即頁上級頁目錄的物理基地址。
從線性地址的第二部分中取出頁上級目錄項的索引，與頁上級目錄基地址相加得到頁上級目錄項的物理地址。
第二次讀取內存得到pud_t結構的目錄項，從中取出頁中間目錄的物理基地址。
從線性地址的第三部分中取出頁中間目錄項的索引，與頁中間目錄基址相加得到頁中間目錄項的物理地址。
第三次讀取內存得到pmd_t結構的目錄項，從中取出頁表的物理基地址。
從線性地址的第四部分中取出頁表項的索引，與頁表基址相加得到頁表項的物理地址。
第四次讀取內存得到pte_t結構的目錄項，從中取出物理頁的基地址。
從線性地址的第五部分中取出物理頁內偏移量，與物理頁基址相加得到最終的物理地址。
第五次讀取內存得到最終要訪問的數據。

整個過程是比較機械的，每次轉換先獲取物理頁基地址，再從線性地址中獲取索引，合成物理地址後再訪問內存。不管是頁表還是要訪問的數據都是以頁爲單位存放在主存中的，因此每次訪問內存時都要先獲得基址，再通過索引(或偏移)在頁內訪問數據，因此可以將線性地址看作是若干個索引的集合。

linux中對地址轉換的實現

/*描述各級頁表中的頁表項*/
typedef struct { pteval_t pte; } pte_t;
typedef struct { pmdval_t pmd; } pmd_t;
typedef struct { pudval_t pud; } pud_t;
typedef struct { pgdval_t pgd; } pgd_t;

/*  將頁表項類型轉換成無符號類型 */
#define pte_val(x)	((x).pte)
#define pmd_val(x)	((x).pmd)
#define pud_val(x)	((x).pud)
#define pgd_val(x)	((x).pgd)

/*  將無符號類型轉換成頁表項類型 */
#define __pte(x)	((pte_t) { (x) } )
#define __pmd(x)	((pmd_t) { (x) } )
#define __pud(x)	((pud_t) { (x) } )
#define __pgd(x)	((pgd_t) { (x) } )

/* 獲取頁表項的索引值 */
#define pgd_index(addr)		(((addr) >> PGDIR_SHIFT) & (PTRS_PER_PGD - 1))
#define pud_index(addr)		(((addr) >> PUD_SHIFT) & (PTRS_PER_PUD - 1))
#define pmd_index(addr)		(((addr) >> PMD_SHIFT) & (PTRS_PER_PMD - 1))
#define pte_index(addr)		(((addr) >> PAGE_SHIFT) & (PTRS_PER_PTE - 1))

/*  獲取頁表中entry的偏移值 */
#define pgd_offset(mm, addr)	(pgd_offset_raw((mm)->pgd, (addr)))
#define pgd_offset_k(addr)	pgd_offset(&init_mm, addr)
#define pud_offset_phys(dir, addr)	(pgd_page_paddr(*(dir)) + pud_index(addr) * sizeof(pud_t))
#define pud_offset(dir, addr)		((pud_t *)__va(pud_offset_phys((dir), (addr))))
#define pmd_offset_phys(dir, addr)	(pud_page_paddr(*(dir)) + pmd_index(addr) * sizeof(pmd_t))
#define pmd_offset(dir, addr)		((pmd_t *)__va(pmd_offset_phys((dir), (addr))))
#define pte_offset_phys(dir,addr)	(pmd_page_paddr(READ_ONCE(*(dir))) + pte_index(addr) * sizeof(pte_t))
#define pte_offset_kernel(dir,addr)	((pte_t *)__va(pte_offset_phys((dir), (addr))))

進程在切換的時候就是根據task_struct找到mm_struct裏的PGD字段，取得新進程的頁全局目錄，然後填充到CR3寄存器，就完成了頁的切換。

下面我們動手操作一下，通過代碼來深度理解下虛擬地址是如何轉化爲物理地址的。

#include  <linux/module.h>
#include <linux/kernel.h>
#include <linux/init.h>
#include <linux/sched.h>
#include <linux/pid.h>
#include <linux/mm.h>
#include <asm/pgtable.h>
#include <asm/page.h>

MODULE_DESCRIPTION("vitual address to physics address");

static int pid;
static unsigned long va;

module_param(pid,int,0644); //從命令行傳遞參數（變量，類型，權限）
module_param(va,ulong,0644); //va表示的是虛擬地址

static int find_pgd_init(void)
{
        unsigned long pa = 0; //pa表示的物理地址
        struct task_struct *pcb_tmp = NULL;
        pgd_t *pgd_tmp = NULL;
        pud_t *pud_tmp = NULL;
        pmd_t *pmd_tmp = NULL;
        pte_t *pte_tmp = NULL;

        printk(KERN_INFO"PAGE_OFFSET = 0x%lx\n",PAGE_OFFSET);  //頁表中有多少個項
    /*pud和pmd等等  在線性地址中佔據多少位*/
        printk(KERN_INFO"PGDIR_SHIFT = %d\n",PGDIR_SHIFT);
    //注意：在32位系統中  PGD和PUD是相同的
        printk(KERN_INFO"PUD_SHIFT = %d\n",PUD_SHIFT);
        printk(KERN_INFO"PMD_SHIFT = %d\n",PMD_SHIFT);
        printk(KERN_INFO"PAGE_SHIFT = %d\n",PAGE_SHIFT);

        printk(KERN_INFO"PTRS_PER_PGD = %d\n",PTRS_PER_PGD); //每個PGD裏面有多少個ptrs
        printk(KERN_INFO"PTRS_PER_PUD = %d\n",PTRS_PER_PUD);
        printk(KERN_INFO"PTRS_PER_PMD = %d\n",PTRS_PER_PMD); //PMD中有多少個項
        printk(KERN_INFO"PTRS_PER_PTE = %d\n",PTRS_PER_PTE);

        printk(KERN_INFO"PAGE_MASK = 0x%lx\n",PAGE_MASK); //頁的掩碼

  struct pid *p = NULL;
  p = find_vpid(pid); //通過進程的pid號數字找到struct pid的結構體
  pcb_tmp = pid_task(p,PIDTYPE_PID); //通過pid的結構體找到進程的task  struct
        printk(KERN_INFO"pgd = 0x%p\n",pcb_tmp->mm->pgd);
               // 判斷給出的地址va是否合法(va&lt;vm_end)
    if(!find_vma(pcb_tmp->mm,va)){
                printk(KERN_INFO"virt_addr 0x%lx not available.\n",va);
                return 0;
        }
        pgd_tmp = pgd_offset(pcb_tmp->mm,va);  //返回線性地址va，在頁全局目錄中對應表項的線性地址
        printk(KERN_INFO"pgd_tmp = 0x%p\n",pgd_tmp);
    //pgd_val獲得pgd_tmp所指的頁全局目錄項
    //pgd_val是將pgd_tmp中的值打印出來
        printk(KERN_INFO"pgd_val(*pgd_tmp) = 0x%lx\n",pgd_val(*pgd_tmp));
        if(pgd_none(*pgd_tmp)){  //判斷pgd有沒有映射
                printk(KERN_INFO"Not mapped in pgd.\n");
                return 0;
        }
        pud_tmp = pud_offset(pgd_tmp,va); //返回va對應的頁上級目錄項的線性地址
        printk(KERN_INFO"pud_tmp = 0x%p\n",pud_tmp);
        printk(KERN_INFO"pud_val(*pud_tmp) = 0x%lx\n",pud_val(*pud_tmp));
        if(pud_none(*pud_tmp)){
                printk(KERN_INFO"Not mapped in pud.\n");
                return 0;
        }
        pmd_tmp = pmd_offset(pud_tmp,va); //返回va在頁中間目錄中對應表項的線性地址
        printk(KERN_INFO"pmd_tmp = 0x%p\n",pmd_tmp);
        printk(KERN_INFO"pmd_val(*pmd_tmp) = 0x%lx\n",pmd_val(*pmd_tmp));
        if(pmd_none(*pmd_tmp)){
                printk(KERN_INFO"Not mapped in pmd.\n");
                return 0;
        }
        //在這裏，把原來的pte_offset_map()改成了pte_offset_kernel
        pte_tmp = pte_offset_kernel(pmd_tmp,va);  //pte指的是  找到表

        printk(KERN_INFO"pte_tmp = 0x%p\n",pte_tmp);
        printk(KERN_INFO"pte_val(*pte_tmp) = 0x%lx\n",pte_val(*pte_tmp));
        if(pte_none(*pte_tmp)){ //判斷有沒有映射
                printk(KERN_INFO"Not mapped in pte.\n");
                return 0;
        }
        if(!pte_present(*pte_tmp)){
                printk(KERN_INFO"pte not in RAM.\n");
                return 0;
        }
        pa = (pte_val(*pte_tmp) & PAGE_MASK) ;//物理地址的計算方法
        printk(KERN_INFO"virt_addr 0x%lx in RAM Page is 0x%lx .\n",va,pa);
        //printk(KERN_INFO"contect in 0x%lx is 0x%lx\n",pa,*(unsigned long *)((char *)pa + PAGE_OFFSET));

        return 0;

}

static void __exit  find_pgd_exit(void)
{
        printk(KERN_INFO"Goodbye!\n");

}

module_init(find_pgd_init);
module_exit(find_pgd_exit);

MODULE_LICENSE("GPL");

運行結果如下：可以看出虛擬地址ffff99b488d48000對應的物理地址是80000000c8d48000。這個過程也是mmu的過程。

小結

我相信你已經對cpu通過MMU訪問內存的本質有所掌握(還是不理解的話不要說認識我)，而且通過linux的一個實驗，對其軟件模擬流程也有所感性的認識。下一篇我們正式進入內存管理的大門——linux內存管理。

Linux內存管理之MMU的過程

ARMv8中的訪問內存流程

虛擬地址轉換爲物理地址的本質

linux中對地址轉換的實現

小結

Linux內存初始化（下）

Linux內存初始化（上）

手把手教你入門AIoT（9）

Linus Torvalds：我們都老了，但Linux維護真的很難找

手把手教你入門AIoT（10）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結