參考一下兩篇文章:
linux內核內存管理(zone_dma zone_normal zone_highmem)(linux memory layout)
學習筆記(以x86爲例)
linux的虛擬地址空間:
32位的CPU,最大尋址範圍爲2^32 - 1也就是4G的線性地址空間。Linux簡化了分段機制,使得虛擬地址與線性地址總是一致的。linux一般把這個4G的地址空間劃分爲兩個部分:其中0~3G爲用戶程序地址空間,虛地址0x00000000到0xBFFFFFFF,供各個進程使用;3G~4G爲內核的地址空間,虛擬地址0xC0000000到0xFFFFFFFF, 供內核使用。(注意,ARM架構不是3G/1G劃分的,而是2G/2G劃分。這裏以3G/1G劃分作講解)。
- 物理內存(以4G內存爲例)依次由DMA_ZONE(0~16M),NORMAL_ZONE(16~896M)和HIGH_ZONE(896~4G)組成。
- 內核虛擬地址空間又可以分爲lowmemory和highmemory兩個部分或者對應物理內存的DMA_ZONE,NORMAL_ZONE(DMA_ZONE和NORMAL_ZONE線性映射到內核虛擬地址空間(即物理地址加一個offset))和HIGH_ZONE(需要通過kmap動態映射)三個部分:
- 其中lowmemory(共896M, 位置vm_kernel_base ~ vm_kernel_base + 896M)對應物理內存DMA_ZONE,NORMAL_ZONE。NORMAL_ZONE主要存放內核會頻繁使用的數據如kernel代碼、GDT、IDT、PGD、mem_map數組等。
- highmemory(共128M,位置vm_kernel_base + 896M ~1G)對應物理內存HIGH_ZONE部分,主要存放用戶數據、頁表(PT)等不常用數據,只有要訪問這些數據時才建立映射關係(通過kmap()),這樣即使內核的虛擬地址空間最大隻有1G也可以通過higmemory的128M空間採用動態建立映射的方式訪問HIGH_ZONE的全部內容,結合lowmemory訪問DMA_ZONE,NROMAL_ZONE,可以實現對整個4G內存的訪問。highmemory的使用場景:譬如可以通過ioremap使用位於HIGH_ZONE部分的IO內存,又或者在內核虛擬空間(3~4G)訪問用戶虛擬空間(0~3G)的數據(通過將用戶空間內存數據映射到內核空間實現)。
/dev/mem內存映射:
如果不做CONFIG_STRICT_DEVMEM限定,那麼可以映射所有的地址空間;
如果添加了CONFIG_STRICT_DEVMEM限定,在做映射前會執行一下檢測:
- 地址範圍不能超過4G;
- 該物理地址所在的iomem不能是exclusive(獨佔)的;
- 該物理地址不能在內核的lowmem部分。
簡單解析一下"/driver/char/mem.c"中mmap的實現:
static int mmap_mem(struct file *file, struct vm_area_struct *vma)
{
size_t size = vma->vm_end - vma->vm_start;
if (!valid_mmap_phys_addr_range(vma->vm_pgoff, size))
return -EINVAL;
if (!private_mapping_ok(vma))
return -ENOSYS;
if (!range_is_allowed(vma->vm_pgoff, size))
return -EPERM;
if (!phys_mem_access_prot_allowed(file, vma->vm_pgoff, size,
&vma->vm_page_prot))
return -EINVAL;
vma->vm_page_prot = phys_mem_access_prot(file, vma->vm_pgoff,
size,
vma->vm_page_prot);
vma->vm_ops = &mmap_mem_ops;
/* Remap-pfn-range will mark the range VM_IO */
if (remap_pfn_range(vma,
vma->vm_start,
vma->vm_pgoff,
size,
vma->vm_page_prot)) {
return -EAGAIN;
}
return 0;
}
- "valid_mmap_phys_addr_range"函數檢查要mmap的物理地址範圍是否超過4G空間,超過則無效;
- "private_mapping_ok"函數對於支持MMU的平臺來說總是返回"1";
- "range_is_allowed"在沒有配置CONFIG_STRICT_DEVMEM的情況下總是返回"1",配置了的話需要該物理地址所在的iomem不能使exclusive獨佔的,並且不能處在lowmem空間中;
- "phys_mem_access_prot_allowed"總是返回"1"表示可以設置該段需要被映射內存的protection標誌;
以上4段在/dev/mem可沒那麼簡單 都有分析,查看源碼很容易理解,下面單獨介紹一下"phys_mem_access_prot"。該函數是用來給vma的protection屬性添加noncached屬性(或者叫做noncached & nonbuffered,即對內存的訪問是不經過硬件cache和buffer的,處理器一般具有4種cache屬性:non-cached&non-buffered/non-cached&buffered/cached&write-through/cached&write-back(參考關於cache和write buffer和ARM的cache和寫緩衝器(write buffer)))。
#ifdef pgprot_noncached
static int uncached_access(struct file *file, phys_addr_t addr)
{
#if defined(CONFIG_IA64)
/*
* On ia64, we ignore O_DSYNC because we cannot tolerate memory
* attribute aliases.
*/
return !(efi_mem_attributes(addr) & EFI_MEMORY_WB);
#elif defined(CONFIG_MIPS)
{
extern int __uncached_access(struct file *file,
unsigned long addr);
return __uncached_access(file, addr);
}
#else
/*
* Accessing memory above the top the kernel knows about or through a
* file pointer
* that was marked O_DSYNC will be done non-cached.
*/
if (file->f_flags & O_DSYNC)
return 1;
return addr >= __pa(high_memory);
#endif
}
#endif
static pgprot_t phys_mem_access_prot(struct file *file, unsigned long pfn,
unsigned long size, pgprot_t vma_prot)
{
#ifdef pgprot_noncached
phys_addr_t offset = pfn << PAGE_SHIFT;
if (uncached_access(file, offset))
return pgprot_noncached(vma_prot);
#endif
return vma_prot;
}
"#ifdef pgprot_noncached"如果不支持noncahed的page訪問屬性那麼直接採用用戶空間mmap設定的屬性,否則執行"uncached_access(file, offset)"檢查是否應爲該段內存設置noncached訪問屬性。"uncached_access(file, offset)"針對三種平臺IA64/MIPS/OTHERS提供了三種不同的檢測方式(實際是兩種:MIPS和OTHERS平臺的實現方式是一樣的,體現在"__uncached_access(file, offset)"函數中),對於非IA64平臺如果設置了文件的O_DSYNC位那麼對於文件內存的訪問就應該是noncached的,或者要映射的物理內存位於highmem地址空間,那麼對其的訪問也應該是noncached的。
最後如果支持noncached屬性,那麼就通過"pgprot_noncached(vma_prot)"向vma的protection屬性中添加noncached屬性。
最終調用"remap_pfn_range(vma, vma->vm_start, vma->vm_pgoff, size, vm->vm_page_prot)"實現物理地址到虛擬地址的映射。