轉載:Linux夥伴系統(三)--分配頁

轉載自: http://blog.csdn.net/vanbreaker/article/details/7621289


前面已經介紹了夥伴系統的原理和Linux夥伴系統的數據結構,現在來看夥伴系統是如何來分配頁面的。實際上,夥伴系統分配頁面的算法並不複雜,但是由於考慮到分配內存時要儘量減少碎片的產生(涉及遷移機制)以及當內存不足時需要採取各種更爲積極的手段,使得內核分配頁面的相關函數完整地分析起來比較複雜龐大。在這裏,我們只關注分配時最一般的情況,而其他情況的處理在以後單獨拿出來討論。

       我們從__alloc_pages_nodemask()這個函數開始分析,所有的分配頁面的函數最終都會落到這個函數上面,它是夥伴系統的入口。

 

  1. <span style="font-size:12px;">struct page *  
  2. __alloc_pages_nodemask(gfp_t gfp_mask, unsigned int order,  
  3.             struct zonelist *zonelist, nodemask_t *nodemask)  
  4. {  
  5.     /*根據gfp_mask確定分配頁所處的管理區*/  
  6.     enum zone_type high_zoneidx = gfp_zone(gfp_mask);  
  7.     struct zone *preferred_zone;  
  8.     struct page *page;  
  9.     /*根據gfp_mask得到遷移類分配頁的型*/  
  10.     int migratetype = allocflags_to_migratetype(gfp_mask);  
  11.   
  12.     gfp_mask &= gfp_allowed_mask;  
  13.   
  14.     lockdep_trace_alloc(gfp_mask);  
  15.   
  16.     might_sleep_if(gfp_mask & __GFP_WAIT);  
  17.   
  18.     if (should_fail_alloc_page(gfp_mask, order))  
  19.         return NULL;  
  20.   
  21.     /* 
  22.      * Check the zones suitable for the gfp_mask contain at least one 
  23.      * valid zone. It's possible to have an empty zonelist as a result 
  24.      * of GFP_THISNODE and a memoryless node 
  25.      */  
  26.     if (unlikely(!zonelist->_zonerefs->zone))  
  27.         return NULL;  
  28.   
  29.     /* The preferred zone is used for statistics later */  
  30.     /*從zonelist中找到zone_idx與high_zoneidx相同的管理區,也就是之前認定的管理區*/  
  31.     first_zones_zonelist(zonelist, high_zoneidx, nodemask, &preferred_zone);  
  32.     if (!preferred_zone)  
  33.         return NULL;  
  34.   
  35.     /* First allocation attempt */  
  36.     page = get_page_from_freelist(gfp_mask|__GFP_HARDWALL, nodemask, order,  
  37.             zonelist, high_zoneidx, ALLOC_WMARK_LOW|ALLOC_CPUSET,  
  38.             preferred_zone, migratetype);  
  39.     if (unlikely(!page))  
  40.         /*第一次分配失敗的話則會用通過一條低速路徑來進行第二次分配,包括喚醒頁換出守護進程等等*/  
  41.         page = __alloc_pages_slowpath(gfp_mask, order,  
  42.                 zonelist, high_zoneidx, nodemask,  
  43.                 preferred_zone, migratetype);  
  44.   
  45.     trace_mm_page_alloc(page, order, gfp_mask, migratetype);  
  46.     return page;  
  47. }</span>  
  • 首先要做的就是找到指定的分配管理區,管理區的編號保存在high_zoneidx中
  • 然後就是嘗試第一次分配,流程是從指定的管理區開始掃描管理區-->找到充足的管理區-->從指定的遷移類型鏈表中分配內存-->如果在指定遷移類型中找不到則到其他的遷移類型中去尋找
  • 如果第二步在各個區域都找不到可以滿足分配的內存了,那麼說明管理區的內存已經確實不夠了,於是開始啓用一條慢速的途徑來分配,包括嘗試去換出一些不經常使用的頁等等,內核會在這次分配中表現得更爲積極,其中的細節涉及到了其他一些複雜的東西,以後再做分析
  1. static struct page *  
  2. get_page_from_freelist(gfp_t gfp_mask, nodemask_t *nodemask, unsigned int order,  
  3.         struct zonelist *zonelist, int high_zoneidx, int alloc_flags,  
  4.         struct zone *preferred_zone, int migratetype)  
  5. {  
  6.     struct zoneref *z;  
  7.     struct page *page = NULL;  
  8.     int classzone_idx;  
  9.     struct zone *zone;  
  10.     nodemask_t *allowednodes = NULL;/* zonelist_cache approximation */  
  11.     int zlc_active = 0;     /* set if using zonelist_cache */  
  12.     int did_zlc_setup = 0;      /* just call zlc_setup() one time */  
  13.   
  14.     /*獲取管理區的編號*/  
  15.     classzone_idx = zone_idx(preferred_zone);  
  16. zonelist_scan:  
  17.     /* 
  18.      * Scan zonelist, looking for a zone with enough free. 
  19.      * See also cpuset_zone_allowed() comment in kernel/cpuset.c. 
  20.      */  
  21.     /*從認定的管理區開始遍歷,直到找到一個擁有足夠空間的管理區, 
  22.       例如,如果high_zoneidx對應的ZONE_HIGHMEM,則遍歷順序爲HIGHMEM-->NORMAL-->DMA, 
  23.       如果high_zoneidx對應ZONE_NORMAL,則遍歷順序爲NORMAL-->DMA*/  
  24.     for_each_zone_zonelist_nodemask(zone, z, zonelist,  
  25.                         high_zoneidx, nodemask) {  
  26.         if (NUMA_BUILD && zlc_active &&  
  27.             !zlc_zone_worth_trying(zonelist, z, allowednodes))  
  28.                 continue;  
  29.   
  30.         /*檢查給定的內存域是否屬於該進程允許運行的CPU*/  
  31.         if ((alloc_flags & ALLOC_CPUSET) &&  
  32.             !cpuset_zone_allowed_softwall(zone, gfp_mask))  
  33.                 goto try_next_zone;  
  34.   
  35.         BUILD_BUG_ON(ALLOC_NO_WATERMARKS < NR_WMARK);  
  36.         if (!(alloc_flags & ALLOC_NO_WATERMARKS)) {  
  37.             unsigned long mark;  
  38.             int ret;  
  39.               
  40.             /*通過alloc_flags來確定是使用何種水印,pages_min?pages_low?pages_high? 
  41.               選擇了一種水印,就要求分配後的空閒不低於該水印才能進行分配*/  
  42.             mark = zone->watermark[alloc_flags & ALLOC_WMARK_MASK];  
  43.   
  44.             /*如果管理區的水位線處於正常水平,則在該管理區進行分配*/  
  45.             if (zone_watermark_ok(zone, order, mark,  
  46.                     classzone_idx, alloc_flags))  
  47.                 goto try_this_zone;  
  48.   
  49.             if (zone_reclaim_mode == 0)  
  50.                 goto this_zone_full;  
  51.   
  52.             /*下面這部分都是針對NUMA架構的申請頁面回收*/  
  53.             ret = zone_reclaim(zone, gfp_mask, order);  
  54.             switch (ret) {  
  55.             case ZONE_RECLAIM_NOSCAN:/*沒有進行回收*/  
  56.                 /* did not scan */  
  57.                 goto try_next_zone;  
  58.             case ZONE_RECLAIM_FULL:  /*沒有找到可回收的頁面*/  
  59.                 /* scanned but unreclaimable */  
  60.                 goto this_zone_full;  
  61.             default:  
  62.                 /* did we reclaim enough */  
  63.                 if (!zone_watermark_ok(zone, order, mark,  
  64.                         classzone_idx, alloc_flags))  
  65.                     goto this_zone_full;  
  66.             }  
  67.         }  
  68.   
  69. try_this_zone:/*分配2^order個頁*/  
  70.         page = buffered_rmqueue(preferred_zone, zone, order,  
  71.                         gfp_mask, migratetype);  
  72.         if (page)  
  73.             break;  
  74. this_zone_full:  
  75.         if (NUMA_BUILD)  
  76.             zlc_mark_zone_full(zonelist, z);  
  77. try_next_zone:  
  78.         if (NUMA_BUILD && !did_zlc_setup && nr_online_nodes > 1) {  
  79.             /* 
  80.              * we do zlc_setup after the first zone is tried but only 
  81.              * if there are multiple nodes make it worthwhile 
  82.              */  
  83.             allowednodes = zlc_setup(zonelist, alloc_flags);  
  84.             zlc_active = 1;  
  85.             did_zlc_setup = 1;  
  86.         }  
  87.     }  
  88.   
  89.     if (unlikely(NUMA_BUILD && page == NULL && zlc_active)) {  
  90.         /* Disable zlc cache for second zonelist scan */  
  91.         zlc_active = 0;  
  92.         goto zonelist_scan;  
  93.     }  
  94.     return page;  
  95. }  



  • 從指定的管理區開始按照zonelist中定義的順序來遍歷管理區
  • 如果該管理區的水位線正常,則調用buffered_rmqueue()在該管理區中分配
  • 如果管理區的水位線過低,則在NUMA架構下會申請頁面回收
  1. <span style="font-size:12px;">static inline  
  2. struct page *buffered_rmqueue(struct zone *preferred_zone,  
  3.             struct zone *zone, int order, gfp_t gfp_flags,  
  4.             int migratetype)  
  5. {  
  6.     unsigned long flags;  
  7.     struct page *page;  
  8.     int cold = !!(gfp_flags & __GFP_COLD);  
  9.     int cpu;  
  10.   
  11. again:  
  12.     cpu  = get_cpu();  
  13.     if (likely(order == 0)) {/*order爲0,即要求分配一個頁*/  
  14.         struct per_cpu_pages *pcp;  
  15.         struct list_head *list;  
  16.   
  17.         pcp = &zone_pcp(zone, cpu)->pcp;/*獲取本地CPU對應的pcp*/  
  18.         list = &pcp->lists[migratetype];/*獲取和遷移類型對應的鏈表*/  
  19.         local_irq_save(flags);  
  20.   
  21.         /*如果鏈表爲空,則表示沒有可分配的頁,需要從夥伴系統中分配2^batch個頁給list*/  
  22.         if (list_empty(list)) {  
  23.             pcp->count += rmqueue_bulk(zone, 0,  
  24.                     pcp->batch, list,  
  25.                     migratetype, cold);  
  26.             if (unlikely(list_empty(list)))  
  27.                 goto failed;  
  28.         }  
  29.   
  30.         if (cold)/*如果是需要冷頁,則從鏈表的尾部獲取*/  
  31.             page = list_entry(list->prev, struct page, lru);  
  32.         else     /*如果是需要熱頁,則從鏈表的頭部獲取*/  
  33.             page = list_entry(list->next, struct page, lru);  
  34.           
  35.         list_del(&page->lru);  
  36.         pcp->count--;  
  37.     } else {  
  38.         if (unlikely(gfp_flags & __GFP_NOFAIL)) {  
  39.             /* 
  40.              * __GFP_NOFAIL is not to be used in new code. 
  41.              * 
  42.              * All __GFP_NOFAIL callers should be fixed so that they 
  43.              * properly detect and handle allocation failures. 
  44.              * 
  45.              * We most definitely don't want callers attempting to 
  46.              * allocate greater than order-1 page units with 
  47.              * __GFP_NOFAIL. 
  48.              */  
  49.             WARN_ON_ONCE(order > 1);  
  50.         }  
  51.         spin_lock_irqsave(&zone->lock, flags);  
  52.         /*從管理區的夥伴系統中選擇合適的內存塊進行分配*/  
  53.         page = __rmqueue(zone, order, migratetype);  
  54.         spin_unlock(&zone->lock);  
  55.         if (!page)  
  56.             goto failed;  
  57.         __mod_zone_page_state(zone, NR_FREE_PAGES, -(1 << order));  
  58.     }  
  59.   
  60.     __count_zone_vm_events(PGALLOC, zone, 1 << order);  
  61.     zone_statistics(preferred_zone, zone);  
  62.     local_irq_restore(flags);  
  63.     put_cpu();  
  64.   
  65.     VM_BUG_ON(bad_range(zone, page));  
  66.     if (prep_new_page(page, order, gfp_flags))  
  67.         goto again;  
  68.     return page;  
  69.   
  70. failed:  
  71.     local_irq_restore(flags);  
  72.     put_cpu();  
  73.     return NULL;  
  74. }  
  75. </span>  

 

  • 該函數分兩種情況進行處理,一種是隻要求分配單個頁框,另一種是要求分配多個連續頁框
  • 對於單個頁面,內核選擇從每CPU頁框高速緩存中分配,它的核心描述結構也是MIGRATE_TYPES個鏈表,只不過鏈表中的元素都是單個頁。這些頁分爲熱頁和冷頁,所謂熱頁就是還處在CPU高速緩存中的頁,相反,冷頁就是不存在於高速緩存中的頁。對於單個頁框的申請,分配熱頁可以提高效率。需要注意的是,越靠近鏈表頭的頁越熱,越靠近鏈表尾的頁越冷,因爲每次釋放單個頁框的時候,頁框是插入到鏈表的頭部的,也就是說靠近頭部的頁框是最近才釋放的,因此最有可能存在於高速緩存當中
  • 對於連續的頁框分配,通過調用__rmqueue()來完成分配
  1. <span style="font-size:12px;">static struct page *__rmqueue(struct zone *zone, unsigned int order,  
  2.                         int migratetype)  
  3. {  
  4.     struct page *page;  
  5.   
  6. retry_reserve:  
  7.       
  8.     page = __rmqueue_smallest(zone, order, migratetype);  
  9.   
  10.     /*如果分配失敗並且遷移類型不是MIGRATE_RESERVE(如果是MIGRATE_RESERVE, 
  11.       則表明已經沒有其他的遷移類型可供選擇了)*/  
  12.     if (unlikely(!page) && migratetype != MIGRATE_RESERVE) {  
  13.         page = __rmqueue_fallback(zone, order, migratetype);  
  14.   
  15.         /* 
  16.          * Use MIGRATE_RESERVE rather than fail an allocation. goto 
  17.          * is used because __rmqueue_smallest is an inline function 
  18.          * and we want just one call site 
  19.          */  
  20.         if (!page) {  
  21.             migratetype = MIGRATE_RESERVE;  
  22.             goto retry_reserve;  
  23.         }  
  24.     }  
  25.   
  26.     trace_mm_page_alloc_zone_locked(page, order, migratetype);  
  27.     return page;  
  28. }  
  29. </span>  

 

  • 首先按照指定的遷移類型,調用__rmqueue_smallest()來分配對應的內存塊,該函數是夥伴系統的算法體現
  • 如果分配失敗,則說明指定的遷移類型中沒有充足的內存來滿足分配,這時就要按fallbacks中定義的順序從其他的遷移鏈表中尋找了,__rmqueue_fallback()函數較爲複雜,體現了利用遷移類型來避免碎片的思想,後面單獨拿出來分析
  1. static inline  
  2. struct page *__rmqueue_smallest(struct zone *zone, unsigned int order,  
  3.                         int migratetype)  
  4. {  
  5.     unsigned int current_order;  
  6.     struct free_area * area;  
  7.     struct page *page;  
  8.   
  9.     /* Find a page of the appropriate size in the preferred list */  
  10.     for (current_order = order; current_order < MAX_ORDER; ++current_order) {  
  11.   
  12.         /*獲取和現在的階數對應的free_area*/  
  13.         area = &(zone->free_area[current_order]);  
  14.   
  15.         /*和遷移類型對應的free_list爲空則不執行下面的內容*/  
  16.         if (list_empty(&area->free_list[migratetype]))  
  17.             continue;  
  18.           
  19.         /*得到滿足要求的頁塊中的第一個頁描述符*/  
  20.         page = list_entry(area->free_list[migratetype].next,  
  21.                             struct page, lru);  
  22.         list_del(&page->lru);  
  23.         rmv_page_order(page);/*將page的private域設爲0*/  
  24.         area->nr_free--;         /*內存塊數減1*/  
  25.           
  26.         /*進行拆分(在current_order>order的情況下)*/  
  27.         expand(zone, page, order, current_order, area, migratetype);  
  28.         return page;  
  29.     }  
  30.   
  31.     return NULL;  
  32. }  
  1.    
  2.   
  3. static inline void expand(struct zone *zone, struct page *page,  
  4.     int low, int high, struct free_area *area,  
  5.     int migratetype)  
  6. {  
  7.     unsigned long size = 1 << high;/*order爲high的頁塊對應的頁框數*/  
  8.   
  9.     /*申請的order爲low,實際分配的塊對應的order爲high 
  10.       如果high大於low則要將大塊進行拆分,並且將拆分後的夥伴塊添加到下一級order的塊鏈表中去*/  
  11.     while (high > low) {  
  12.         area--;/*area減1得到下一級order對應的area*/  
  13.         high--;/*high減1表明進行了一次拆分*/  
  14.         size >>= 1;/*拆分一次size就要除以2*/  
  15.         VM_BUG_ON(bad_range(zone, &page[size]));  
  16.   
  17.         /*通過size來定位拆分後的夥伴塊的起始頁框描述符, 
  18.         並將其作爲第一個塊添加到下一級order的塊鏈表中*/  
  19.         list_add(&page[size].lru, &area->free_list[migratetype]);  
  20.         area->nr_free++;/*該order區域的塊數加1*/  
  21.         set_page_order(&page[size], high);/*設定private域爲high*/  
  22.     }  
  23. }  
  24.   
  25.    
只需要注意一點,一個塊的定位可以由塊首的起始頁對應的描述符和order(size)來定位,因此只需要將一個塊的第一個頁描述符鏈入相應的鏈表就可以了。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章