linux下ip協議(V4)的實現(四)

這次主要介紹的是ip層的切片與組包的實現。 

首先來看一下分片好的幀的一些概念: 

1 第一個幀的offset位非0並且MF位爲1 

2 所有的在第一個幀和最後一個幀之間的幀都擁有長度大於0的域 

3 最後一個幀MF位爲0 並且offset位非0。(這樣就能判斷是否是最後一個幀了). 

這裏要注意在linux中,ip頭的frag_off域包含了 rfcip頭的定義中的nf,df,以及offset域,因此我們每次需要按位與來取得相應的域的值,看下面 

ip_local_deliver的代碼片段就清楚了: 

Java代碼  收藏代碼
  1. ///取出mf位和offset域,從而決定是否要組包。  
  2. if (ip_hdr(skb)->frag_off & htons(IP_MF | IP_OFFSET)) {  
  3.         if (ip_defrag(skb, IP_DEFRAG_LOCAL_DELIVER))  
  4.             return 0;  
  5.     }  

而fragmentation/defragmentation 子系統的初始化是通過ipfrag_init來實現了,而它是被inet_init來調用的。它主要做的是註冊sys文件系統節點 

,並開啓一個定時器,以及初始化一些相關的變量.這個函數的初始化以及相關的數據結構的詳細介紹,我們會在後面的組包小節中介紹。現在我們先 

來看切片的處理。 

相對於組包,切片邏輯什麼的都比較簡單。切片的主要函數是ip_fragment.它的輸入包包括下面幾種: 

1 要被轉發的包(沒有切片的)。 

2 要被轉發的包(已經被路由器或者源主機切片了的). 

3 被本地函數所創建的buffer,簡而言之也就是本地所要傳輸的數據包(還未加包頭),但是需要被切片的。 

而ip_fragment所必須處理下面幾種情況: 

1 一大塊數據需要被分割爲更小的部分。 

2 一堆數據片段(我的上篇blog有介紹,也就是ip_append_data已經切好的數據包,或者tcp已經切好的數據包)不需要再被切片。 

上面的兩種情況其實就是看高層(4層)協議有沒有做切片工作(按照PMTU)了。如果已經被切片(其實也算不上切片(4層不能處理ip頭),只能說i4層爲 

了ip層更好的處理數據包,從而幫ip層做了一部分工作),則ip層所做的很簡單,就是給每個包加上ip頭就可以了。 

切片分爲兩種類型,一種是fast (或者說 efficient)切片,這種也就是4層已經切好片,這裏只需要加上ip頭就可以了,一種是slow切片,也就是需 

要現在切片。 

下來來看切片的主要任務: 

1 將數據包切片爲MTU大小(通過ptmu). 

2 初始化每一個fragment的ip 頭。還要判斷一些option的copy位,因爲並不是每一種option都要放在所有已切片的fragment 的ip頭中的。 

3 計算ip層的校驗值。 

4 通過netfilter過濾。 

5 update 一些kernel 域以及snmp 統計值。 


接下來來看ip_fragment的具體實現: 

Java代碼  收藏代碼
  1. int ip_fragment(struct sk_buff *skb, int (*output)(struct sk_buff*))  


第一個參數skb表示將要被切片的ip包,第二個參數是一個傳輸切片的輸出函數(切片完畢後就交給這個函數處理)。比如ip_finish_output2類似的。 


這個函數我們來分段看,首先來看它進行切片前的一些準備工作: 


Java代碼  收藏代碼
  1. ///先是取出了一些下面將要使用的變量。  
  2. struct iphdr *iph;  
  3.     int raw = 0;  
  4.     int ptr;  
  5.     struct net_device *dev;  
  6.     struct sk_buff *skb2;  
  7.     unsigned int mtu, hlen, left, len, ll_rs, pad;  
  8.     int offset;  
  9.     __be16 not_last_frag;  
  10. ///路由表  
  11.     struct rtable *rt = skb->rtable;  
  12.     int err = 0;  
  13. ///網絡設備  
  14.     dev = rt->u.dst.dev;  
  15.   
  16. ///ip頭  
  17.     iph = ip_hdr(skb);  
  18. ///判斷DF位,我們知道如果df位被設置了話就表示不要被切片,這時ip_fragment將會發送一個icmp豹紋返回到源主機。這裏主要是爲forward數據所判斷。  
  19.     if (unlikely((iph->frag_off & htons(IP_DF)) && !skb->local_df)) {  
  20.         IP_INC_STATS(dev_net(dev), IPSTATS_MIB_FRAGFAILS);  
  21.         icmp_send(skb, ICMP_DEST_UNREACH, ICMP_FRAG_NEEDED,  
  22.               htonl(ip_skb_dst_mtu(skb)));  
  23.         kfree_skb(skb);  
  24.         return -EMSGSIZE;  
  25.     }  
  26. ///得到ip頭的長度  
  27.     hlen = iph->ihl * 4;  
  28. ///得到mtu的大小。這裏要注意,他的大小減去了hlen,也就是ip頭的大小。  
  29.     mtu = dst_mtu(&rt->u.dst) - hlen;    /* Size of data space */  
  30.     IPCB(skb)->flags |= IPSKB_FRAG_COMPLETE;  


不管是slow還是fast 被切片的任何一個幀如果傳輸失敗,ip_fragment都會立即返回一個錯誤給4層,並且緊跟着的幀也不會再被傳輸,然後將處理方法交給4層去做。 

接下來我們來看fast 切片。 一般用fast切片的都是經由4層的ip_append_data和ip_push_pending函數(udp)將數據包已經切片好的,或者是tcp層已經切片好的數據包,纔會用fast切片. 

這裏要主要幾個問題: 

1 每一個切片的大小都不能超過PMTU。 
2 只有最後一個切片纔會有3層的整個數據包的大小。 
3 每一個切片都必須有足夠的大小來允許2層加上自己的頭。 

我們先看一下skb_pagelen這個函數(下面的處理會用到),這個函數用來得到當前skb的len,首先我們要知道(我前面的blog有介紹)在sk_write_queue 

的sk_buff隊列中,每一個sk_buff的len = x(也就是麼一個第一個切片的包的l4 payload的長度) + S1 (這裏表示所有的frags域的數據的總大小,也 

就是data_len的長度)。可以先看下面的圖: 


 


很容易一目瞭然。 

Java代碼  收藏代碼
  1. static inline int skb_pagelen(const struct sk_buff *skb)  
  2. {  
  3.     int i, len = 0;  
  4. ///我們知道如果設備支持S/G IO的話,nr_frags會包含一些L4 payload,因此我們需要先遍歷nr_frags.然後加入它的長度。  
  5.     for (i = (int)skb_shinfo(skb)->nr_frags - 1; i >= 0; i--)  
  6.         len += skb_shinfo(skb)->frags[i].size;  
  7. ///最後加上skb_headlen,而skb_headlen = skb->len - skb->data_len;因此這裏就會返回這個數據包的len。  
  8.     return len + skb_headlen(skb);  
  9. }  



Java代碼  收藏代碼
  1. ///通過上一篇blog我們知道,如果4層將數據包分片了,那麼就會把這些數據包放到skb的frag_list鏈表中,因此我們這裏首先先判斷frag_list鏈表是否爲空,爲空的話我們將會進行slow 切片。  
  2. if (skb_shinfo(skb)->frag_list) {  
  3.   
  4.         struct sk_buff *frag;  
  5. ///取得第一個數據報的len.我們知道當sk_write_queue隊列被flush後,除了第一個切好包的另外的包都會加入到frag_list中,而這裏我們我們需要得到的第一個包(也就是本身這個sk_buff)的長度。  
  6.         int first_len = skb_pagelen(skb);  
  7.         int truesizes = 0;  
  8. ///接下來的判斷都是爲了確定我們能進行fast切片。切片不能被共享,這是因爲在fast path 中,我們需要加給每個切片不同的ip頭(而並不會複製每個切片)。因此在fast path中是不可接受的。而在slow path中,就算有共享也無所謂,因爲他會複製每一個切片,使用一個新的buff。  
  9.   
  10. ///判斷第一個包長度是否符合一些限制(包括mtu,mf位等一些限制).如果第一個數據報的len沒有包含mtu的大小這裏之所以要把第一個切好片的數據包單獨拿出來檢測,是因爲一些域是第一個包所獨有的(比如IP_MF要爲1)。這裏由於這個mtu是不包括hlen的mtu,因此我們需要減去一個hlen。  
  11.         if (first_len - hlen > mtu ||  
  12.             ((first_len - hlen) & 7) ||  
  13.             (iph->frag_off & htons(IP_MF|IP_OFFSET)) ||  
  14.             skb_cloned(skb))  
  15.             goto slow_path;  
  16. ///遍歷剩餘的frag。  
  17.         for (frag = skb_shinfo(skb)->frag_list; frag; frag = frag->next) {  
  18.             /* Correct geometry. */  
  19. ///判斷每個幀的mtu,以及相關的東西,如果不符合條件則要進行slow path,基本和上面的第一個skb的判斷類似。  
  20.             if (frag->len > mtu ||  
  21.                 ((frag->len & 7) && frag->next) ||  
  22.                 skb_headroom(frag) < hlen)  
  23.                 goto slow_path;  
  24. ///判斷是否共享。  
  25.             /* Partially cloned skb? */  
  26.             if (skb_shared(frag))  
  27.                 goto slow_path;  
  28.   
  29.             BUG_ON(frag->sk);  
  30. ///進行socket的一些操作。  
  31.             if (skb->sk) {  
  32.                 sock_hold(skb->sk);  
  33.                 frag->sk = skb->sk;  
  34.                 frag->destructor = sock_wfree;  
  35.                 truesizes += frag->truesize;  
  36.             }  
  37.         }  
  38.   
  39. ///通過上面的檢測,都通過了,因此我們可以進行fast path切片了。  
  40.   
  41. ///先是設置一些將要處理的變量的值。  
  42.         err = 0;  
  43.         offset = 0;  
  44. ///取得frag_list列表  
  45.         frag = skb_shinfo(skb)->frag_list;  
  46.         skb_shinfo(skb)->frag_list = NULL;  
  47.   
  48. ///得到數據(不包括頭)的大小。  
  49.         skb->data_len = first_len - skb_headlen(skb);  
  50.         skb->truesize -= truesizes;  
  51. ///得到  
  52.         skb->len = first_len;  
  53.         iph->tot_len = htons(first_len);  
  54. ///設置mf位  
  55.         iph->frag_off = htons(IP_MF);  
  56. ///執行校驗  
  57.         ip_send_check(iph);  
  58.   
  59.         for (;;) {  
  60. ///開始進行發送。  
  61.             if (frag) {  
  62. ///設置校驗位  
  63.                 frag->ip_summed = CHECKSUM_NONE;  
  64. ///設置相應的頭部。  
  65.                 skb_reset_transport_header(frag);  
  66.                 __skb_push(frag, hlen);  
  67.                 skb_reset_network_header(frag);  
  68. ///複製ip頭。  
  69.                 memcpy(skb_network_header(frag), iph, hlen);  
  70. ///修改每個切片的ip頭的一些屬性。  
  71.                 iph = ip_hdr(frag);  
  72.                 iph->tot_len = htons(frag->len);  
  73. ///將當前skb的一些屬性付給將要傳遞的切片好的幀。  
  74.                 ip_copy_metadata(frag, skb);  
  75.                 if (offset == 0)  
  76. ///處理ip_option  
  77.                     ip_options_fragment(frag);  
  78.                 offset += skb->len - hlen;  
  79. ///設置位移。  
  80.                 iph->frag_off = htons(offset>>3);  
  81.                 if (frag->next != NULL)  
  82.                     iph->frag_off |= htons(IP_MF);  
  83.                 /* Ready, complete checksum */  
  84.                 ip_send_check(iph);  
  85.             }  
  86. ///調用輸出函數。  
  87.             err = output(skb);  
  88.   
  89.             if (!err)  
  90.                 IP_INC_STATS(dev_net(dev), IPSTATS_MIB_FRAGCREATES);  
  91.             if (err || !frag)  
  92.                 break;  
  93. ///處理鏈表中下一個buf。  
  94.             skb = frag;  
  95.             frag = skb->next;  
  96.             skb->next = NULL;  
  97.         }  
  98.   
  99.         if (err == 0) {  
  100.             IP_INC_STATS(dev_net(dev), IPSTATS_MIB_FRAGOKS);  
  101.             return 0;  
  102.         }  
  103. ///釋放內存。  
  104.         while (frag) {  
  105.             skb = frag->next;  
  106.             kfree_skb(frag);  
  107.             frag = skb;  
  108.         }  
  109.         IP_INC_STATS(dev_net(dev), IPSTATS_MIB_FRAGFAILS);  
  110.         return err;  
  111.     }  



再接下來我們來看slow fragmentation: 

Java代碼  收藏代碼
  1. ///切片開始的位移  
  2. left = skb->len - hlen;      /* Space per frame */  
  3. ///而ptr就是切片開始的指針。  
  4.     ptr = raw + hlen;       /* Where to start from */  
  5.   
  6.     /* for bridged IP traffic encapsulated inside f.e. a vlan header, 
  7.      * we need to make room for the encapsulating header 
  8.      */  
  9. ///處理橋接的相關操作。  
  10.     pad = nf_bridge_pad(skb);  
  11.     ll_rs = LL_RESERVED_SPACE_EXTRA(rt->u.dst.dev, pad);  
  12.     mtu -= pad;  
  13.   
  14. ///其實也就是取出取出ip offset域。  
  15.     offset = (ntohs(iph->frag_off) & IP_OFFSET) << 3;  
  16. ///not_last_frag,顧名思義,其實也就是表明這個幀是否是最後一個切片。  
  17.     not_last_frag = iph->frag_off & htons(IP_MF);  
  18.   
  19.   
  20. ///開始爲循環處理,每一個切片創建一個skb buffer。  
  21.     while (left > 0) {  
  22.         len = left;  
  23. ///如果len大於mtu,我們設置當前的將要切片的數據大小爲mtu。  
  24.         if (len > mtu)  
  25.             len = mtu;  
  26. ///長度也必須位對齊。  
  27.         if (len < left)  {  
  28.             len &= ~7;  
  29.         }  
  30. ///malloc一個新的buff。它的大小包括ip payload,ip head,以及L2 head.  
  31.         if ((skb2 = alloc_skb(len+hlen+ll_rs, GFP_ATOMIC)) == NULL) {  
  32.             NETDEBUG(KERN_INFO "IP: frag: no memory for new fragment!\n");  
  33.             err = -ENOMEM;  
  34.             goto fail;  
  35.         }  
  36. ///調用ip_copy_metadata複製一些相同的值的域。  
  37.         ip_copy_metadata(skb2, skb);  
  38. ///進行skb的相關操作。爲了加上ip頭。  
  39.         skb_reserve(skb2, ll_rs);  
  40.         skb_put(skb2, len + hlen);  
  41.         skb_reset_network_header(skb2);  
  42.         skb2->transport_header = skb2->network_header + hlen;  
  43. ///將每一個分片的ip包都關聯到源包的socket上。  
  44.         if (skb->sk)  
  45.             skb_set_owner_w(skb2, skb->sk);  
  46. ///開始填充新的ip包的數據。  
  47.   
  48. ///先拷貝包頭。  
  49.         skb_copy_from_linear_data(skb, skb_network_header(skb2), hlen);  
  50. ///拷貝數據部分,這個函數實現的比較複雜。  
  51.         if (skb_copy_bits(skb, ptr, skb_transport_header(skb2), len))  
  52.             BUG();  
  53.         left -= len;  
  54. ///填充相應的ip頭。  
  55.         iph = ip_hdr(skb2);  
  56.         iph->frag_off = htons((offset >> 3));  
  57.   
  58. ///第一個包,因此進行ip_option處理。  
  59.         if (offset == 0)  
  60.             ip_options_fragment(skb);  
  61. ///不是最後一個包,因此設置mf位。  
  62.         if (left > 0 || not_last_frag)  
  63.             iph->frag_off |= htons(IP_MF);  
  64. ///移動指針以及更改位移大小。  
  65.         ptr += len;  
  66.         offset += len;  
  67. ///update包頭的大小。  
  68.         iph->tot_len = htons(len + hlen);  
  69. ///重新計算校驗。  
  70.         ip_send_check(iph);  
  71. //最終輸出。  
  72.         err = output(skb2);  
  73.         if (err)  
  74.             goto fail;  
  75.   
  76.         IP_INC_STATS(dev_net(dev), IPSTATS_MIB_FRAGCREATES);  
  77.     }  
  78.     kfree_skb(skb);  
  79.     IP_INC_STATS(dev_net(dev), IPSTATS_MIB_FRAGOKS);  
  80.     return err;  


接下來來看ip組包的實現。首先要知道每一個切片(屬於同一個源包的)的ip包 id都是相同的。 

首先來看相應的數據結構。在內核中,每一個ip包(切片好的)都是一個struct ipq鏈表。而不同的數據包(這裏指不是屬於同一個源包的數據包)都保 

存在一個hash表中。也就是ip4_frags這個變量: 

Java代碼  收藏代碼
  1. static struct inet_frags ip4_frags;  
  2.   
  3. #define INETFRAGS_HASHSZ        64  
  4.   
  5. struct inet_frags {  
  6.     struct hlist_head   hash[INETFRAGS_HASHSZ];  
  7.     rwlock_t        lock;  
  8. ///隨機值,它被用在計算hash值上面,下面會介紹到,過一段時間,內核就會更新這個值。  
  9.     u32         rnd;  
  10.     int         qsize;  
  11.     int         secret_interval;  
  12.     struct timer_list   secret_timer;  
  13. ///hash函數  
  14.     unsigned int        (*hashfn)(struct inet_frag_queue *);  
  15.     void            (*constructor)(struct inet_frag_queue *q,  
  16.                         void *arg);  
  17.     void            (*destructor)(struct inet_frag_queue *);  
  18.     void            (*skb_free)(struct sk_buff *);  
  19.     int         (*match)(struct inet_frag_queue *q,  
  20.                         void *arg);  
  21.     void            (*frag_expire)(unsigned long data);  
  22. };  
  23.   
  24. struct ipq {  
  25.     struct inet_frag_queue q;  
  26.     u32     user;  
  27. ///都是ip頭相關的一些域。  
  28.     __be32      saddr;  
  29.     __be32      daddr;  
  30.     __be16      id;  
  31.     u8      protocol;  
  32.     int             iif;  
  33.     unsigned int    rid;  
  34.     struct inet_peer *peer;  
  35. };  
  36.   
  37. struct inet_frag_queue {  
  38.     struct hlist_node   list;  
  39.     struct netns_frags  *net;  
  40. ///基於LRU算法,主要用在GC上。  
  41.     struct list_head    lru_list;   /* lru list member */  
  42.     spinlock_t      lock;  
  43.     atomic_t        refcnt;  
  44. ///屬於同一個源的數據包的定時器,當定時器到期,切片還沒到達,此時就會drop掉所有的數據切片。  
  45.     struct timer_list   timer;      /* when will this queue expire? */  
  46. ///保存有所有的切片鏈表(從屬於同一個ip包)  
  47.     struct sk_buff      *fragments; /* list of received fragments */  
  48.     ktime_t         stamp;  
  49.     int         len;        /* total length of orig datagram */  
  50. ///表示從源ip包已經接收的字節數。  
  51.     int         meat;  
  52. ///這個域主要可以設置爲下面的3種值。  
  53.     __u8            last_in;    /* first/last segment arrived? */  
  54.   
  55. ///完成,第一個幀以及最後一個幀。  
  56. #define INET_FRAG_COMPLETE  4  
  57. #define INET_FRAG_FIRST_IN  2  
  58. #define INET_FRAG_LAST_IN   1  
  59. };  


看下面的圖就一目瞭然了: 


 


首先來看組包要解決的一些問題: 

1 fragment必須存儲在內存中,知道他們全部都被網絡子系統處理。纔會釋放,因此內存會是個巨大的浪費。 

2 這裏雖然使用了hash表,可是假設惡意攻擊者得到散列算法並且僞造數據包來嘗試着降低一些hash表中的元素的比重,從而使執行變得緩慢。這裏linux使用一個定時器通過製造的隨機數來使hash值的生成不可預測。 

這個定時器的初始化是通過ipfrag_init(它會初始化上面提到的ip4_frags全局變量)調用inet_frags_init進行的: 

Java代碼  收藏代碼
  1. void inet_frags_init(struct inet_frags *f)  
  2. {  
  3.     int i;  
  4.   
  5.     for (i = 0; i < INETFRAGS_HASHSZ; i++)  
  6.         INIT_HLIST_HEAD(&f->hash[i]);  
  7.   
  8.     rwlock_init(&f->lock);  
  9.   
  10.     f->rnd = (u32) ((num_physpages ^ (num_physpages>>7)) ^  
  11.                    (jiffies ^ (jiffies >> 6)));  
  12. ///安裝定時器,當定時器到期就會調用inet_frag_secret_rebuild方法。  
  13.     setup_timer(&f->secret_timer, inet_frag_secret_rebuild,  
  14.             (unsigned long)f);  
  15.     f->secret_timer.expires = jiffies + f->secret_interval;  
  16.     add_timer(&f->secret_timer);  
  17. }  
  18.   
  19. static void inet_frag_secret_rebuild(unsigned long dummy)  
  20. {  
  21. ................................................  
  22.   
  23.     write_lock(&f->lock);  
  24. ///得到隨機值  
  25.     get_random_bytes(&f->rnd, sizeof(u32));  
  26.   
  27. ///然後通過這個隨機值重新計算整個hash表的hash值。  
  28.     for (i = 0; i < INETFRAGS_HASHSZ; i++) {  
  29.         struct inet_frag_queue *q;  
  30.         struct hlist_node *p, *n;  
  31.   
  32.         hlist_for_each_entry_safe(q, p, n, &f->hash[i], list) {  
  33.             unsigned int hval = f->hashfn(q);  
  34.   
  35.             if (hval != i) {  
  36.                 hlist_del(&q->list);  
  37.   
  38.                 /* Relink to new hash chain. */  
  39.                 hlist_add_head(&q->list, &f->hash[hval]);  
  40.             }  
  41.         }  
  42.     }  
  43. ..............................................  
  44. }  


3 ip協議是不可靠的,因此切片有可能被丟失。內核處理這個,是使用了一個定時器(每個數據包(也就是這個切片從屬於的那個數據包)).當定時器到期,而切片沒有到達,就會丟棄這個包。 

4 由於ip協議是無連接的,因此當高層決定重傳數據包的時候,組包時有可能會出現多個重複分片的情況。這是因爲ip包是由4個域來判斷的,源和目的地址,包id以及4層的協議類型。而最主要的是包id。可是包id只有16位,因此一個gigabit網卡幾乎在半秒時間就能用完這個id一次。而第二次重傳的數據包有可能走的和第一個第一次時不同的路徑,因此內核必須每個切片都要檢測和前面接受的切片的重疊情況的發生。 

先來看ip_defrag用到的幾個函數: 

inet_frag_create: 
創建一個新的ipq實例 

ip_evitor: 

remove掉所有的未完成的數據包。它每次都會update一個LRU鏈表。每次都會把一個新的ipq數據結構加到ipq_lru_list的結尾。 

ip_find: 

發現切片所從屬的數據包的切片鏈表。 

ip_frag_queue: 

排隊一個給定的切片刀一個切片列表。這個經常和上一個方法一起使用。 

ip_frag_reasm: 

當所有的切片都到達後,build一個ip數據包。 

ip_frag_destroy: 
remove掉傳進來的ipq數據結構。包括和他有聯繫的所有的ip切片。 

ipq_put: 

將引用計數減一,如果爲0,則直接調用ip_frag_destroy. 

Java代碼  收藏代碼
  1. static inline void inet_frag_put(struct inet_frag_queue *q, struct inet_frags *f)  
  2. {  
  3.     if (atomic_dec_and_test(&q->refcnt))  
  4.         inet_frag_destroy(q, f, NULL);  
  5. }  


ipq_kill 

主要用在gc上,標記一個ipq數據結構可以被remove,由於一些幀沒有按時到達。 

接下來來看ip_defrag的實現。 

Java代碼  收藏代碼
  1. int ip_defrag(struct sk_buff *skb, u32 user)  
  2. {  
  3.     struct ipq *qp;  
  4.     struct net *net;  
  5.   
  6.     net = skb->dev ? dev_net(skb->dev) : dev_net(skb->dst->dev);  
  7.     IP_INC_STATS_BH(net, IPSTATS_MIB_REASMREQDS);  
  8.   
  9. ///如果內存不夠,則依據lru算法進行清理。  
  10.     if (atomic_read(&net->ipv4.frags.mem) > net->ipv4.frags.high_thresh)  
  11.         ip_evictor(net);  
  12.   
  13. ///查找相應的iqp,如果不存在則會新創建一個(這些都在ip_find裏面實現)  
  14.     if ((qp = ip_find(net, ip_hdr(skb), user)) != NULL) {  
  15.         int ret;  
  16.   
  17.         spin_lock(&qp->q.lock);  
  18. ///排隊進隊列。  
  19.         ret = ip_frag_queue(qp, skb);  
  20.   
  21.         spin_unlock(&qp->q.lock);  
  22.         ipq_put(qp);  
  23.         return ret;  
  24.     }  
  25.   
  26.     IP_INC_STATS_BH(net, IPSTATS_MIB_REASMFAILS);  
  27.     kfree_skb(skb);  
  28.     return -ENOMEM;  
  29. }  



我們可以看到這裏最重要的一個函數其實是ip_frag_queue,它主要任務是: 

1 發現輸入幀在源包的位置。 
2 基於blog剛開始所描述的,判斷是否是最後一個切片。 
3 插入切片到切片列表(從屬於相同的ip包) 
4 update 垃圾回收所用到的ipq的一些相關域。 
5 校驗l4層的校驗值(在硬件計算). 


Java代碼  收藏代碼
  1. ///其中qp是源ip包的所有切片鏈表,而skb是將要加進來切片。  
  2. static int ip_frag_queue(struct ipq *qp, struct sk_buff *skb)  
  3. {  
  4. .............................  
  5. /// INET_FRAG_COMPLETE表示所有的切片包都已經抵達,這個時侯就不需要再組包了,因此這裏就是校驗函數有沒有被錯誤的調用。  
  6.     if (qp->q.last_in & INET_FRAG_COMPLETE)  
  7.         goto err;  
  8. .................................................  
  9. ///將offset 8字節對齊、  
  10.     offset = ntohs(ip_hdr(skb)->frag_off);  
  11.     flags = offset & ~IP_OFFSET;  
  12.     offset &= IP_OFFSET;  
  13.     offset <<= 3;     /* offset is in 8-byte chunks */  
  14.     ihl = ip_hdrlen(skb);  
  15.   
  16. ///計算這個新的切片包的結束位置。  
  17.     end = offset + skb->len - ihl;  
  18.     err = -EINVAL;  
  19.   
  20. ///MF沒有設置,表明這個幀是最後一個幀。進入相關處理。  
  21.     if ((flags & IP_MF) == 0) {  
  22.         /* If we already have some bits beyond end 
  23.          * or have different end, the segment is corrrupted. 
  24.          */  
  25. ///設置相應的len位置,以及last_in域。  
  26.         if (end < qp->q.len ||  
  27.             ((qp->q.last_in & INET_FRAG_LAST_IN) && end != qp->q.len))  
  28.             goto err;  
  29.         qp->q.last_in |= INET_FRAG_LAST_IN;  
  30.         qp->q.len = end;  
  31.     } else {  
  32. ///除了最後一個切片,每個切片都必須是8字節的倍數。  
  33.         if (end&7) {  
  34. ///不是8字節的倍數,kernel截斷這個切片。此時就需要l4層的校驗重新計算,因此設置ip_summed爲 CHECKSUM_NONE  
  35.             end &= ~7;  
  36.             if (skb->ip_summed != CHECKSUM_UNNECESSARY)  
  37.                 skb->ip_summed = CHECKSUM_NONE;  
  38.         }  
  39.         if (end > qp->q.len) {  
  40. ///數據包太大,並且是最後一個包,則表明這個數據包出錯,因此drop它。  
  41.             /* Some bits beyond end -> corruption. */  
  42.             if (qp->q.last_in & INET_FRAG_LAST_IN)  
  43.                 goto err;  
  44.             qp->q.len = end;  
  45.         }  
  46.     }  
  47. ///ip頭不能被切片,因此end肯定會大於offset。  
  48.     if (end == offset)  
  49.         goto err;  
  50.   
  51.     err = -ENOMEM;  
  52. ///remove掉ip頭。  
  53.     if (pskb_pull(skb, ihl) == NULL)  
  54.         goto err;  
  55. ///trim掉一些padding,然後重新計算checksum。  
  56.     err = pskb_trim_rcsum(skb, end - offset);  
  57.     if (err)  
  58.         goto err;  
  59.   
  60. ///接下來遍歷並將切片(爲了找出當前將要插入的切片的位置),是以offset爲基準。這裏要合租要FRAG_CB宏是用來提取sk_buff->cb域。  
  61.     prev = NULL;  
  62.     for (next = qp->q.fragments; next != NULL; next = next->next) {  
  63.         if (FRAG_CB(next)->offset >= offset)  
  64.             break;  /* bingo! */  
  65.         prev = next;  
  66.     }  
  67. ///當prev!=NULL時,說明這個切片要插入到列表當中。  
  68.     if (prev) {  
  69. ///計算有沒有重疊。  
  70.         int i = (FRAG_CB(prev)->offset + prev->len) - offset;  
  71. ///大於0.證明有重疊,因此進行相關處理  
  72.         if (i > 0) {  
  73. ///將重疊部分用新的切片覆蓋。  
  74.             offset += i;  
  75.             err = -EINVAL;  
  76.             if (end <= offset)  
  77.                 goto err;  
  78.             err = -ENOMEM;  
  79. //移動i個位置。  
  80.             if (!pskb_pull(skb, i))  
  81.                 goto err;  
  82. ///需要重新計算L4的校驗。  
  83.             if (skb->ip_summed != CHECKSUM_UNNECESSARY)  
  84.                 skb->ip_summed = CHECKSUM_NONE;  
  85.         }  
  86.     }  
  87.   
  88.     err = -ENOMEM;  
  89. ///  
  90.     while (next && FRAG_CB(next)->offset < end) {  
  91. ///和上面的判斷很類似,也是先計算重疊數。這裏要注意重疊分爲兩種情況:1;一個或多個切片被新的切片完全覆蓋。2;被部分覆蓋,因此這裏我們需要分兩種情況進行處理。  
  92.         int i = end - FRAG_CB(next)->offset; /* overlap is 'i' bytes */  
  93.   
  94.         if (i < next->len) {  
  95. ///被部分覆蓋的情況。將新的切片offset移動i字節,然後remove掉老的切片中的i個字節。  
  96.             /* Eat head of the next overlapped fragment 
  97.              * and leave the loop. The next ones cannot overlap. 
  98.              */  
  99.             if (!pskb_pull(next, i))  
  100.                 goto err;  
  101.             FRAG_CB(next)->offset += i;  
  102. ///將接收到的源數據報的大小減去i,也就是remove掉不完全覆蓋的那一部分。  
  103.             qp->q.meat -= i;  
  104. ///重新計算l4層的校驗。  
  105.             if (next->ip_summed != CHECKSUM_UNNECESSARY)  
  106.                 next->ip_summed = CHECKSUM_NONE;  
  107.             break;  
  108.         } else {  
  109. ///老的切片完全被新的切片覆蓋,此時只需要remove掉老的切片就可以了。  
  110.             struct sk_buff *free_it = next;  
  111.             next = next->next;  
  112.   
  113.             if (prev)  
  114.                 prev->next = next;  
  115.             else  
  116.                 qp->q.fragments = next;  
  117. ///將qp的接受字節數更新。  
  118.             qp->q.meat -= free_it->len;  
  119.             frag_kfree_skb(qp->q.net, free_it, NULL);  
  120.         }  
  121.     }  
  122.   
  123.     FRAG_CB(skb)->offset = offset;  
  124.   
  125. ....................................................  
  126.     atomic_add(skb->truesize, &qp->q.net->mem);  
  127. ///offset爲0說明是第一個切片,因此設置相應的位。  
  128.     if (offset == 0)  
  129.         qp->q.last_in |= INET_FRAG_FIRST_IN;  
  130.   
  131.     if (qp->q.last_in == (INET_FRAG_FIRST_IN | INET_FRAG_LAST_IN) &&  
  132.         qp->q.meat == qp->q.len)  
  133. ///所有條件的滿足了,就開始buildip包。  
  134.         return ip_frag_reasm(qp, prev, dev);  
  135.     write_lock(&ip4_frags.lock);  
  136. ///從將此切片加入到lry鏈表中。  
  137.     list_move_tail(&qp->q.lru_list, &qp->q.net->lru_list);  
  138.     write_unlock(&ip4_frags.lock);  
  139.     return -EINPROGRESS;  
  140.   
  141. err:  
  142.     kfree_skb(skb);  
  143.     return err;  
  144. }  


如果網絡設備提供L4層的硬件校驗的話,輸入ip幀還會進行L4的校驗計算。當幀通過ip_frag_reasm組合好,它會進行校驗的重新計算。我們這裏通過設置skb->ip_summed到CHECKSUM_NONE,來表示需要嬌豔的標誌。 

最後來看下GC。 

內核爲ip切片數據包實現了兩種類型的垃圾回收。 

1 系統內存使用限制。 

2 組包的定時器 

這裏有一個全局的ip_frag_mem變量,來表示當前被切片所佔用的內存數。每次一個新的切片被加入,這個值都會更新。而所能使用的最大內存可以在運行時改變,是通過/proc的sysctl_ipfrag_high_thresh來改變的,因此我們能看到當ip_defrag時,一開始會先判斷內存的限制: 

Java代碼  收藏代碼
  1. if (atomic_read(&net->ipv4.frags.mem) > net->ipv4.frags.high_thresh)  
  2.         ip_evictor(net);  


當一個切片數據包到達後,內核會啓動一個組包定時器,他是爲了避免一個數據包占據ipq_hash太長時間,因此當定時器到期後,它就會清理掉在hash表中的相應的qp結構(也就是所有的未完成切片包).這個處理函數就是ip_expire,它的初始化是在ipfrag_init進行的。: 

Java代碼  收藏代碼
  1. static void ip_expire(unsigned long arg)  
  2. {  
  3.     struct ipq *qp;  
  4.     struct net *net;  
  5. ///取出相應的qp,以及net域。  
  6.     qp = container_of((struct inet_frag_queue *) arg, struct ipq, q);  
  7.     net = container_of(qp->q.net, struct net, ipv4.frags);  
  8.   
  9.     spin_lock(&qp->q.lock);  
  10. ///如果數據包已經傳輸完畢,則不進行任何處理,直接退出。  
  11.     if (qp->q.last_in & INET_FRAG_COMPLETE)  
  12.         goto out;  
  13. ///調用ipq_kill,這個函數主要是減少qp的引用計數,並從相關鏈表(比如LRU_LIST)中移除它。  
  14.     ipq_kill(qp);  
  15.   
  16.     IP_INC_STATS_BH(net, IPSTATS_MIB_REASMTIMEOUT);  
  17.     IP_INC_STATS_BH(net, IPSTATS_MIB_REASMFAILS);  
  18.   
  19. ///如果是第一個切片,則發送一個ICMP給源主機。  
  20.     if ((qp->q.last_in & INET_FRAG_FIRST_IN) && qp->q.fragments != NULL) {  
  21.         struct sk_buff *head = qp->q.fragments;  
  22.   
  23.         /* Send an ICMP "Fragment Reassembly Timeout" message. */  
  24.         if ((head->dev = dev_get_by_index(net, qp->iif)) != NULL) {  
  25.             icmp_send(head, ICMP_TIME_EXCEEDED, ICMP_EXC_FRAGTIME, 0);  
  26.             dev_put(head->dev);  
  27.         }  
  28.     }  
  29. out:  
  30.     spin_unlock(&qp->q.lock);  
  31.     ipq_put(qp);  
  32. }  
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章