Linux網卡驅動程序分析

學習應該是一個先把問題簡單化，再把問題複雜化的過程。一開始就着手處理複雜的問題，難免讓人有心驚膽顫，捉襟見肘的感覺。讀Linux網卡驅動也是一樣。那長長的源碼夾雜着那些我們陌生的變量和符號，望而生畏便是理所當然的了。不要擔心，事情總有解決的辦法，先把一些我們管不着的代碼切割出去，留下必須的部分，把框架掌握了，那其他的事情自然就水到渠成了，這是筆者的心得。

　　一般在使用的Linux網卡驅動代碼動輒3000行左右，這個代碼量以及它所表達出來的知識量無疑是龐大的，我們有沒有辦法縮短一下這個代碼量，使我們的學習變的簡單些呢？經過筆者的不懈努力，在仍然能夠使網絡設備正常工作的前提下，把它縮減到了600多行，我們把暫時還用不上的功能先割出去。這樣一來，事情就簡單多了，真的就剩下一個框架了。

　　下面我們就來剖析這個可以執行的框架。

　　限於篇幅，以下分析用到的所有涉及到內核中的函數代碼，我都不予列出，但給出在哪個具體文件中，請讀者自行查閱。

　　首先，我們來看看設備的初始化。當我們正確編譯完我們的程序後，我們就需要把生成的目標文件加載到內核中去，我們會先 ifconfig eth0 down和rmmod 8139too來卸載正在使用的網卡驅動，然後insmod 8139too.o把我們的驅動加載進去（其中8139too.o是我們編譯生成的目標文件）。就像C程序有主函數main（）一樣，模塊也有第一個執行的函數，即 module_init(rtl8139_init_module);在我們的程序中，rtl8139_init_module（）在insmod之後首先執行，它的代碼如下：

　　static int __init rtl8139_init_module (void)

　　{

　　return pci_module_init (&rtl8139_pci_driver);

　　}

　　它直接調用了pci_module_init（），這個函數代碼在Linux/drivers/net/eepro100.c中，並且把 rtl8139_pci_driver（這個結構是在我們的驅動代碼裏定義的，它是驅動程序和PCI設備聯繫的紐帶）的地址作爲參數傳給了它。 rtl8139_pci_driver定義如下：

　　static struct pci_driver rtl8139_pci_driver = {

　　name: MODNAME,

　　id_table: rtl8139_pci_tbl,

　　probe: rtl8139_init_one,

　　remove: rtl8139_remove_one,

　　};

　　pci_module_init（）在驅動代碼裏沒有定義，你一定想到了，它是Linux內核提供給模塊是一個標準接口，那麼這個接口都幹了些什麼？筆者跟蹤了這個函數，裏面調用了pci_register_driver（），這個函數代碼在Linux/drivers/pci/pci.c 中，pci_register_driver做了三件事情。

　　①是把帶過來的參數rtl8139_pci_driver在內核中進行了註冊。內核中有一個PCI設備的大的鏈表，這裏負責把這個PCI驅動掛到裏面去。

　　②是查看總線上所有PCI設備（網卡設備屬於PCI設備的一種）的配置空間，如果發現標識信息與rtl8139_pci_driver中的id_table相同，即rtl8139_pci_tbl，而它的定義如下：

　　static struct pci_device_id rtl8139_pci_tbl[] __devinitdata = {

　　{0x10ec, 0x8129, PCI_ANY_ID, PCI_ANY_ID, 0, 0, 1},

　　{PCI_ANY_ID, 0x8139, 0x10ec, 0x8139, 0, 0,0 },

　　{0,}

　　};

　　那麼就說明這個驅動程序就是用來驅動這個設備的，於是調用rtl8139_pci_driver中的probe函數即 rtl8139_init_one,這個函數是在我們的驅動程序中定義了的，它是用來初始化整個設備和做一些準備工作。這裏需要注意一下 pci_device_id是內核定義的用來辨別不同PCI設備的一個結構，例如在我們這裏0x10ec代表的是Realtek公司，我們掃描PCI設備配置空間如果發現有Realtek公司製造的設備時，兩者就對上了。當然對上了公司號後還得看其他的設備號什麼的，都對上了才說明這個驅動是可以爲這個設備服務的。

　　③是把這個rtl8139_pci_driver結構掛在這個設備的數據結構（pci_dev）上，表示這個設備從此就有了自己的驅動了。而驅動也找到了它服務的對象了。

　　PCI是一個總線標準，PCI總線上的設備就是PCI設備，這些設備有很多類型，當然也包括網卡設備，每一個PCI設備在內核中抽象爲一個數據結構pci_dev,它描述了一個PCI設備的所有的特性，具體請查詢相關文檔，本文限於篇幅無法詳細描述。但是有幾個地方和驅動程序的關係特別大，必須予以說明。PCI設備都遵守PCI標準，這個部分所有的PCI設備都是一樣的，每個PCI設備都有一段寄存器存儲着配置空間，這一部分格式是一樣的，比如第一個寄存器總是生產商號碼，如Realtek就是10ec，而Intel則是另一個數字，這些都是商家像標準組織申請的，是肯定不同的。我就可以通過配置空間來辨別其生產商，設備號，不論你什麼平臺，x86也好，ppc也好，他們都是同一的標準格式。當然光有這些PCI配置空間的統一格式還是不夠的，比如說人類，都有鼻子和眼睛，但並不是所有人的鼻子和眼睛都長的一樣的。網卡設備是PCI設備必須遵守規則，在設備裏集成了PCI配置空間，但它是一個網卡就必須同時集成能控制網卡工作的寄存器。而寄存器的訪問就成了一個問題。在Linux裏面我們是把這些寄存器映射到主存虛擬空間上的，換句話說我們的CPU 訪存指令就可以訪問到這些處於外設中的控制寄存器。總結一下，PCI設備主要包括兩類空間，一個是配置空間，它是操作系統或BIOS控制外設的統一格式的空間，CPU指令不能訪問，訪問這個空間要藉助BIOS功能，事實上Linux的訪問配置空間的函數是通過CPU指令驅使BIOS來完成讀寫訪問的。

　　而另一類是普通的控制寄存器空間，這一部分映射完後CPU可以訪問來控制設備工作。

　　現在我們回到上面pci_register_driver的第二步，如果找到相關設備和我們的pci_device_id結構數組對上號了，說明我們找到服務對象了，則調用rtl8139_init_one,它主要做了七件事：

　　① 建立net_device結構，讓它在內核中代表這個網絡設備。但是讀者可能會問，pci_dev也是代表着這個設備，那麼兩者有什麼區別呢，正如我們上面討論的，網卡設備既要遵循PCI規範，也要擔負起其作爲網卡設備的職責，於是就分了兩塊，pci_dev用來負責網卡的PCI規範，而這裏要說的net_device則是負責網卡的網絡設備這個職責。

　　dev = init_etherdev (NULL, sizeof (*tp));

　　if (dev == NULL) {

　　printk ("unable to alloc new ethernet\n");

　　return -ENOMEM;

　　}

　　tp = dev->priv;

　　init_etherdev函數在Linux/drivers/net/net_init.c中，在這個函數中分配了net_device的內存並進行了初步的初始化。這裏值得注意的是net_device中的一個成員priv，它代表着不同網卡的私有數據，比如Intel的網卡和Realtek 的網卡在內核中都是以net_device來代表。但是他們是有區別的，比如Intel和Realtek實現同一功能的方法不一樣，這些都是靠着priv 來體現。所以這裏把拿出來同net_device相提並論。分配內存時，net_device中除了priv以外的成員都是固定的，而priv的大小是可以任意的，所以分配時要把priv的大小傳過去。

　　②開啓這個設備（其實是開啓了設備的寄存器映射到內存的功能）

　　rc = pci_enable_device (pdev);

　　if (rc)

　　goto err_out;

　　pci_enable_device也是一個內核開發出來的接口，代碼在drivers/pci/pci.c中，筆者跟蹤發現這個函數主要就是把 PCI配置空間的Command域的0位和1位置成了1，從而達到了開啓設備的目的，因爲rtl8139的官方datasheet中，說明了這兩位的作用就是開啓內存映射和I/O映射，如果不開的話，那我們以上討論的把控制寄存器空間映射到內存空間的這一功能就被屏蔽了，這對我們是非常不利的，除此之外，pci_enable_device還做了些中斷開啓工作。

　　③獲得各項資源

　　mmio_start = pci_resource_start (pdev, 1);

　　mmio_end = pci_resource_end (pdev, 1);

　　mmio_flags = pci_resource_flags (pdev, 1);

　　mmio_len = pci_resource_len (pdev, 1);

　　讀者也許疑問我們的寄存器被映射到內存中的什麼地方是什麼時候有誰決定的呢。是這樣的，在硬件加電初始化時，BIOS固件同一檢查了所有的PCI 設備，並統一爲他們分配了一個和其他互不衝突的地址，讓他們的驅動程序可以向這些地址映射他們的寄存器，這些地址被BIOS寫進了各個設備的配置空間，因爲這個活動是一個PCI的標準的活動，所以自然寫到各個設備的配置空間裏而不是他們風格各異的控制寄存器空間裏。當然只有BIOS可以訪問配置空間。當操作系統初始化時，他爲每個PCI設備分配了pci_dev結構，並且把BIOS獲得的並寫到了配置空間中的地址讀出來寫到了pci_dev中的 resource字段中。這樣以後我們在讀這些地址就不需要在訪問配置空間了，直接跟pci_dev要就可以了，我們這裏的四個函數就是直接從 pci_dev讀出了相關數據，代碼在include/linux/pci.h中。定義如下：

　　#define pci_resource_start(dev,bar) ((dev)->resource[(bar)].start)

　　#define pci_resource_end(dev,bar) ((dev)->resource[(bar)].end)

　　這裏需要說明一下，每個PCI設備有0-5一共6個地址空間，我們通常只使用前兩個，這裏我們把參數1傳給了bar就是使用內存映射的地址空間。

　　④把得到的地址進行映射

　　ioaddr = ioremap (mmio_start, mmio_len);

　　if (ioaddr == NULL) {

　　printk ("cannot remap MMIO, aborting\n");

　　rc = -EIO;

　　goto err_out_free_res;

　　}

　　ioremap是內核提供的用來映射外設寄存器到主存的函數，我們要映射的地址已經從pci_dev中讀了出來（上一步），這樣就水到渠成的成功映射了而不會和其他地址有衝突。映射完了有什麼效果呢，我舉個例子，比如某個網卡有100個寄存器，他們都是連在一塊的，位置是固定的，加入每個寄存器佔 4個字節，那麼一共400個字節的空間被映射到內存成功後，ioaddr就是這段地址的開頭（注意ioaddr是虛擬地址，而mmio_start是物理地址，它是BIOS得到的，肯定是物理地址，而保護模式下CPU不認物理地址，只認虛擬地址），ioaddr+0就是第一個寄存器的地址，ioaddr+4就是第二個寄存器地址（每個寄存器佔4個字節），以此類推，我們就能夠在內存中訪問到所有的寄存器進而操控他們了。

　　⑤重啓網卡設備

　　重啓網卡設備是初始化網卡設備的一個重要部分，它的原理就是向寄存器中寫入命令就可以了（注意這裏寫寄存器，而不是配置空間，因爲跟PCI沒有什麼關係），代碼如下：

　　writeb ((readb(ioaddr+ChipCmd) & ChipCmdClear) | CmdReset,ioaddr+ChipCmd);

　　是我們看到第二參數ioaddr+ChipCmd，ChipCmd是一個位移，使地址剛好對應的就是ChipCmd哪個寄存器，讀者可以查閱官方 datasheet得到這個位移量，我們在程序中定義的這個值爲：ChipCmd = 0x37；與datasheet是吻合的。我們把這個命令寄存器中相應位（RESET）置1就可以完成操作。

　　⑥獲得MAC地址，並把它存儲到net_device中。

　　for(i = 0; i < 6; i++) { /* Hardware Address */

　　dev->dev_addr[i] = readb(ioaddr+i);

　　dev->broadcast[i] = 0xff;

　　}

　　我們可以看到讀的地址是ioaddr+0到ioaddr+5，讀者查看官方datasheet會發現寄存器地址空間的開頭6個字節正好存的是這個網卡設備的MAC地址，MAC地址是網絡中標識網卡的物理地址，這個地址在今後的收發數據包時會用的上。

　　⑦向net_device中登記一些主要的函數

　　dev->open = rtl8139_open;

　　dev->hard_start_xmit = rtl8139_start_xmit;

　　dev->stop = rtl8139_close;

　　由於dev（net_device）代表着設備，把這些函數註冊完後，rtl8139_open就是用於打開這個設備，rtl8139_start_xmit就是當應用程序要通過這個設備往外面發數據時被調用，具體的其實這個函數是在網絡協議層中調用的，這就涉及到 Linux網絡協議棧的內容，不再我們討論之列，我們只是負責實現它。rtl8139_close用來關掉這個設備。

　　好了，到此我們把rtl8139_init_one函數介紹完了，初始化個設備完了之後呢，我們通過ifconfig eth0 up命令來把我們的設備激活。這個命令直接導致了我們剛剛註冊的rtl8139_open的調用。這個函數激活了設備。這個函數主要做了三件事。

　　①註冊這個設備的中斷處理函數。當網卡發送數據完成或者接收到數據時，是用中斷的形式來告知的，比如有數據從網線傳來，中斷也通知了我們，那麼必須要有一個處理這個中斷的函數來完成數據的接收。關於Linux的中斷機制不是我們詳細講解的範疇，有興趣的可以參考《Linux內核源代碼情景分析》，但是有個非常重要的資源我們必須注意，那就是中斷號的分配，和內存地址映射一樣，中斷號也是BIOS在初始化階段分配並寫入設備的配置空間的，然後 Linux在建立pci_dev時從配置空間讀出這個中斷號然後寫入pci_dev的irq成員中，所以我們註冊中斷程序需要中斷號就是直接從 pci_dev裏取就可以了。

　　retval = request_irq (dev->irq, rtl8139_interrupt, SA_SHIRQ, dev->name, dev);

　　if (retval) {

　　return retval;

　　}

　　我們註冊的中斷處理函數是rtl8139_interrupt，也就是說當網卡發生中斷（如數據到達）時，中斷控制器8259A把中斷號發給 CPU，CPU根據這個中斷號找到處理程序，這裏就是rtl8139_interrupt，然後執行。rtl8139_interrupt也是在我們的程序中定義好了的，這是驅動程序的一個重要的義務，也是一個基本的功能。request_irq的代碼在arch/i386/kernel/irq.c 中。

　　②分配發送和接收的緩存空間

　　根據官方文檔，發送一個數據包的過程是這樣的：先從應用程序中把數據包拷貝到一段連續的內存中（這段內存就是我們這裏要分配的緩存），然後把這段內存的地址寫進網卡的數據發送地址寄存器(TSAD)中,這個寄存器的偏移量是TxAddr0 = 0x20。在把這個數據包的長度寫進另一個寄存器（TSD）中，它的偏移量是TxStatus0 = 0x10。然後就把這段內存的數據發送到網卡內部的發送緩衝中(FIFO),最後由這個發送緩衝區把數據發送到網線上。

　　好了現在創建這麼一個發送和接收緩衝內存的目的已經很顯然了。

　　tp->tx_bufs = pci_alloc_consistent(tp->pci_dev, TX_BUF_TOT_LEN, &tp->tx_bufs_dma);

　　tp->rx_ring = pci_alloc_consistent(tp->pci_dev, RX_BUF_TOT_LEN, &tp->rx_ring_dma);

　　tp是net_device的priv的指針，tx_bufs是發送緩衝內存的首地址，rx_ring是接收緩存內存的首地址，他們都是虛擬地址，而最後一個參數tx_bufs_dma和rx_ring_dma均是這一段內存的物理地址。爲什麼同一個事物，既用虛擬地址來表示它還要用物理地址呢，是這樣的，CPU執行程序用到這個地址時，用虛擬地址，而網卡設備向這些內存中存取數據時用的是物理地址（因爲網卡相對CPU屬於頭腦比較簡單型的）。pci_alloc_consistent的代碼在Linux/arch/i386/kernel/pci-dma.c中。

　　③發送和接收緩衝區初始化和網卡開始工作的操作

　　RTL8139有4個發送描述符（包括4個發送緩衝區的基地址寄存器（TSAD0-TSAD3）和4個發送狀態寄存器(TSD0-TSD3)。也就是說我們分配的緩衝區要分成四個等分並把這四個空間的地址都寫到相關寄存器裏去，下面這段代碼完成了這個操作。

　　for (i = 0; i < NUM_TX_DESC; i++)

　　((struct rtl8139_private*)dev->priv)->tx_buf[i] =

　　&((struct rtl8139_private*)dev->priv)->tx_bufs[i * TX_BUF_SIZE];

　　上面這段代碼負責把發送緩衝區虛擬空間進行了分割。

　　for (i = 0; i < NUM_TX_DESC; i++)

　　{

　　writel(tp->tx_bufs_dma+(tp->tx_buf[i]tp->tx_bufs),ioaddr+TxAddr0+(i*4));

　　readl(ioaddr+TxAddr0+(i * 4));

　　}

　　上面這段代碼負責把發送緩衝區物理空間進行了分割，並把它寫到了相關寄存器中，這樣在網卡開始工作後就能夠迅速定位和找到這些內存並存取他們的數據。

　　writel(tp->rx_ring_dma,ioaddr+RxBuf);

　　上面這行代碼是把接收緩衝區的物理地址寫到了相關寄存器中，這樣網卡接收到數據後就能準確的把數據從網卡中搬運到這些內存空間中，等待CPU來領走他們。

　　writeb((readb(ioaddr+ChipCmd) & ChipCmdClear) | CmdRxEnb | CmdTxEnb,ioaddr+ChipCmd);

　　重新RESET設備後，我們要激活設備的發送和接收的功能，上面這行代碼就是向相關寄存器中寫入相應值，激活了設備的這些功能。

　　writel ((TX_DMA_BURST << TxDMAShift),ioaddr+TxConfig);

　　上面這行代碼是向網卡的TxConfig（位移是0x44）寄存器中寫入TX_DMA_BURST << TxDMAShift這個值，翻譯過來就是6<<8，就是把第8到第10這三位置成110，查閱管法文檔發現6就是110代表着一次DMA的數據量爲1024字節。

　　另外在這個階段設置了接收數據的模式，和開啓中斷等等，限於篇幅由讀者自行研究。

　　下面進入數據收發階段：

　　當一個網絡應用程序要向網絡發送數據時，它要利用Linux的網絡協議棧來解決一系列問題，找到網卡設備的代表net_device，由這個結構來找到並控制這個網卡設備來完成數據包的發送，具體是調用net_device的hard_start_xmit成員函數，這是一個函數指針，在我們的驅動程序裏它指向的是rtl8139_start_xmit，正是由它來完成我們的發送工作的，下面我們就來剖析這個函數。它一共做了四件事。

　　①檢查這個要發送的數據包的長度，如果它達不到以太網幀的長度，必須採取措施進行填充。

　　if( skb->len < ETH_ZLEN ){//if data_len < 60

　　if( (skb->data + ETH_ZLEN) <= skb->end ){

　　memset( skb->data + skb->len, 0x20, (ETH_ZLEN - skb->len) );

　　skb->len = (skb->len >= ETH_ZLEN) ? skb->len : ETH_ZLEN;}

　　else{

　　printk("%s:(skb->data+ETH_ZLEN) > skb->end\n",__FUNCTION__);

　　}

　　skb->data和skb->end就決定了這個包的內容，如果這個包本身總共的長度(skb->end- skb->data)都達不到要求，那麼想填也沒地方填，就出錯返回了，否則的話就填上。

　　②把包的數據拷貝到我們已經建立好的發送緩存中。

　　memcpy (tp->tx_buf[entry], skb->data, skb->len);

　　其中skb->data就是數據包數據的地址，而tp->tx_buf[entry]就是我們的發送緩存地址，這樣就完成了拷貝，忘記了這些內容的回頭看看前面的介紹。

　　③光有了地址和數據還不行，我們要讓網卡知道這個包的長度，才能保證數據不多不少精確的從緩存中截取出來搬運到網卡中去，這是靠寫發送狀態寄存器（TSD）來完成的。

　　writel(tp->tx_flag | (skb->len >= ETH_ZLEN ? skb->len : ETH_ZLEN),ioaddr+TxStatus0+(entry * 4));

　　我們把這個包的長度和一些控制信息一起寫進了狀態寄存器，使網卡的工作有了依據。

　　④判斷髮送緩存是否已經滿了，如果滿了在發就覆蓋數據了，要停發。

　　if ((tp->cur_tx - NUM_TX_DESC) == tp->dirty_tx)

　　netif_stop_queue (dev);

　　談完了發送，我們開始談接收，當有數據從網線上過來時，網卡產生一箇中斷，調用的中斷服務程序是rtl8139_interrupt，它主要做了三件事。

　　①從網卡的中斷狀態寄存器中讀出狀態值進行分析，status = readw(ioaddr+IntrStatus);

　　goto out;

　　上面代碼說明如果上面這9種情況均沒有的表示沒什麼好處理的了，退出。

　　② if (status & (RxOK | RxUnderrun | RxOverflow | RxFIFOOver))/* Rx interrupt */

　　rtl8139_rx_interrupt (dev, tp, ioaddr);

　　如果是以上4種情況，屬於接收信號，調用rtl8139_rx_interrupt進行接收處理。

　　③ if (status & (TxOK | TxErr)) {

　　spin_lock (&tp->lock);

　　rtl8139_tx_interrupt (dev, tp, ioaddr);

　　spin_unlock (&tp->lock);

　　}

　　如果是傳輸完成的信號，就調用rtl8139_tx_interrupt進行發送善後處理。

　　下面我們先來看看接收中斷處理函數rtl8139_rx_interrupt，在這個函數中主要做了下面四件事

　　①這個函數是一個大循環，循環條件是隻要接收緩存不爲空就還可以繼續讀取數據，循環不會停止，讀空了之後就跳出。

　　int ring_offset = cur_rx % RX_BUF_LEN;

　　rx_status = le32_to_cpu (*(u32 *) (rx_ring + ring_offset));

　　rx_size = rx_status >> 16;

　　上面三行代碼是計算出要接收的包的長度。

　　②根據這個長度來分配包的數據結構

　　skb = dev_alloc_skb (pkt_size + 2);

　　③如果分配成功就把數據從接收緩存中拷貝到這個包中

　　eth_copy_and_sum (skb, &rx_ring[ring_offset + 4], pkt_size, 0);

　　這個函數在include/linux/etherdevice.h中，實質還是調用了memcpy（）。

　　static inline void eth_copy_and_sum(struct sk_buff*dest, unsigned char *src, int len, int base)

　　{

　　memcpy(dest->data, src, len)；

　　}

　　現在我們已經熟知，&rx_ring[ring_offset + 4]就是接收緩存，也是源地址，而skb->data就是包的數據地址，也是目的地址，一目瞭然。

　　④把這個包送到Linux協議棧去進行下一步處理

　　skb->protocol = eth_type_trans (skb, dev);

　　netif_rx (skb);

　　在netif_rx（）函數執行完後，這個包的數據就脫離了網卡驅動範疇，而進入了Linux網絡協議棧裏面，把這些數據包的以太網幀頭，IP 頭，TCP頭都脫下來，最後把數據送給了應用程序，不過協議棧不再本文討論範圍內。netif_rx函數在net/core/dev.c,中。

　　而rtl8139_remove_one則基本是rtl8139_init_one的逆過程。

　　到此，本文已經將Linux驅動程序的框架勾勒了出來。

Linux網卡驅動程序分析

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

Linux下檢測網卡與網線連接狀態

linux udev概述

Linux網卡驅動程序分析

一些簡單的Linux網絡配置命令

linux內核調試

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結