Linux 內核中的 GCC 特性

Linux® 內核使用 GNU Compiler Collection (GCC) 套件的幾個特殊功能。這些功能包括提供快捷方式和簡化以及向編譯器提供優化提示等等。瞭解這些特殊的 GCC 特性，學習如何在 Linux 內核中使用它們。
GCC 和 Linux 是出色的組合。儘管它們是獨立的軟件，但是 Linux 完全依靠 GCC 在新的體系結構上運行。Linux 還利用 GCC 中的特性（稱爲擴展）實現更多功能和優化。本文討論一些重要的擴展，講解如何在 Linux 內核中使用它們。

GCC 當前的穩定版本（版本 4.3.2）支持 C 標準的三個版本：

    International Organization for Standardization (ISO) 最初的 C 語言標準（ISO C89 或 C90）
    ●帶修正 1 的 ISO C90
    ●當前的 ISO C99（這是 GCC 使用的默認標準，本文也假設採用這種標準）
    ●注意：本文假設使用 ISO C99 標準。如果指定比 ISO C99 版本舊的標準，那麼可能無法使用本文描述的一些擴展。可以在命令行上使用 -std 選項指定 GCC 使用的實際標準。可以通過 GCC 手冊查看哪個標準版本支持哪些擴展（見參考資料中的鏈接）。

可應用的版本

本文主要關注在 2.6.27.1 Linux 內核和 GCC 的 4.3.2 版本中使用 GCC 擴展。每個 C 擴展引用 Linux 內核源代碼中的一個文件，可以在其中找到示例。

可以以幾種方式對可用的 C 擴展進行分類。本文把它們分爲兩大類：

●功能性擴展提供新功能。
●優化擴展幫助生成更高效的代碼。

功能性擴展

先討論一些擴展標準 C 語言的 GCC 擴展。

類型發現

GCC 允許通過變量的引用識別類型。這種操作支持泛型編程。在 C++、Ada 和 Java? 語言等許多現代編程語言中都可以找到相似的功能。Linux 使用 typeof 構建 min 和 max 等依賴於類型的操作。清單 1 演示如何使用 typeof 構建一個泛型宏（見 ./linux/include/linux/kernel.h）。

清單 1. 使用 typeof 構建一個泛型宏

#define min(x, y) ({ /
typeof(x) _min1 = (x); /
typeof(y) _min2 = (y); /
(void) (&_min1 == &_min2); /
_min1 < _min2 ? _min1 : _min2; })

範圍擴展

GCC 支持範圍，在 C 語言的許多方面都可以使用範圍。其中之一是 switch/case 塊中的 case 語句。在複雜的條件結構中，通常依靠嵌套的 if 語句實現與清單 2（見 ./linux/drivers/scsi/sd.c）相同的結果，但是清單 2 更簡潔。使用 switch/case 也可以通過使用跳轉表實現進行編譯器優化。

清單 2. 在 case 語句中使用範圍

static int sd_major(int major_idx)
{
switch (major_idx) {
case 0:
return SCSI_DISK0_MAJOR;
case 1 ... 7:
return SCSI_DISK1_MAJOR + major_idx - 1;
case 8 ... 15:
return SCSI_DISK8_MAJOR + major_idx - 8;
default:
BUG();
return 0; /* shut up gcc */
}
}

還可以使用範圍進行初始化，如下所示（見 ./linux/arch/cris/arch-v32/kernel/smp.c）。在這個示例中，spinlock_t 創建一個大小爲 LOCK_COUNT 的數組。數組的每個元素初始化爲 SPIN_LOCK_UNLOCKED 值。

/* Vector of locks used for various atomic operations */
spinlock_t cris_atomic_locks[] = { [0 ... LOCK_COUNT - 1] = SPIN_LOCK_UNLOCKED};

範圍還支持更復雜的初始化。例如，以下代碼指定數組中幾個子範圍的初始值。

int widths[] = { [0 ... 9] = 1, [10 ... 99] = 2, [100] = 3 };

零長度的數組

在 C 標準中，必須定義至少一個數組元素。這個需求往往會使代碼設計複雜化。但是，GCC 支持零長度數組的概念，這對於結構定義尤其有用。這個概念與 ISO C99 中靈活的數組成員相似，但是使用不同的語法。

下面的示例在結構的末尾聲明一個沒有成員的數組（見 ./linux/drivers/ieee1394/raw1394-private.h）。這允許結構中的元素引用結構實例後面緊接着的內存。在需要數量可變的數組成員時，這個特性很有用。

struct iso_block_store {
        atomic_t refcount;
        size_t data_size;
        quadlet_t data[0];
};

判斷調用地址

在許多情況下，需要判斷給定函數的調用者。GCC 提供用於此用途的內置函數 __builtin_return_address。這個函數通常用於調試，但是它在內核中還有許多其他用途。

如下面的代碼所示，__builtin_return_address 接收一個稱爲 level 的參數。這個參數定義希望獲取返回地址的調用堆棧級別。例如，如果指定 level 爲 0，那麼就是請求當前函數的返回地址。如果指定 level 爲 1，那麼就是請求進行調用的函數的返回地址，依此類推。

void * __builtin_return_address( unsigned int level );

在下面的示例中（見 ./linux/kernel/softirq.c），local_bh_disable 函數在本地處理器上禁用軟中斷，從而禁止在當前處理器上運行 softirqs、tasklets 和 bottom halves。使用 __builtin_return_address 捕捉返回地址，以便在以後進行跟蹤時使用這個地址。

void local_bh_disable(void)
{
        __local_bh_disable((unsigned long)__builtin_return_address(0));
}

常量檢測

在編譯時，可以使用 GCC 提供的一個內置函數判斷一個值是否是常量。這種信息非常有價值，因爲可以構造出能夠通過常量疊算（constant folding）優化的表達式。__builtin_constant_p 函數用來檢測常量。

__builtin_constant_p 的原型如下所示。注意，__builtin_constant_p 並不能檢測出所有常量，因爲 GCC 不容易證明某些值是否是常量。

int __builtin_constant_p( exp )

Linux 相當頻繁地使用常量檢測。在清單 3 所示的示例中（見 ./linux/include/linux/log2.h），使用常量檢測優化 roundup_pow_of_two 宏。如果發現表達式是常量，那麼就使用可以優化的常量表達式。如果表達式不是常量，就調用另一個宏函數把值向上取整到 2 的冪。

清單 3. 使用常量檢測優化宏函數

#define roundup_pow_of_two(n) /
( /
__builtin_constant_p(n) ? ( /
(n == 1) ? 1 : /
(1UL << (ilog2((n) - 1) + 1)) /
) : /
__roundup_pow_of_two(n) /
)

函數屬性

GCC 提供許多函數級屬性，可以通過它們向編譯器提供更多數據，幫助編譯器執行優化。本節描述與功能相關聯的一些屬性。下一節描述影響優化的屬性。

如清單 4 所示，屬性通過其他符號定義指定了別名。可以以此幫助閱讀源代碼參考，瞭解屬性的使用方法（見 ./linux/include/linux/compiler-gcc3.h）。

清單 4. 函數屬性定義

# define __inline__     __inline__      __attribute__((always_inline))
# define __deprecated           __attribute__((deprecated))
# define __attribute_used__     __attribute__((__used__))
# define __attribute_const__     __attribute__((__const__))
# define __must_check            __attribute__((warn_unused_result))

清單 4 所示的定義是 GCC 中可用的一些函數屬性。它們也是在 Linux 內核中最有用的函數屬性。下面解釋如何使用這些屬性：

    ●always_inline 讓 GCC 以內聯方式處理指定的函數，無論是否啓用了優化。
    ●deprecated 指出函數已經被廢棄，不應該再使用。如果試圖使用已經廢棄的函數，就會收到警告。還可以對類型和變量應用這個屬性，促使開發人員儘可能少使用它們。
    ●__used__ 告訴編譯器無論 GCC 是否發現這個函數的調用實例，都要使用這個函數。這對於從彙編代碼中調用 C 函數有幫助。
    ●__const__ 告訴編譯器某個函數是無狀態的（也就是說，它使用傳遞給它的參數生成要返回的結果）。
    ●warn_unused_result 讓編譯器檢查所有調用者是否都檢查函數的結果。這確保調用者適當地檢驗函數結果，從而能夠適當地處理錯誤。
    下面是在 Linux 內核中使用這些屬性的示例。deprecated 示例來自與體系結構無關的內核（./linux/kernel/resource.c），const 示例來自 IA64 內核源代碼（./linux/arch/ia64/kernel/unwind.c）。

int __deprecated __check_region(struct resource 
    *parent, unsigned long start, unsigned long n)

static enum unw_register_index __attribute_const__ 
    decode_abreg(unsigned char abreg, int memory)

優化擴展

現在，討論有助於生成更好的機器碼的一些 GCC 特性。

分支預測提示

在 Linux 內核中最常用的優化技術之一是 __builtin_expect。在開發人員使用有條件代碼時，常常知道最可能執行哪個分支，而哪個分支很少執行。如果編譯器知道這種預測信息，就可以圍繞最可能執行的分支生成最優的代碼。

如下所示，__builtin_expect 的使用方法基於兩個宏 likely 和 unlikely（見 ./linux/include/linux/compiler.h）。

#define likely(x) __builtin_expect(!!(x), 1)
#define unlikely(x) __builtin_expect(!!(x), 0)

通過使用 __builtin_expect，編譯器可以做出符合提供的預測信息的指令選擇決策。這使執行的代碼儘可能接近實際情況。它還可以改進緩存和指令流水線。

例如，如果一個條件標上了 “likely”，那麼編譯器可以把代碼的 True 部分直接放在分支指令後面（這樣就不需要執行分支指令）。通過分支指令訪問條件結構的 False 部分，這不是最優的方式，但是訪問它的可能性不大。按照這種方式，代碼對於最可能出現的情況是最優的。

清單 5 給出一個使用 likely 和 unlikely 宏的函數（見 ./linux/net/core/datagram.c）。這個函數預測 sum 變量將是零（數據包的 checksum 是有效的），而且 ip_summed 變量不等於 CHECKSUM_HW。

清單 5. likely 和 unlikely 宏的使用示例

unsigned int __skb_checksum_complete(struct sk_buff *skb)
{
        unsigned int sum;

        sum = (u16)csum_fold(skb_checksum(skb, 0, skb->len, skb->csum));
        if (likely(!sum)) {
                if (unlikely(skb->ip_summed == CHECKSUM_HW))
                        netdev_rx_csum_fault(skb->dev);
                skb->ip_summed = CHECKSUM_UNNECESSARY;
        }
        return sum;
}

預抓取

另一種重要的性能改進方法是把必需的數據緩存在接近處理器的地方。緩存可以顯著減少訪問數據花費的時間。大多數現代處理器都有三類內存：

    ●一級緩存通常支持單週期訪問
    ●二級緩存支持兩週期訪問
    ●系統內存支持更長的訪問時間
    爲了儘可能減少訪問延時並由此提高性能，最好把數據放在最近的內存中。手工執行這個任務稱爲預抓取。GCC 通過內置函數 __builtin_prefetch 支持數據的手工預抓取。在需要數據之前，使用這個函數把數據放到緩存中。如下所示，__builtin_prefetch 函數接收三個參數：

    數據的地址
    ●rw 參數，使用它指明預抓取數據是爲了執行讀操作，還是執行寫操作
    ●locality 參數，使用它指定在使用數據之後數據應該留在緩存中，還是應該清除

void __builtin_prefetch( const void *addr, int rw, int locality );

Linux 內核經常使用預抓取。通常是通過宏和包裝器函數使用預抓取。清單 6 是一個輔助函數示例，它使用內置函數的包裝器（見 ./linux/include/linux/prefetch.h）。這個函數爲流操作實現預抓取機制。使用這個函數通常可以減少緩存缺失和停頓，從而提高性能。

清單 6. 範圍預抓取的包裝器函數

ifndef ARCH_HAS_PREFETCH
#define prefetch(x) __builtin_prefetch(x)
#endif

static inline void prefetch_range(void *addr, size_t len)
{
#ifdef ARCH_HAS_PREFETCH
char *cp;
char *end = addr + len;

for (cp = addr; cp < end; cp += PREFETCH_STRIDE)
prefetch(cp);
#endif
}

變量屬性

除了本文前面討論的函數屬性之外，GCC 還爲變量和類型定義提供了屬性。最重要的屬性之一是 aligned 屬性，它用於在內存中實現對象對齊。除了對於性能很重要之外，某些設備或硬件配置也需要對象對齊。aligned 屬性有一個參數，它指定所需的對齊類型。

下面的示例用於軟件暫停（見 ./linux/arch/i386/mm/init.c）。在需要頁面對齊時，定義 PAGE_SIZE 對象。

char __nosavedata swsusp_pg_dir[PAGE_SIZE]
 __attribute__ ((aligned (PAGE_SIZE)));

清單 7 中的示例說明關於優化的兩點：

●packed 屬性打包一個結構的元素，從而儘可能減少它們佔用的空間。這意味着，如果定義一個 char 變量，它佔用的空間不會超過一字節（8 位）。位字段壓縮爲一位，而不會佔用更多存儲空間。
●這段源代碼使用一個 __attribute__ 聲明進行優化，它用逗號分隔的列表定義多個屬性。

清單 7. 結構打包和設置多個屬性

static struct swsusp_header {
        char reserved[PAGE_SIZE - 20 - sizeof(swp_entry_t)];
        swp_entry_t image;
        char    orig_sig[10];
        char    sig[10];
} __attribute__((packed, aligned(PAGE_SIZE))) swsusp_header;

結束語

本文只討論了在 Linux 內核中可以使用的幾個 GCC 特性。可以通過 GNU GCC 手冊進一步瞭解針對 C 和 C++ 語言的所有擴展（見參考資料中的鏈接）。另外，儘管 Linux 內核經常使用這些擴展，但是也可以在用戶自己的應用程序中使用它們。隨着 GCC 的發展，肯定會出現新的擴展，它們會進一步改進性能和增加 Linux 內核的功能。

Linux 內核中的 GCC 特性

Python實現大麥網搶票的四大關鍵技術點解析

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

【2024-05-21】以茶會友

關於生成樹協議

Linux開發人員的最佳網站

linux2.6內核研讀筆記一

printf和標準輸出

Linux 內核中的 GCC 特性

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結