|
級別: 中級
M. Tim Jones, 顧問工程師, Emulex Corp.
2009 年 4 月 07 日
Linux® 內核使用 GNU Compiler Collection (GCC) 套件的幾個特殊功能。這些功能包括提供快捷方式和簡化以及向編譯器提供優化提示等等。瞭解這些特殊的 GCC 特性,學習如何在 Linux 內核中使用它們。
GCC 和 Linux 是出色的組合。儘管它們是獨立的軟件,但是 Linux 完全依靠 GCC 在新的體系結構上運行。Linux 還利用 GCC 中的特性(稱爲擴展)實現更多功能和優化。本文討論一些重要的擴展,講解如何在 Linux 內核中使用它們。
GCC 當前的穩定版本(版本 4.3.2)支持 C 標準的三個版本:
- International Organization for Standardization (ISO) 最初的 C 語言標準(ISO C89 或 C90)
- 帶修正 1 的 ISO C90
- 當前的 ISO C99(這是 GCC 使用的默認標準,本文也假設採用這種標準)
注意:本文假設使用 ISO C99 標準。如果指定比 ISO C99 版本舊的標準,那麼可能無法使用本文描述的一些擴展。可以在命令行上使用 -std
選項指定 GCC 使用的實際標準。可以通過 GCC 手冊查看哪個標準版本支持哪些擴展(見 參考資料 中的鏈接)。
|
可以以幾種方式對可用的 C 擴展進行分類。本文把它們分爲兩大類:
- 功能性 擴展提供新功能。
- 優化 擴展幫助生成更高效的代碼。
先討論一些擴展標準 C 語言的 GCC 擴展。
GCC 允許通過變量的引用識別類型。這種操作支持泛型編程。在 C++、Ada 和 Java™ 語言等許多現代編程語言中都可以找到相似的功能。Linux 使用 typeof
構建 min
和 max
等依賴於類型的操作。清單 1 演示如何使用 typeof
構建一個泛型宏(見 ./linux/include/linux/kernel.h)。
|
GCC 支持範圍,在 C 語言的許多方面都可以使用範圍。其中之一是 switch
/case
塊中的 case
語句。在複雜的條件結構中,通常依靠嵌套的 if
語句實現與清單 2(見 ./linux/drivers/scsi/sd.c)相同的結果,但是清單 2 更簡潔。使用 switch
/case
也可以通過使用跳轉表實現進行編譯器優化。
|
還可以使用範圍進行初始化,如下所示(見 ./linux/arch/cris/arch-v32/kernel/smp.c)。在這個示例中,spinlock_t
創建一個大小爲 LOCK_COUNT
的數組。數組的每個元素初始化爲 SPIN_LOCK_UNLOCKED
值。
/* Vector of locks used for various atomic operations */ |
範圍還支持更復雜的初始化。例如,以下代碼指定數組中幾個子範圍的初始值。
int widths[] = { [0 ... 9] = 1, [10 ... 99] = 2, [100] = 3 }; |
在 C 標準中,必須定義至少一個數組元素。這個需求往往會使代碼設計複雜化。但是,GCC 支持零長度數組的概念,這對於結構定義尤其有用。這個概念與 ISO C99 中靈活的數組成員相似,但是使用不同的語法。
下面的示例在結構的末尾聲明一個沒有成員的數組(見 ./linux/drivers/ieee1394/raw1394-private.h)。這允許結構中的元素引用結構實例後面緊接着的內存。在需要數量可變的數組成員時,這個特性很有用。
struct iso_block_store { |
在許多情況下,需要判斷給定函數的調用者。GCC 提供用於此用途的內置函數 __builtin_return_address
。這個函數通常用於調試,但是它在內核中還有許多其他用途。
如下面的代碼所示,__builtin_return_address
接收一個稱爲 level
的參數。這個參數定義希望獲取返回地址的調用堆棧級別。例如,如果指定 level
爲 0
,那麼就是請求當前函數的返回地址。如果指定 level
爲 1
,那麼就是請求進行調用的函數的返回地址,依此類推。
void * __builtin_return_address( unsigned int level ); |
在下面的示例中(見 ./linux/kernel/softirq.c),local_bh_disable
函數在本地處理器上禁用軟中斷,從而禁止在當前處理器上運行 softirqs、tasklets 和 bottom halves。使用 __builtin_return_address
捕捉返回地址,以便在以後進行跟蹤時使用這個地址。
void local_bh_disable(void) |
在編譯時,可以使用 GCC 提供的一個內置函數判斷一個值是否是常量。這種信息非常有價值,因爲可以構造出能夠通過常量疊算(constant folding)優化的表達式。__builtin_constant_p
函數用來檢測常量。
__builtin_constant_p
的原型如下所示。注意,__builtin_constant_p
並不能檢測出所有常量,因爲 GCC 不容易證明某些值是否是常量。
int __builtin_constant_p( exp ) |
Linux 相當頻繁地使用常量檢測。在清單 3 所示的示例中(見 ./linux/include/linux/log2.h),使用常量檢測優化 roundup_pow_of_two
宏。如果發現表達式是常量,那麼就使用可以優化的常量表達式。如果表達式不是常量,就調用另一個宏函數把值向上取整到 2 的冪。
|
GCC 提供許多函數級屬性,可以通過它們向編譯器提供更多數據,幫助編譯器執行優化。本節描述與功能相關聯的一些屬性。下一節描述 影響優化的屬性。
如清單 4 所示,屬性通過其他符號定義指定了別名。可以以此幫助閱讀源代碼參考,瞭解屬性的使用方法(見 ./linux/include/linux/compiler-gcc3.h)。
|
清單 4 所示的定義是 GCC 中可用的一些函數屬性。它們也是在 Linux 內核中最有用的函數屬性。下面解釋如何使用這些屬性:
always_inline
讓 GCC 以內聯方式處理指定的函數,無論是否啓用了優化。deprecated
指出函數已經被廢棄,不應該再使用。如果試圖使用已經廢棄的函數,就會收到警告。還可以對類型和變量應用這個屬性,促使開發人員儘可能少使用它們。__used__
告訴編譯器無論 GCC 是否發現這個函數的調用實例,都要使用這個函數。這對於從彙編代碼中調用 C 函數有幫助。__const__
告訴編譯器某個函數是無狀態的(也就是說,它使用傳遞給它的參數生成要返回的結果)。warn_unused_result
讓編譯器檢查所有調用者是否都檢查函數的結果。這確保調用者適當地檢驗函數結果,從而能夠適當地處理錯誤。
下面是在 Linux 內核中使用這些屬性的示例。deprecated
示例來自與體系結構無關的內核(./linux/kernel/resource.c),const
示例來自 IA64 內核源代碼(./linux/arch/ia64/kernel/unwind.c)。
int __deprecated __check_region(struct resource |
|
現在,討論有助於生成更好的機器碼的一些 GCC 特性。
在 Linux 內核中最常用的優化技術之一是 __builtin_expect
。在開發人員使用有條件代碼時,常常知道最可能執行哪個分支,而哪個分支很少執行。如果編譯器知道這種預測信息,就可以圍繞最可能執行的分支生成最優的代碼。
如下所示,__builtin_expect
的使用方法基於兩個宏 likely
和 unlikely
(見 ./linux/include/linux/compiler.h)。
#define likely(x) __builtin_expect(!!(x), 1) |
通過使用 __builtin_expect
,編譯器可以做出符合提供的預測信息的指令選擇決策。這使執行的代碼儘可能接近實際情況。它還可以改進緩存和指令流水線。
例 如,如果一個條件標上了 “likely”,那麼編譯器可以把代碼的 True 部分直接放在分支指令後面(這樣就不需要執行分支指令)。通過分支指令訪問條件結構的 False 部分,這不是最優的方式,但是訪問它的可能性不大。按照這種方式,代碼對於最可能出現的情況是最優的。
清單 5 給出一個使用 likely
和 unlikely
宏的函數(見 ./linux/net/core/datagram.c)。這個函數預測 sum
變量將是零(數據包的 checksum
是有效的),而且 ip_summed
變量不等於 CHECKSUM_HW
。
清單 5. likely 和 unlikely 宏的使用示例
|
另一種重要的性能改進方法是把必需的數據緩存在接近處理器的地方。緩存可以顯著減少訪問數據花費的時間。大多數現代處理器都有三類內存:
- 一級緩存通常支持單週期訪問
- 二級緩存支持兩週期訪問
- 系統內存支持更長的訪問時間
爲了儘可能減少訪問延時並由此提高性能,最好把數據放在最近的內存中。手工執行這個任務稱爲預抓取。GCC 通過內置函數 __builtin_prefetch
支持數據的手工預抓取。在需要數據之前,使用這個函數把數據放到緩存中。如下所示,__builtin_prefetch
函數接收三個參數:
- 數據的地址
rw
參數,使用它指明預抓取數據是爲了執行讀操作,還是執行寫操作locality
參數,使用它指定在使用數據之後數據應該留在緩存中,還是應該清除
void __builtin_prefetch( const void *addr, int rw, int locality ); |
Linux 內核經常使用預抓取。通常是通過宏和包裝器函數使用預抓取。清單 6 是一個輔助函數示例,它使用內置函數的包裝器(見 ./linux/include/linux/prefetch.h)。這個函數爲流操作實現預抓取機制。使用這個函數通常可以減少緩存缺失和停頓,從而 提高性能。
|
除了本文前面討論的函數屬性之外,GCC 還爲變量和類型定義提供了屬性。最重要的屬性之一是 aligned
屬性,它用於在內存中實現對象對齊。除了對於性能很重要之外,某些設備或硬件配置也需要對象對齊。aligned
屬性有一個參數,它指定所需的對齊類型。
下面的示例用於軟件暫停(見 ./linux/arch/i386/mm/init.c)。在需要頁面對齊時,定義 PAGE_SIZE
對象。
char __nosavedata swsusp_pg_dir[PAGE_SIZE] |
清單 7 中的示例說明關於優化的兩點:
packed
屬性打包一個結構的元素,從而儘可能減少它們佔用的空間。這意味着,如果定義一個char
變量,它佔用的空間不會超過一字節(8 位)。位字段壓縮爲一位,而不會佔用更多存儲空間。- 這段源代碼使用一個
__attribute__
聲明進行優化,它用逗號分隔的列表定義多個屬性。
|
|
本文只討論了在 Linux 內核中可以使用的幾個 GCC 特性。可以通過 GNU GCC 手冊進一步瞭解針對 C 和 C++ 語言的所有擴展(見 參考資料 中的鏈接)。另外,儘管 Linux 內核經常使用這些擴展,但是也可以在用戶自己的應用程序中使用它們。隨着 GCC 的發展,肯定會出現新的擴展,它們會進一步改進性能和增加 Linux 內核的功能。
學習
-
GNU Compiler Collection 提供關於 GCC 的所有信息。在這裏,可以找到新聞和最新的 GCC 源代碼(包括以前的和最新的發行版)。還可以找到每個版本的詳細歷史和 在線文檔,這可以提供 GCC 和所有擴展的詳細信息。
-
Experimental GCC
extensions 是 GNU 維護的擴展列表,標準的發行版還不包含這些擴展。可以通過它瞭解正在開發的 GCC 擴展。
-
閱讀文章 “認識 GCC 4”(developerWorks,2008 年 10 月),瞭解關於 GCC 的第四個主要版本(GCC4)的更多信息。這篇文章介紹 GCC4 以及它相對於前四個次要版本的改進。
- 在 developerWorks Linux 專區 尋找爲 Linux 開發人員(包括 Linux 新手入門)準備的更多參考資料,查閱我們 最受歡迎的文章和教程。
- 在 developerWorks 上查閱所有 Linux 技巧 和 Linux 教程。
-
隨時關注 developerWorks 技術活動和網絡廣播。
獲得產品和技術
-
使用可直接從 developerWorks 下載的 IBM 試用軟件 構建您的下一個 Linux 開發項目。
討論
- 通過博客、論壇、podcast 和空間,加入 developerWorks 社區。
M. Tim Jones 是一名嵌入式軟件工程師,他是 Artificial Intelligence: A Systems Approach, GNU/Linux Application Programming(現在已經是第 2 版)、AI Application Programming(第 2 版)和 BSD Sockets Programming from a Multilanguage Perspective 等書的作者。他的工程背景非常廣泛,從同步宇宙飛船的內核開發到嵌入式系統架構設計,再到網絡協議的開發。Tim 是位於科羅拉多州 Longmont 的 Emulex Corp. 的一名顧問工程師。 |