在學習 Linux® 的過程中,您也許接觸過併發(concurrency)、臨界段(critical section)和鎖定,但是如何在內核中使用這些概念呢?本文討論了 2.6 版內核中可用的鎖定機制,包括原子運算符(atomic operator)、自旋鎖(spinlock)、讀/寫鎖(reader/writer lock)和內核信號量(kernel semaphore)。 本文還探討了每種機制最適合應用到哪些地方,以構建安全高效的內核代碼。
本文討論了 Linux 內核中可用的大量同步或鎖定機制。這些機制爲 2.6.23 版內核的許多可用方法提供了應用程序接口(API)。但是在深入學習 API 之前,首先需要明白將要解決的問題。
當存在併發特性時,必須使用同步方法。當在同一時間段出現兩個或更多進程並且這些進程彼此交互(例如,共享相同的資源)時,就存在併發 現象。
在單處理器(uniprocessor,UP)主機上可能發生併發,在這種主機中多個線程共享同一個 CPU 並且搶佔(preemption)創建競態條件。搶佔 通過臨時中斷一個線程以執行另一個線程的方式來實現 CPU 共享。競態條件 發生在兩個或更多線程操縱一個共享數據項時,其結果取決於執行的時間。在多處理器(MP)計算機中也存在併發,其中每個處理器中共享相同數據的線程同時執行。注意在 MP 情況下存在真正的並行(parallelism),因爲線程是同時執行的。而在 UP 情形中,並行是通過搶佔創建的。兩種模式中實現併發都較爲困難。
Linux 內核在兩種模式中都支持併發。內核本身是動態的,而且有許多創建競態條件的方法。Linux 內核也支持多處理(multiprocessing),稱爲對稱多處理(SMP)。可以在本文後面的 參考資料 部分學到更多關於 SMP 的知識。
臨界段概念是爲解決競態條件問題而產生的。一個臨界段 是一段不允許多路訪問的受保護的代碼。這段代碼可以操縱共享數據或共享服務(例如硬件外圍設備)。臨界段操作時堅持互斥鎖(mutual exclusion)原則(當一個線程處於臨界段中時,其他所有線程都不能進入臨界段)。
臨界段中需要解決的一個問題是死鎖條件。考慮兩個獨立的臨界段,各自保護不同的資源。每個資源擁有一個鎖,在本例中稱爲 A 和 B。假設有兩個線程需要訪問這些資源,線程 X 獲取了鎖 A,線程 Y 獲取了鎖 B。當這些鎖都被持有時,每個線程都試圖佔有其他線程當前持有的鎖(線程 X 想要鎖 B,線程 Y 想要鎖 A)。這時候線程就被死鎖了,因爲它們都持有一個鎖而且還想要其他鎖。一個簡單的解決方案就是總是按相同次序獲取鎖,從而使其中一個線程得以完成。還需要其他解決方案檢測這種情形。表 1 定義了此處用到的一些重要的併發術語。
表 1. 併發中的重要定義
術語 | 定義 |
---|---|
競態條件 | 兩個或更多線程同時操作資源時將會導致不一致的結果。 |
臨界段 | 用於協調對共享資源的訪問的代碼段。 |
互斥鎖 | 確保對共享資源進行排他訪問的軟件特性。 |
死鎖 | 由兩個或更多進程和資源鎖導致的一種特殊情形,將會降低進程的工作效率。 |
|
如果您瞭解了一些基本理論並且明白了需要解決的問題,接下來將學習 Linux 支持併發和互斥鎖的各種方法。在以前,互斥鎖是通過禁用中斷來提供的,但是這種形式的鎖定效率比較低(現在在內核中仍然存在這種用法)。這種方法也不能進行擴展,而且不能保證其他處理器上的互斥鎖。
在以下關於鎖定機制的討論中,我們首先看一下原子運算符,它可以保護簡單變量(計數器和位掩碼(bitmask))。然後介紹簡單的自旋鎖和讀/寫鎖,它們構成了一個 SMP 架構的忙等待鎖(busy-wait lock)覆蓋。最後,我們討論構建在原子 API 上的內核互斥鎖。
|
Linux 中最簡單的同步方法就是原子操作。原子 意味着臨界段被包含在 API 函數中。不需要額外的鎖定,因爲 API
函數已經包含了鎖定。由於 C 不能實現原子操作,因此 Linux
依靠底層架構來提供這項功能。各種底層架構存在很大差異,因此原子函數的實現方法也各不相同。一些方法完全通過彙編語言來實現,而另一些方法依靠 c 語言並且使用
local_irq_save
和 local_irq_restore
禁用中斷。
|
當需要保護的數據非常簡單時,例如一個計數器,原子運算符是種理想的方法。儘管原理簡單,原子 API 提供了許多針對不同情形的運算符。下面是一個使用此 API 的示例。
要聲明一個原子變量(atomic variable),首先聲明一個 atomic_t
類型的變量。這個結構包含了單個
int
元素。接下來,需確保您的原子變量使用 ATOMIC_INIT
符號常量進行了初始化。 在清單 1
的情形中,原子計數器被設置爲 0。也可以使用 atomic_set function
在運行時對原子變量進行初始化。
清單 1. 創建和初始化原子變量
|
原子 API 支持一個涵蓋許多用例的富函數集。可以使用 atomic_read
讀取原子變量中的內容,也可以使用
atomic_add
爲一個變量添加指定值。最常用的操作是使用 atomic_inc
使變量遞增。也可用減號運算符,它的作用與相加和遞增操作相反。清單 2. 演示了這些函數。
清單 2. 簡單的算術原子函數
|
該 API 也支持許多其他常用用例,包括 operate-and-test 例程。這些例程允許對原子變量進行操縱和測試(作爲一個原子操作來執行)。一個叫做
atomic_add_negative
的特殊函數被添加到原子變量中,然後當結果值爲負數時返回真(true)。這被內核中一些依賴於架構的信號量函數使用。
許多函數都不返回變量的值,但兩個函數除外。它們會返回結果值( atomic_add_return
和
atomic_sub_return
),如清單 3所示。
清單 3. Operate-and-test 原子函數
|
如果您的架構支持 64 位長類型(BITS_PER_LONG
是 64 的),那麼可以使用 long_t
atomic
操作。可以在 linux/include/asm-generic/atomic.h 中查看可用的長操作(long
operation)。
原子 API 還支持位掩碼(bitmask)操作。跟前面提到的算術操作不一樣,它只包含設置和清除操作。許多驅動程序使用這些原子操作,特別是 SCSI。位掩碼原子操作的使用跟算術操作存在細微的差別,因爲其中只有兩個可用的操作(設置掩碼和清除掩碼)。使用這些操作前,需要提供一個值和將要進行操作的位掩碼,如清單 4 所示。
清單 4. 位掩碼原子函數
|
|
自旋鎖是使用忙等待鎖來確保互斥鎖的一種特殊方法。如果鎖可用,則獲取鎖,執行互斥鎖動作,然後釋放鎖。如果鎖不可用,線程將忙等待該鎖,直到其可用爲止。忙等待看起來效率低下,但它實際上比將線程休眠然後當鎖可用時將其喚醒要快得多。
自旋鎖只在 SMP 系統中才有用,但是因爲您的代碼最終將會在 SMP 系統上運行,將它們添加到 UP 系統是個明智的做法。
自旋鎖有兩種可用的形式:完全鎖(full lock)和讀寫鎖。 首先看一下完全鎖。
首先通過一個簡單的聲明創建一個新的自旋鎖。這可以通過調用 spin_lock_init
進行初始化。清單 5
中顯示的每個變量都會實現相同的結果。
清單 5. 創建和初始化自旋鎖
|
定義了自旋鎖之後,就可以使用大量的鎖定變量了。每個變量用於不同的上下文。
清單 6 中顯示了 spin_lock
和 spin_unlock
變量。這是一個最簡單的變量,它不會執行中斷禁用,但是包含全部的內存壁壘(memory
barrier)。這個變量假定中斷處理程序和該鎖之間沒有交互。
清單 6. 自旋鎖 lock 和 unlock 函數
|
接下來是 irqsave
和 irqrestore
對,如清單 7
所示。spin_lock_irqsave
函數需要自旋鎖,並且在本地處理器(在 SMP
情形中)上禁用中斷。spin_unlock_irqrestore
函數釋放自旋鎖,並且(通過 flags
參數)恢復中斷。
清單 7. 自旋鎖變量,其中禁用了本地 CPU 中斷
|
spin_lock_irqsave
/spin_unlock_irqrestore
的一個不太安全的變體是 spin_lock_irq
/spin_unlock_irq
。
我建議不要使用此變體,因爲它會假設中斷狀態。
最後,如果內核線程通過 bottom half 方式共享數據,那麼可以使用自旋鎖的另一個變體。bottom half 方法可以將設備驅動程序中的工作延遲到中斷處理後執行。這種自旋鎖禁用了本地 CPU 上的軟中斷。這可以阻止 softirq、tasklet 和 bottom half 在本地 CPU 上運行。這個變體如清單 8 所示。
清單 8. 自旋鎖函數實現 bottom-half 交互
|
|
在許多情形下,對數據的訪問是由大量的讀和少量的寫操作來完成的(讀取數據比寫入數據更常見)。讀/寫鎖的創建就是爲了支持這種模型。這個模型有趣的地方在於允許多個線程同時訪問相同數據,但同一時刻只允許一個線程寫入數據。如果執行寫操作的線程持有此鎖,則臨界段不能由其他線程讀取。如果一個執行讀操作的線程持有此鎖,那麼多個讀線程都可以進入臨界段。清單 9 演示了這個模型。
清單 9. 讀/寫自旋鎖函數
|
根據對鎖的需求,還針對 bottom half 和中斷請求(IRQ)對讀/寫自旋鎖進行了修改。顯然,如果您使用的是原版的讀/寫鎖,那麼按照標準自旋鎖的用法使用這個自旋鎖,而不區分讀線程和寫線程。
|
在內核中可以使用互斥鎖來實現信號量行爲。內核互斥鎖是在原子 API 之上實現的,但這對於內核用戶是不可見的。互斥鎖很簡單,但是有一些規則必須牢記。同一時間只能有一個任務持有互斥鎖,而且只有這個任務可以對互斥鎖進行解鎖。互斥鎖不能進行遞歸鎖定或解鎖,並且互斥鎖可能不能用於交互上下文。但是互斥鎖比當前的內核信號量選項更快,並且更加緊湊,因此如果它們滿足您的需求,那麼它們將是您明智的選擇。
可以通過 DEFINE_MUTEX
宏使用一個操作創建和初始化互斥鎖。這將創建一個新的互斥鎖並初始化其結構。可以在
./linux/include/linux/mutex.h 中查看該實現。
DEFINE_MUTEX( my_mutex ); |
互斥鎖 API 提供了 5 個函數:其中 3
個用於鎖定,一個用於解鎖,另一個用於測試互斥鎖。首先看一下鎖定函數。在需要立即鎖定以及希望在互斥鎖不可用時掌握控制的情形下,可以使用第一個函數
mutex_trylock
。該函數如清單 10 所示。
清單 10. 嘗試使用
mutex_trylock
獲得互斥鎖
|
如果想等待這個鎖,可以調用
mutex_lock
。這個調用在互斥鎖可用時返回,否則,在互斥鎖鎖可用之前它將休眠。無論在哪種情形中,當控制被返回時,調用者將持有互斥鎖。最後,當調用者休眠時使用
mutex_lock_interruptible
。在這種情況下,該函數可能返回 -EINTR
。清單 11
中顯示了這兩種調用。
清單 11. 鎖定一個可能處於休眠狀態的互斥鎖
|
當一個互斥鎖被鎖定後,它必須被解鎖。這是由 mutex_unlock
函數來完成的。這個函數不能從中斷上下文調用。最後,可以通過調用 mutex_is_locked
檢查互斥鎖的狀態。這個調用實際上編譯成一個內聯函數。如果互斥鎖被持有(鎖定),那麼就會返回 1;否則,返回 0。清單 12 演示了這些函數。
清單 12. 用
mutex_is_locked
測試互斥鎖鎖
|
互斥鎖 API 存在着自身的侷限性,因爲它是基於原子 API 的。但是其效率比較高,如果能滿足你的需要,還是可以使用的。
|
最後看一下大內核鎖(BLK)。它在內核中的用途越來越小,但是仍然有一些保留下來的用法。BKL 使多處理器 Linux
成爲可能,但是細粒度(finer-grained)鎖正在慢慢取代 BKL。BKL 通過 lock_kernel
和
unlock_kernel
函數提供。要獲得更多信息,請查看 ./linux/lib/kernel_lock.c。
|
|
Linux 性能非凡,其鎖定方法也一樣。原子鎖不僅提供了一種鎖定機制,同時也提供了算術或 bitwise 操作。自旋鎖提供了一種鎖定機制(主要應用於 SMP),而且讀/寫自旋鎖允許多個讀線程且僅有一個寫線程獲得給定的鎖。最後,互斥鎖是一種新的鎖定機制,提供了一種構建在原子之上的簡單 API。不管你需要什麼,Linux 都會提供一種鎖定方案保護您的數據。
學習
- 您可以參閱本文在 developerWorks 全球站點上的 英文原文。
- 查閱 developerWorks 上 Tim 的所有 Anatomy of... 文章。
- “Linux 和對稱多處理”(developerWorks,2007 年 3 月)探討了使用 SMP
進行多處理和開發 Linux 應用程序的思想。引入 SMP 之後,鎖定機制就變得更加重要了。
- Rusty Russell 的 Unreliable Guide to Locking 討論了關於 Linux
內核鎖定的一個早期的話題。
- 在 LWN.net 上查閱 “The Big Kernel Lock lives on”,瞭解爲什麼大內核鎖在 Linux
內核中仍然佔有一席之地。
- 在 developerWorks Linux 專區 中查找關於 Linux 開發人員的更多資源,瀏覽我們的 最流行的文章和教程。
- 在 developerWorks 上查看所有的 Linux 技巧 和 Linux 教程。
- 隨時關注 developerWorks 技術活動和網絡廣播。
獲得產品和技術
- 在 Linux Kernel
Archives 上獲取最新的 Linux 源代碼。Linux
源代碼本身就是關於內核操作最直接的來源。文檔子目錄中也有大量文檔(儘管其中部分內容比較陳舊)。
- 訂購 SEK for Linux,這套光盤(2張 DVD)包含了最新的 IBM Linux
試用軟件,這些軟件來自 DB2®、Lotus®、Rational®、Tivoli® 和 WebSphere®。
- 使用可從 developerWorks 直接下載的 IBM 試用軟件,構建下一個 Linux 開發項目。
討論
- 通過我們的 新 developerWorks 空間 中的 blog、論壇、podcast 和社區主題加入 developerWorks 社區。
M. Tim Jones 是一名嵌入式軟件工程師,他是 GNU/Linux Application Programming、AI Application Programming 以及 BSD Sockets Programming from a Multilanguage Perspective 等書的作者。他的工程背景非常廣泛,從同步宇宙飛船的內核開發到嵌入式架構設計,再到網絡協議的開發。Tim 是位於科羅拉多州 Longmont 的 Emulex Corp. 的一名顧問工程師。 |