協程,又稱微線程,纖程。英文名Coroutine。
協程的概念很早就提出來了,但直到最近幾年纔在某些語言(如Lua)中得到廣泛應用。
子程序,或者稱爲函數,在所有語言中都是層級調用,比如A調用B,B在執行過程中又調用了C,C執行完畢返回,B執行完畢返回,最後是A執行完畢。
所以子程序調用是通過棧實現的,一個線程就是執行一個子程序。
子程序調用總是一個入口,一次返回,調用順序是明確的。而協程的調用和子程序不同。
協程看上去也是子程序,但執行過程中,在子程序內部可中斷,然後轉而執行別的子程序,在適當的時候再返回來接着執行。
注意,在一個子程序中中斷,去執行其他子程序,不是函數調用,有點類似CPU的中斷。比如子程序A、B:
def A():
print('1')
print('2')
print('3')
def B():
print('x')
print('y')
print('z')
假設由協程執行,在執行A的過程中,可以隨時中斷,去執行B,B也可能在執行過程中中斷再去執行A,結果可能是:
1
2
x
y
3
z
但是在A中是沒有調用B的,所以協程的調用比函數調用理解起來要難一些。
看起來A、B的執行有點像多線程,但協程的特點在於是一個線程執行,那和多線程比,協程有何優勢?
最大的優勢就是協程極高的執行效率。因爲子程序切換不是線程切換,而是由程序自身控制,因此,沒有線程切換的開銷,和多線程比,線程數量越多,協程的性能優勢就越明顯。
第二大優勢就是不需要多線程的鎖機制,因爲只有一個線程,也不存在同時寫變量衝突,在協程中控制共享資源不加鎖,只需要判斷狀態就好了,所以執行效率比多線程高很多。
因爲協程是一個線程執行,那怎麼利用多核CPU呢?最簡單的方法是多進程+協程,既充分利用多核,又充分發揮協程的高效率,可獲得極高的性能。
Python對協程的支持是通過generator實現的。
在generator中,我們不但可以通過for循環來迭代,還可以不斷調用next()函數獲取由yield語句返回的下一個值。
但是Python的yield不但可以返回一個值,它還可以接收調用者發出的參數。
來看例子:
傳統的生產者-消費者模型是一個線程寫消息,一個線程取消息,通過鎖機制控制隊列和等待,但一不小心就可能死鎖。
如果改用協程,生產者生產消息後,直接通過yield跳轉到消費者開始執行,待消費者執行完畢後,切換回生產者繼續生產,效率極高:
def consumer():
r = ''
while True:
# 2.consumer通過yield拿到傳遞的None,yield跳出. 這裏的 n 的值等於send(n) 裏的 n
n = yield r
# 4.從上次跳出的位置,接着往下執行
if not n:
return
print('[CONSUMER] Consuming %s ..'%n)
r = '200 0k'
# 6.從這裏開始循環,到yield的時候,再跳出來
def produce(c):
# 1.啓動生成器,會跳到consumer
c.send(None)
# 3.接着往下執行,產生數據,通過c.send(n),再切換到consumer
n = 0
while n < 5:
n += 1
print('[PRODUCER] Producing %s ...'%n)
r = c.send(n)
# 7.跳出來後,函數返回值是200 OK,所以往下執行,print出200 OK
print('[PRODUCER] Consumer return: %s'%r)
# 8.從這裏開始循環前面的步驟,直到最後
c.close()
if __name__ == '__main__':
c = consumer()
produce(c)
注意到consumer函數是一個generator,把一個consumer傳入produce後:
首先調用c.send(None)啓動生成器;
然後,一旦生產了東西,通過c.send(n)切換到consumer執行;
consumer通過yield拿到消息,處理,又通過yield把結果傳回;
produce拿到consumer處理的結果,繼續生產下一條消息;
produce決定不生產了,通過c.close()關閉consumer,整個過程結束。
整個流程無鎖,由一個線程執行,produce和consumer協作完成任務,所以稱爲“協程”,而非線程的搶佔式多任務。
最後套用Donald Knuth的一句話總結協程的特點:
“子程序就是協程的一種特例。”