Python多線程的退出控制

Python多線程的退出控制

日常前言

最近接 到一個搶票的爬蟲外包,那個網站及其之撈,訪問購票地址竟然還要排隊,在購票高峯臨時升一下服務器配置不行嗎…沒辦法,甲方爸爸的要求還得做啊,其中一個障礙便是目標網站的後端限制了訪問頻次,俗話說:“上有政策,下有對策。” 立刻想到了多線程 + 多代理的方式進行訪問。
在這裏插入圖片描述

但此時問題便來了,多代理還好說,再寫個爬蟲爬一堆下來就好,多線程可就麻煩多了,多線程一旦發出去了,基本等同於失控的狀態,你無法去結束或者是重啓一個線程,最多隻能是獲取線程的信息,沒有實際的控制權,而且Python官方也沒有提供相應的結束函數。那麼接下來,讓我們來好好聊聊解決這個問題的思路。

單線程的結束

說實話,會百度在程序世界是一個優秀的習慣,不然怎麼會有這麼一張表情包呢
在這裏插入圖片描述
但是百度這一次卻不盡人意,搜了很久,結果不盡人意,基本上所有的搜索結果都告訴我只有結束單個線程的方法,我也試過循環使用百度的結束函數,但最終都只能是結束的當前的這一個線程,無法達到目標。

貼一段搜到的單線程結束代碼示例

def _async_raise(tid, exctype):
    tid = ctypes.c_long(tid)
    if not inspect.isclass(exctype):
        exctype = type(exctype)
    res = ctypes.pythonapi.PyThreadState_SetAsyncExc(tid, ctypes.py_object(exctype))
    if res == 0:
        raise ValueError("invalid thread id")
    elif res != 1:
        ctypes.pythonapi.PyThreadState_SetAsyncExc(tid, None)
        raise SystemError("PyThreadState_SetAsyncExc failed")
        
def stop_thread(thread):
    _async_raise(thread.ident, SystemExit)

那怎麼結束多個線程呢?

既然度娘也搜不到,那就自己探索,打開python threading模塊的官方文檔,其中一個daemon屬性進入了視野,單詞翻譯過來便是守護進程,相信大家應該或多或少的聽到過,以下是官方的釋義,大概意思就是只要在啓動線程之前設置了這個屬性爲True,當父進程結束時,所有的子進程跟着全部結束,這樣就好辦了,接下來看看代碼部分。

daemon
A boolean value indicating whether this thread is a daemon thread (True) or not (False). This must be set before start() is called, otherwise RuntimeError is raised. Its initial value is inherited from the creating thread; the main thread is not a daemon thread and therefore all threads created in the main thread default to daemon = False.

完整代碼

import threading,time,random

class Messy:
    def __init__(self):
        self.__messy = 0

    def m(self,i):
		# 隨機時間進行打印
        time.sleep(random.random()*2)
        print(i)
        if i == 1:
            self.__messy = 1

    def main(self):
        Threads = []
        # 將會啓動10個線程,線程id爲 1 時全部線程終止!
        for i in range(10):
            t = threading.Thread(target=self.m,args=(i,))
            t.daemon = 1
            Threads.append(t)
        # 啓動所有線程
        for i in Threads:
            i.start()
        # 當標誌位【 messy 】時所有多線程結束
        while 1:
            if self.__messy:
                break
        print('線程已退出!')

Messy().main()
# 繼續執行後續程序
for i in range(5):
    print('yeah!')

此時,main這個函數對於多線程來講,便是父進程,也就是守護進程。預計會進行10次循環的數字打印,但是當self.__messy這個標誌位爲真時,所有的剩餘子線程將不會再執行,直接結束進行後續的操作

e.g:如下圖便只打印了四次
在這裏插入圖片描述

最後

目前來講,用設置主線程退出的方法是可以完成現在這個搶票的目標。

但是後來發現其實這麼做也會帶來很多壞處,直接殺掉所有子線程對系統來說是一個很粗魯的行爲,如果涉及到的操作包括了文件數據、數據庫數據的改動的話,內存無法被合理釋放(之前就遇到過CPU莫名佔用滿),極有可能造成數據丟失甚至系統中斷

我這裏只是一個搶票的小程序,子線程只用到了POST,網絡請求中斷帶來的影響還是相對來講比較小的,所以大家酌情使用本篇所介紹的方法。

本文作者: Messy
原文鏈接:https://www.messys.top/detail/78
版權聲明: 本博客所有文章除特別聲明外, 均採用 CC BY-NC-SA 4.0 許可協議. 轉載請註明出處!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章