從原理上搞懂如何設置線程池參數大小

我們在使用線程池的時候，會有兩個疑問點：

線程池的線程數量設置過多會導致線程競爭激烈
如果線程數量設置過少的話，還會導致系統無法充分利用計算機資源

那麼如何設置纔不會影響系統性能呢？

其實線程池的設置是有方法的，不是憑藉簡單的估算來決定的。今天我們就來看看究竟有哪些計算方法可以複用，線程池中各個參數之間又存在怎樣的關係呢？本文咱們來慢慢聊。

線程池原理

開始優化之前，我們先來看看線程池的實現原理，有助於你更好地理解後面的內容。

在 HotSpot VM 的線程模型中，Java 線程被一對一映射爲內核線程。Java 在使用線程執行程序時，需要創建一個內核線程；當該 Java 線程被終止時，這個內核線程也會被回收。因此 Java 線程的創建與銷燬將會消耗一定的計算機資源，從而增加系統的性能開銷。

除此之外，大量創建線程同樣會給系統帶來性能問題，因爲內存和 CPU 資源都將被線程搶佔，如果處理不當，就會發生內存溢出、CPU 使用率超負荷等問題。

爲了解決上述兩類問題，Java 提供了線程池概念，對於頻繁創建線程的業務場景，線程池可以創建固定的線程數量，並且在操作系統底層，輕量級進程將會把這些線程映射到內核。

線程池可以提高線程複用，又可以固定最大線程使用量，防止無限制地創建線程。

當程序提交一個任務需要一個線程時，會去線程池中查找是否有空閒的線程，若有，則直接使用線程池中的線程工作，若沒有，會去判斷當前已創建的線程數量是否超過最大線程數量，如未超過，則創建新線程，如已超過，則進行排隊等待或者直接拋出異常。

線程池框架 Executor

Java 最開始提供了 ThreadPool 實現了線程池，爲了更好地實現用戶級的線程調度，更有效地幫助開發人員進行多線程開發，Java 提供了一套 Executor 框架。

這個框架中包括了 ScheduledThreadPoolExecutor 和 ThreadPoolExecutor 兩個核心線程池。前者是用來定時執行任務，後者是用來執行被提交的任務。

鑑於這兩個線程池的核心原理是一樣的，下面我們就重點看看 ThreadPoolExecutor 類是如何實現線程池的。

Executors 實現了以下四種類型的 ThreadPoolExecutor：

Executors 利用工廠模式實現的四種線程池，我們在使用的時候需要結合生產環境下的實際場景。
不過我不太推薦使用它們，因爲選擇使用 Executors 提供的工廠類，將會忽略很多線程池的參數設置，工廠類一旦選擇設置默認參數，就很容易導致無法調優參數設置，從而產生性能問題或者資源浪費。

我建議你使用 ThreadPoolExecutor 自我定製一套線程池（阿里規範中也是建議不要使用Executors 創建線程池，建議使用ThreadPoolExecutor 來創建線程池）。

進入四種工廠類後，我們可以發現除了 newScheduledThreadPool 類，其它類均使用了 ThreadPoolExecutor 類進行實現，

你可以通過以下代碼簡單看下該方法

corePoolSize：線程池的核心線程數量
maximumPoolSize：線程池的最大線程數
keepAliveTime：當線程數大於核心線程數時，多餘的空閒線程存活的最長時間
unit：時間單位
workQueue：任務隊列，用來儲存等待執行任務的隊列
threadFactory：線程工廠，用來創建線程，一般默認即可
handler：拒絕策略，當提交的任務過多而不能及時處理時，我們可以定製策略來處理任務

我們還可以通過下面這張圖來了解下線程池中各個參數的相互關係：

通過上圖，我們發現線程池有兩個線程數的設置，一個爲核心線程數，一個爲最大線程數。在創建完線程池之後，默認情況下，線程池中並沒有任何線程，等到有任務來才創建線程去執行任務。

但有一種情況排除在外，就是調用 prestartAllCoreThreads() 或者 prestartCoreThread() 方法的話，可以提前創建等於核心線程數的線程數量，這種方式被稱爲預熱，在搶購系統中就經常被用到。

當創建的線程數等於 corePoolSize 時，提交的任務會被加入到設置的阻塞隊列中。當隊列滿了，會創建線程執行任務，直到線程池中的數量等於 maximumPoolSize。

當線程數量已經等於 maximumPoolSize 時，新提交的任務無法加入到等待隊列，也無法創建非核心線程直接執行，我們又沒有爲線程池設置拒絕策略，這時線程池就會拋出 RejectedExecutionException 異常，即線程池拒絕接受這個任務。

當線程池中創建的線程數量超過設置的 corePoolSize，在某些線程處理完任務後，如果等待 keepAliveTime 時間後仍然沒有新的任務分配給它，那麼這個線程將會被回收。線程池回收線程時，會對所謂的“核心線程”和“非核心線程”一視同仁，直到線程池中線程的數量等於設置的 corePoolSize 參數，回收過程纔會停止。

即使是 corePoolSize 線程，在一些非核心業務的線程池中，如果長時間地佔用線程數量，也可能會影響到核心業務的線程池，這個時候就需要把沒有分配任務的線程回收掉。

我們可以通過 allowCoreThreadTimeOut 設置項要求線程池：將包括“核心線程”在內的，沒有任務分配的所有線程，在等待 keepAliveTime 時間後全部回收掉。

計算線程數量

瞭解完線程池的實現原理和框架，我們就可以動手實踐優化線程池的設置了。

我們知道，環境具有多變性，設置一個絕對精準的線程數其實是不大可能的，但我們可以通過一些實際操作因素來計算出一個合理的線程數，避免由於線程池設置不合理而導致的性能問題。下面我們就來看看具體的計算方法。

一般多線程執行的任務類型可以分爲 CPU 密集型和 I/O 密集型，根據不同的任務類型，我們計算線程數的方法也不一樣。

CPU 密集型任務

這種任務消耗的主要是 CPU 資源，可以將線程數設置爲 N（CPU 核心數）+1，比 CPU 核心數多出來的一個線程是爲了防止線程偶發的缺頁中斷，或者其它原因導致的任務暫停而帶來的影響。

一旦任務暫停，CPU 就會處於空閒狀態，而在這種情況下多出來的一個線程就可以充分利用 CPU 的空閒時間。

下面我們用一個例子來驗證下這個方法的可行性，通過觀察 CPU 密集型任務在不同線程數下的性能情況就可以得出結果，你可以點擊Github下載到本地運行測試：

public class CPUTypeTest implements Runnable {
	// 整體執行時間，包括在隊列中等待的時間
	List<Long> wholeTimeList;
	// 真正執行時間
	List<Long> runTimeList;
	private long initStartTime = 0;
	/**
	* 構造函數
	* @param runTimeList
	* @param wholeTimeList
	*/
	public CPUTypeTest(List<Long> runTimeList, List<Long> wholeTimeList) {
		initStartTime = System.currentTimeMillis();
		this.runTimeList = runTimeList;
		this.wholeTimeList = wholeTimeList;
	}
	/**
	* 判斷素數
	* @param number
	* @return
	*/
	public boolean isPrime(final int number) {
		if (number <= 1)
			return false;
		for (int i = 2; i <= Math.sqrt(number); i++) {
			if (number % i == 0)
				return false;
		}
		return true;
	}
	/**
	* 計算素數
	* @param number
	* @return
	*/
	public int countPrimes(final int lower, final int upper) {
		int total = 0;
		for (int i = lower; i <= upper; i++) {
			if (isPrime(i))
				total++;
		}
		return total;
	}
	public void run() {
		long start = System.currentTimeMillis();
		countPrimes(1, 1000000);
		long end = System.currentTimeMillis();
		long wholeTime = end - initStartTime;
		long runTime = end - start;
		wholeTimeList.add(wholeTime);
		runTimeList.add(runTime);
		System.out.println(" 單個線程花費時間：" + (end - start));
	}
}

測試代碼在 4 核 intel i5 CPU 機器上的運行時間變化如下：

綜上可知：當線程數量太小，同一時間大量請求將被阻塞在線程隊列中排隊等待執行線程，此時 CPU 沒有得到充分利用；當線程數量太大，被創建的執行線程同時在爭取 CPU 資源，又會導致大量的上下文切換，從而增加線程的執行時間，影響了整體執行效率。通過測試可知，4~6 個線程數是最合適的。

I/O 密集型任務

這種任務應用起來，系統會用大部分的時間來處理 I/O 交互，而線程在處理 I/O 的時間段內不會佔用 CPU 來處理，這時就可以將 CPU 交出給其它線程使用。因此在 I/O 密集型任務的應用中，我們可以多配置一些線程，具體的計算方法是 2N。

這裏我們還是通過一個例子來驗證下這個公式是否可以標準化：

public class IOTypeTest implements Runnable {
	// 整體執行時間，包括在隊列中等待的時間
	Vector<Long> wholeTimeList;
	// 真正執行時間
	Vector<Long> runTimeList;
	private long initStartTime = 0;

	/**
	* 構造函數
	* @param runTimeList
	* @param wholeTimeList
	*/
	public IOTypeTest(Vector<Long> runTimeList, Vector<Long> wholeTimeList) {
		initStartTime = System.currentTimeMillis();
		this.runTimeList = runTimeList;
		this.wholeTimeList = wholeTimeList;
	}

	/**
	*IO 操作
	* @param number
	* @return
	* @throws IOException
	*/
	public void readAndWrite() throws IOException {
		File sourceFile = new File("D:/test.txt");
		// 創建輸入流
		BufferedReader input = new BufferedReader(new FileReader(sourceFile));
		// 讀取源文件, 寫入到新的文件
		String line = null;
		while((line = input.readLine()) != null){
		//System.out.println(line);

		}
		// 關閉輸入輸出流
		input.close();

	}
	public void run() {
		long start = System.currentTimeMillis();
		try {
			readAndWrite();
		} catch (IOException e) {
			e.printStackTrace();
		}
		long end = System.currentTimeMillis();
		long wholeTime = end - initStartTime;
		long runTime = end - start;
		wholeTimeList.add(wholeTime);
		runTimeList.add(runTime);
		System.out.println(" 單個線程花費時間：" + (end - start));
	}
}

備註：由於測試代碼讀取 2MB 大小的文件，涉及到大內存，所以在運行之前，我們需要調整 JVM 的堆內存空間：-Xms4g -Xmx4g，避免發生頻繁的 FullGC，影響測試結果。

通過測試結果，我們可以看到每個線程所花費的時間。當線程數量在 8 時，線程平均執行時間是最佳的，這個線程數量和我們的計算公式所得的結果就差不多。

看完以上兩種情況下的線程計算方法，你可能還想說，在平常的應用場景中，我們常常遇不到這兩種極端情況，那麼碰上一些常規的業務操作，比如，通過一個線程池實現向用戶定時推送消息的業務，我們又該如何設置線程池的數量呢？

此時我們可以參考以下公式來計算線程數：

WT：線程等待時間

ST：線程時間運行時間

我們可以通過 JDK 自帶的工具 VisualVM 來查看 WT/ST 比例，以下例子是基於運行純 CPU 運算的例子，我們可以看到：

WT（線程等待時間）= 36788ms [線程運行總時間] - 36788ms[ST（線程時間運行時間）]= 0
線程數 =N（CPU 核數）*（1+ 0 [WT（線程等待時間）]/36788ms[ST（線程時間運行時間）]）= N（CPU 核數）

這跟我們之前通過 CPU 密集型的計算公式 N+1 所得出的結果差不多。

綜合來看，我們可以根據自己的業務場景，從“N+1”和“2N”兩個公式中選出一個適合的，計算出一個大概的線程數量，之後通過實際壓測，逐漸往“增大線程數量”和“減小線程數量”這兩個方向調整，然後觀察整體的處理時間變化，最終確定一個具體的線程數量。

總結

本文我們主要學習了線程池的實現原理，Java 線程的創建和消耗會給系統帶來性能開銷，因此 Java 提供了線程池來複用線程，提高程序的併發效率。

Java 通過用戶線程與內核線程結合的 1:1 線程模型來實現，Java 將線程的調度和管理設置在了用戶態，提供了一套 Executor 框架來幫助開發人員提高效率。Executor 框架不僅包括了線程池的管理，還提供了線程工廠、隊列以及拒絕策略等，可以說 Executor 框架爲併發編程提供了一個完善的架構體系。

在不同的業務場景以及不同配置的部署機器中，線程池的線程數量設置是不一樣的。

其設置不宜過大，也不宜過小，要根據具體情況，計算出一個大概的數值，再通過實際的性能測試，計算出一個合理的線程數量。

我們要提高線程池的處理能力，一定要先保證一個合理的線程數量，也就是保證 CPU 處理線程的最大化。在此前提下，我們再增大線程池隊列，通過隊列將來不及處理的線程緩存起來。在設置緩存隊列時，我們要儘量使用一個有界隊列，以防因隊列過大而導致的內存溢出問題

轉載：https://mp.weixin.qq.com/s/iq0xgtWdVEuJH8PXn_u6qg

從原理上搞懂如何設置線程池參數大小

線程池原理

線程池框架 Executor

計算線程數量

CPU 密集型任務

I/O 密集型任務

總結

ollama使用

Window 安裝 Python 失敗 0x80070643，發生嚴重錯誤

TiDB Vector 太香啦：以圖搜圖初體驗！

《最新出爐》系列入門篇-Python+Playwright自動化測試-41-錄製視頻

2. Elasticsearch 的核心概念

1. Elasticsearch 的安裝與配置（windows版本）

MEM 初試英語筆試模板--大作文第二段萬能句

1. 複雜度：如何衡量程序運行的效率？

MEM 初試英語筆試模板--大作文第一段萬能句

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結