Java中的線程池

Java併發編程的藝術筆記

前言

Java中的線程池是運用場景最多的併發框架，幾乎所有需要異步或併發執行任務的程序都可以使用線程池。

在開發過程中，合理地使用線程池能夠帶來3個好處。

降低資源消耗。通過重複利用已創建的線程降低線程創建和銷燬造成的消耗。
提高響應速度。當任務到達時，任務可以不需要等到線程創建就能立即執行。
提高線程的可管理性。線程是稀缺資源，如果無限制地創建，不僅會消耗系統資源，還會降低系統的穩定性，使用線程池可以進行統一分配、調優和監控。但是，要做到合理利用線程池，必須對其實現原理瞭如指掌。

線程池的實現原理

當向線程池提交一個任務之後，線程池是如何處理這個任務的呢？
本文來看一下線程池的主要處理流程，處理流程圖下圖所示。

從圖中可以看出，當提交一個新任務到線程池時，線程池的處理流程如下。

線程池判斷核心線程池裏的線程是否都在執行任務。如果不是，則創建一個新的工作線程來執行任務。如果核心線程池裏的線程都在執行任務，則進入下個流程。
線程池判斷工作隊列是否已經滿。如果工作隊列沒有滿，則將新提交的任務存儲在這個工作隊列裏。如果工作隊列滿了，則進入下個流程。
線程池判斷線程池的線程是否都處於工作狀態。如果沒有，則創建一個新的工作線程來執行任務。如果已經滿了，則交給飽和策略來處理這個任務。

ThreadPoolExecutor 執行 execute() 方法的示意圖如下：

ThreadPoolExecutor執行execute方法分下面4種情況：

如果當前運行的線程少於corePoolSize，則創建新線程來執行任務（注意，執行這一步驟需要獲取全局鎖）。上圖1
如果運行的線程等於或多於corePoolSize，則將任務加入BlockingQueue。上圖2
如果無法將任務加入BlockingQueue（隊列已滿），則創建新的線程來處理任務（注意，執行這一步驟需要獲取全局鎖）。上圖3
如果創建新線程將使當前運行的線程超出maximumPoolSize，任務將被拒絕，並調用RejectedExecutionHandler.rejectedExecution()方法。上圖4

ThreadPoolExecutor採取上述步驟的總體設計思路，是爲了在執行execute()方法時，儘可能地避免獲取全局鎖（那將會是一個嚴重的可伸縮瓶頸）。在ThreadPoolExecutor完成預熱之後（當前運行的線程數大於等於corePoolSize），幾乎所有的execute()方法調用都是執行上圖2 ，而上圖2 不需要獲取全局鎖。

源碼分析：上面的流程分析讓我們很直觀地瞭解了線程池的工作原理，讓我們再通過源代碼來看看是如何實現的，線程池執行任務的方法如下：

public void execute(Runnable command) {
    if (command == null)
        throw new NullPointerException();

    int c = ctl.get();
    if (workerCountOf(c) < corePoolSize) {
        // 如果線程數小於基本線程數，則創建線程並執行當前任務
        if (addWorker(command, true))
            return;
        c = ctl.get();
    }

    // 如線程數大於等於基本線程數或線程創建失敗，則將當前任務放到工作隊列中。
    if (isRunning(c) && workQueue.offer(command)) {
        int recheck = ctl.get();
        if (!isRunning(recheck) && remove(command))
            reject(command);
        else if (workerCountOf(recheck) == 0)
            addWorker(null, false);
    } else if (!addWorker(command, false))
        // 如果線程池不處於運行中或任務無法放入隊列，
        //並且當前線程數量小於最大允許的線程數量,則創建一個線程執行任務.

        // 拋出RejectedExecutionException異常
        reject(command);
}

工作線程：線程池創建線程時，會將線程封裝成工作線程Worker，Worker在執行完任務後，還會循環獲取工作隊列裏的任務來執行。我們可以從Worker類的run()方法裏看到這點。

public void run() {
    try {
        Runnable task = firstTask;
        firstTask = null;
        while (task != null || (task = getTask()) != null) {
            runTask(task);
            task = null;
        }
    } finally {
        workerDone(this);
    }
}

ThreadPoolExecutor中線程執行任務的示意圖如下：

線程池中的線程執行任務分兩種情況：

在execute()方法中創建一個線程時，會讓這個線程執行當前任務。
這個線程執行完上圖中1的任務後，會反覆從BlockingQueue獲取任務來執行。

線程池的使用

線程池的創建
我們可以通過ThreadPoolExecutor來創建一個線程池。

ThreadPoolExecutor(corePoolSize, maximumPoolSize, keepAliveTime,
                unit, workQueue, threadFactory, handler);

創建一個線程池時需要輸入幾個參數：

corePoolSize（線程池的基本大小）：當提交一個任務到線程池時，線程池會創建一個線程來執行任務，即使其他空閒的基本線程能夠執行新任務也會創建線程，等到需要執行的任務數大於線程池基本大小時就不再創建。
如果調用了線程池的prestartAllCoreThreads()方法，線程池會提前創建並啓動所有基本線程。
maximumPoolSize（線程池最大數量）：線程池允許創建的最大線程數。如果隊列滿了，並且已創建的線程數小於最大線程數，則線程池會再創建新的線程執行任務。值得注意的是，如果使用了無界的任務隊列這個參數就沒什麼效果。
keepAliveTime（線程活動保持時間）：線程池的工作線程空閒後，保持存活的時間。所以，如果任務很多，並且每個任務執行的時間比較短，可以調大時間，提高線程的利用率。
TimeUnit（線程活動保持時間的單位），可選的單位有：
- 天（DAYS）
- 小時（HOURS）
- 分鐘（MINUTES）
- 毫秒（MILLISECONDS）
- 微秒（MICROSECONDS，千分之一毫秒）
- 納秒（NANOSECONDS，千分之一微秒）
workQueue（任務隊列）：用於保存等待執行的任務的阻塞隊列。

可以選擇以下幾個阻塞隊列：

ArrayBlockingQueue：是一個基於數組結構的有界阻塞隊列，此隊列按FIFO（先進先出）原則對元素進行排序。
- LinkedBlockingQueue：一個基於鏈表結構的阻塞隊列，此隊列按FIFO排序元素，吞吐量通常要高於ArrayBlockingQueue。靜態工廠方法Executors.newFixedThreadPool()使用了這個隊列。
- SynchronousQueue：一個不存儲元素的阻塞隊列。每個插入操作必須等到另一個線程調用移除操作，否則插入操作一直處於阻塞狀態，吞吐量通常要高於LinkedBlockingQueue，靜態工廠方法Executors.newCachedThreadPool使用了這個隊列。
- PriorityBlockingQueue：一個具有優先級的無限阻塞隊列。
ThreadFactory：用於設置創建線程的工廠，可以通過線程工廠給每個創建出來的線程設置更有意義的名字。使用開源框架guava提供的ThreadFactoryBuilder可以快速給線程池裏的線程設置有意義的名字，代碼如下：

new ThreadFactoryBuilder().setNameFormat("XX-task-%d").build();

RejectedExecutionHandler（飽和策略）：當隊列和線程池都滿了，說明線程池處於飽和狀態，那麼必須採取一種策略處理提交的新任務。這個策略默認情況下是AbortPolicy，表示無法處理新任務時拋出異常。在JDK 1.5中Java線程池框架提供了以下4種策略。
- AbortPolicy：直接拋出異常。
- CallerRunsPolicy：只用調用者所在線程來運行任務。
- DiscardOldestPolicy：丟棄隊列裏最近的一個任務，並執行當前任務。
- DiscardPolicy：不處理，丟棄掉。

當然，也可以根據應用場景需要來實現RejectedExecutionHandler接口自定義策略。如記錄日誌或持久化存儲不能處理的任務。

向線程池提交任務

可以使用兩個方法向線程池提交任務，分別爲execute()和submit()方法。

execute()方法用於提交不需要返回值的任務，所以無法判斷任務是否被線程池執行成功。通過以下代碼可知execute()方法輸入的任務是一個Runnable類的實例。
```
threadsPool.execute(new Runnable() {
    @Override
    public void run() {
        // TODO Auto-generated method stub
    }
});
```
submit()方法用於提交需要返回值的任務。線程池會返回一個future類型的對象，通過這個future對象可以判斷任務是否執行成功，並且可以通過future的get()方法來獲取返回值，get()方法會阻塞當前線程直到任務完成，而使用get(long timeout，TimeUnit unit)方法則會阻塞當前線程一段時間後立即返回，這時候有可能任務沒有執行完。
```
Future<Object> future = executor.submit(harReturnValuetask);
try {
    Object s = future.get();
} catch (InterruptedException e) {
    // 處理中斷異常
} catch (ExecutionException e) {
    // 處理無法執行任務異常
} finally {
    // 關閉線程池
    executor.shutdown();
}
```

關閉線程池

可以通過調用線程池的shutdown或shutdownNow方法來關閉線程池。
它們的原理是遍歷線程池中的工作線程，然後逐個調用線程的interrupt方法來中斷線程，所以無法響應中斷的任務可能永遠無法終止。
但是它們存在一定的區別：

shutdownNow首先將線程池的狀態設置成STOP，然後嘗試停止所有的正在執行或暫停任務的線程，並返回等待執行任務的列表
shutdown只是將線程池的狀態設置成SHUTDOWN狀態，然後中斷所有沒有正在執行任務的線程。

只要調用了這兩個關閉方法中的任意一個，isShutdown方法就會返回true。當所有的任務都已關閉後，才表示線程池關閉成功，這時調用isTerminaed方法會返回true。
至於應該調用哪一種方法來關閉線程池，應該由提交到線程池的任務特性決定：

通常調用shutdown方法來關閉線程池。
如果任務不一定要執行完，則可以調用shutdownNow方法。

合理地配置線程池

要想合理地配置線程池，就必須首先分析任務特性，可以從以下幾個角度來分析：

任務的性質：CPU密集型任務、IO密集型任務和混合型任務。
任務的優先級：高、中和低。
任務的執行時間：長、中和短。
任務的依賴性：是否依賴其他系統資源，如數據庫連接。

性質不同的任務可以用不同規模的線程池分開處理。

CPU密集型任務應配置儘可能小的線程，如配置Ncpu+1個線程的線程池。
IO密集型任務線程並不是一直在執行任務，則應配置儘可能多的線程，如2*Ncpu。
混合型的任務，如果可以拆分，將其拆分成一個CPU密集型任務和一個IO密集型任務：
- 兩個任務執行的時間相差不是太大，那麼分解後執行的吞吐量將高於串行執行的吞吐量。
- 兩個任務執行時間相差太大，則沒必要進行分解。
  可以通過Runtime.getRuntime().availableProcessors()方法獲得當前設備的CPU個數。

優先級不同的任務可以使用優先級隊列PriorityBlockingQueue來處理。它可以讓優先級高的任務先執行。

注意：如果一直有優先級高的任務提交到隊列裏，那麼優先級低的任務可能永遠不能執行。

執行時間不同的任務可以交給不同規模的線程池來處理，或者可以使用優先級隊列，讓
執行時間短的任務先執行。

依賴數據庫連接池的任務，因爲線程提交SQL後需要等待數據庫返回結果，等待的時間越長，則CPU空閒時間就越長，那麼線程數應該設置得越大，這樣才能更好地利用CPU。

建議使用有界隊列。有界隊列能增加系統的穩定性和預警能力，可以根據需要設大一點兒，比如幾千。

有一次，我們系統裏後臺任務線程池的隊列和線程池全滿了，不斷拋出拋棄任務的異常，通過排查發現是數據庫出現了問題，導致執行SQL變得非常緩慢，因爲後臺任務線程池裏的任務全是需要向數據庫查詢和插入數據的，所以導致線程池裏的工作線程全部阻塞，任務積壓在線程池裏。如果當時我們設置成無界隊列，那麼線程池的隊列就會越來越多，有可能會撐滿內存，導致整個系統不可用，而不只是後臺任務出現問題。當然，我們的系統所有的任務是用單獨的服務器部署的，我們使用不同規模的線程池完成不同類型的任務，但是出現這樣問題時也會影響到其他任務。

線程池的監控

如果在系統中 大量使用線程池，則有必要 對線程池進行監控，方便在出現問題時，可以根據線程池的使用狀況快速定位問題。可以通過線程池提供的參數進行監控，在監控線程池的時候可以使用以下屬性：

taskCount：線程池需要執行的任務數量。
completedTaskCount：線程池在運行過程中已完成的任務數量，小於或等於taskCount。
largestPoolSize：線程池裏曾經創建過的最大線程數量。通過這個數據可以知道線程池是否曾經滿過。如該數值等於線程池的最大大小，則表示線程池曾經滿過。
getPoolSize：線程池的線程數量。如果線程池不銷燬的話，線程池裏的線程不會自動銷燬，所以這個大小隻增不減。
getActiveCount：獲取活動的線程數。

通過擴展線程池進行監控。
可以通過繼承線程池來自定義線程池，重寫線程池的beforeExecute、afterExecute和terminated方法，也可以在任務執行前、執行後和線程池關閉前執行一些代碼來進行監控。
例如，監控任務的平均執行時間、最大執行時間 和 最小執行時間 等。這幾個方法在線程池裏是空方法。

protected void beforeExecute(Thread t, Runnable r) { }

小結
本文我們介紹了：

線程池的原理

線程池的創建

ThreadPoolExecutor(corePoolSize, maximumPoolSize, keepAliveTime,unit, workQueue, threadFactory, handler);

向線程池提交任務 execute()和submit()
關閉線程池 shutdown或shutdownNow
線程池的合裏配置
線程池的監控

如果覺得不錯的話，請幫忙點個讚唄。

Java中的線程池

前言

線程池的實現原理

線程池的使用

向線程池提交任務

關閉線程池

合理地配置線程池

線程池的監控

lightdb hash index的性能和限制

GC垃圾回收器詳解

java 深入剖析FutureTask

Java併發工具類之CountDownLatch和CyclicBarrier

Innodb和MyIsam在B+樹中的區別是什麼？

省市區表及數據

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結