如何才能夠系統地學習Java併發技術?

Java併發編程一直是Java程序員必須懂但又是很難懂的技術內容。

這裏不僅僅是指使用簡單的多線程編程,或者使用juc的某個類。當然這些都是併發編程的基本知識,除了使用這些工具以外,Java併發編程中涉及到的技術原理十分豐富。爲了更好地把併發知識形成一個體系,也鑑於本人目前也沒有能力寫出這類文章,於是參考幾位併發編程方面專家的博客和書籍,做一個簡單的整理。

首先說一下我學習Java併發編程的一些方法吧。大概分爲這幾步:

1、先學會最基礎的Java多線程編程,Thread類的使用,線程通信的一些方法等等。這部分內容需要多寫一些demo去實踐。

2、接下來可以去使用一些JUC的API,比如concurrenthashmap,併發工具類,原子數據類型等工具,在學習這部分內容的時候,你可以搭配一些介紹併發編程的書籍和博客一起看,書籍我當時看的是《Java併發編程藝術》,我覺得略好於《Java併發編程實踐》。

我這個專欄裏也整合了一些比較好的博客,所以大家可以不妨先看看。

3、接下來就要閱讀源碼了,讀源碼部分最主要的就是讀JUC包的源碼,比如concurrenthashmap,阻塞隊列,線程池等等,當然,這些源碼自己讀起來會比較痛苦,所以建議跟着博客走。

4、走到這一步,你已經理解了Java併發編程原理,並且可以熟練使用JUC,應付面試已經足夠了,剩下的事情就是真正把這些東西用到項目中去,我當時在網易實習的時候就用到了JUC的一些內容,不得不說還是挺有意思的。

下面先介紹一下Java併發編程的一些主要內容,我把它分六個部分,大家可以參考這幾個部分的內容分別進行學習。

一:併發基礎和多線程

首先需要學習的就是併發的基礎知識,什麼是併發,爲什麼要併發,多線程的概念,線程安全的概念等。

然後學會使用Java中的Thread或是其他線程實現方法,瞭解線程的狀態轉換,線程的方法,線程的通信方式等。

二:JMM內存模型

任何語言最終都是運行在處理器上,JVM虛擬機爲了給開發者一個一致的編程內存模型,需要制定一套規則,這套規則可以在不同架構的機器上有不同實現,並且向上爲程序員提供統一的JMM內存模型。

所以瞭解JMM內存模型也是瞭解Java併發原理的一個重點,其中瞭解指令重排,內存屏障,以及可見性原理尤爲重要。

JMM只保證happens-before和as-if-serial規則,所以在多線程併發時,可能出現原子性,可見性以及有序性這三大問題。

下面的內容則會講述Java是如何解決這三大問題的。

三:synchronized,volatile,final等關鍵字

對於併發的三大問題,volatile可以保證可見性,synchronized三種特性都可以保證。

synchronized是基於操作系統的mutex lock指令實現的,volatile和final則是根據JMM實現其內存語義。

此處還要了解CAS操作,它不僅提供了類似volatile的內存語義,並且保證操作原子性,因爲它是由硬件實現的。

JUC中的Lock底層就是使用volatile加上CAS的方式實現的。synchronized也會嘗試用cas操作來優化器重量級鎖。

瞭解這些關鍵字是很有必要的。

四:JUC包

在瞭解完上述內容以後,就可以看看JUC的內容了。

JUC提供了包括Lock,原子操作類,線程池,同步容器,工具類等內容。

這些類的基礎都是AQS,所以瞭解AQS的原理是很重要的。

除此之外,還可以瞭解一下Fork/Join,以及JUC的常用場景,比如生產者消費者,阻塞隊列,以及讀寫容器等。

五:實踐

上述這些內容,除了JMM部分的內容比較不好實現之外,像是多線程基本使用,JUC的使用都可以在代碼實踐中更好地理解其原理。多嘗試一些場景,或者在網上找一些比較經典的併發場景,或者參考別人的例子,在實踐中加深理解,還是很有必要的。

六:補充

由於很多Java新手可能對併發編程沒什麼概念,在這裏放一張不錯的思維導圖,該圖簡要地提幾個併發編程中比要重要的點,也是比較基本的點,在大致瞭解了這些基礎內容以後,才能更好地開展後面詳細內容的學習。

上面講到了學習路線,建議大家先跟着這個路線去看一看本專欄的一些博客,然後再來看下面這部分內容,因爲下面的內容是我基於本專欄所有博客進行歸納和總結的,主要是方便記憶和複習,也可以讓你把知識點重新過一遍,如果你覺得我的總結不夠好,你也可以自己做總結,這也是一種不錯的學習方法,話不多少,咱們接着往下看。

這篇總結主要是基於我Java併發技術系列的文章而形成的的。主要是把重要的知識點用自己的話說了一遍,可能會有一些錯誤,還望見諒和指點。謝謝



線程安全

  1. 線程安全一般指多線程之間的操作結果不會因爲線程調度的順序不同而發生改變。

互斥和同步

  1. 互斥一般指資源的獨佔訪問,同步則要求同步代碼中的代碼順序執行,並且也是單線程獨佔的。

JMM內存模型

  1. JVM中的內存分區包括堆,棧,方法區等區域,這些內存都是抽象出來的,實際上,系統中只有一個主內存,但是爲了方便Java多線程語義的實現,以及降低程序員編寫併發程序的難度,Java提出了JMM內存模型,將內存分爲主內存和工作內存,工作內存是線程獨佔的,實際上它是一系列寄存器,編譯器優化後的結果。

as-if-Serial,happens-before

  1. asif serial語義提供單線程代碼的順序執行保證,雖然他允許指令重排序,但是前提是指令重排序不會改變執行結果。

volatile

  1. volatile語義實際上是在代碼中插入一個內存屏障,內存屏障分爲讀寫,寫讀,讀讀,寫寫四種,可以用來避免volatile變量的讀寫操作發生重排序,從而保證了volatile的語義,實際上,volatile修飾的變量強制要求線程寫時將數據從緩存刷入主內存,讀時強制要求線程從主內存中讀取,因此保證了它的可見性。


  2. 而對於volatile修飾的64位類型數據,可以保證其原子性,不會因爲指令重排序導致一個64位數據被分割成兩個32位數據來讀取。

synchronized和鎖優化

  1. synchronized是Java提供的同步標識,底層是操作系統的mutex lock調用,需要進行用戶態到內核態的切換,開銷比較大。

  2. synchronized經過編譯後的彙編代碼會有monitor in和monitor out的字樣,用於標識進入監視器模塊和退出監視器模塊,

  3. 監視器模塊watcher會監控同步代碼塊中的線程號,只允線程號正確的線程進入。


  4. Java在synchronized關鍵字中進行了多次優化。


  5. 比如輕量級鎖優化,使用鎖對象的對象頭做文章,當一個線程需要獲得該對象鎖時,線程有一段空間叫做lock record,用於存儲對象頭的mask word,然後通過cas操作將對象頭的mask word改成指向線程中的lockrecord。

  6. 如果成功了就是獲取到了鎖,否則就是發生了互斥。需要鎖粗化,膨脹爲互斥鎖。


  7. 偏向鎖,去掉了更多的同步措施,檢查mask word是否是可偏向狀態,然後檢查mask word中的線程id是否是自己的id,如果是則執行同步代碼,如果不是則cas修改其id,如果修改失敗,則出現鎖爭用,偏向鎖失效,膨脹爲輕量級鎖。


  8. 自旋鎖,每個線程會被分配一段時間片,並且聽候cpu調度,如果發生線程阻塞需要切換的開銷,於是使用自旋鎖不需要阻塞,而是忙等循環,一獲取時間片就開始忙等,這樣的鎖就是自旋鎖,一般用於併發量比較小,又擔心切換開銷的場景。

CAS操作

  1. CAS操作是通過硬件實現的原子操作,通過一條指令完成比較和賦值的操作,防止發生因指令重排導致的非原子操作,在Java中通過unsafe包可以直接使用,在Java原子類中使用cas操作來完成一系列原子數據類型的構建,保證自加自減等依賴原值的操作不會出現併發問題。


  2. cas操作也廣泛用在其他併發類中,通過循環cas操作可以完成線程安全的併發賦值,也可以通過一次cas操作來避免使用互斥鎖。

Lock類

AQS
  1. AQS是Lock類的基石,他是一個抽象類,通過操作一個變量state來判斷線程鎖爭用的情況,通過一系列方法實現對該變量的修改。一般可以分爲獨佔鎖和互斥鎖。


  2. AQS維護着一個CLH阻塞隊列,這個隊列主要用來存放阻塞等待鎖的線程節點。可以看做一個鏈表。

一:獨佔鎖

獨佔鎖的state只有0和1兩種情況(如果是可重入鎖也可以把state一直往上加,這裏不討論),state = 1時說明已經有線程爭用到鎖。線程獲取鎖時一般是通過aqs的lock方法,如果state爲0,首先嚐試cas修改state=1,成功返回,失敗時則加入阻塞隊列。非公共鎖使用時,線程節點加入阻塞隊列時依然會嘗試cas獲取鎖,最後如果還是失敗再老老實實阻塞在隊列中。

獨佔鎖還可以分爲公平鎖和非公平鎖,公平鎖要求鎖節點依據順序加入阻塞隊列,通過判斷前置節點的狀態來改變後置節點的狀態,比如前置節點獲取鎖後,釋放鎖時會通知後置節點。

非公平鎖則不一定會按照隊列的節點順序來獲取鎖,如上面所說,會先嚐試cas操作,失敗再進入阻塞隊列。

二:共享鎖

共享鎖的state狀態可以是0到n。共享鎖維護的阻塞隊列和互斥鎖不太一樣,互斥鎖的節點釋放鎖後只會通知後置節點,而共享鎖獲取鎖後會通知所有的共享類型節點,讓他們都來獲取鎖。共享鎖用於countdownlatch工具類與cyliderbarrier等,可以很好地完成多線程的協調工作

鎖Lock和Conditon

Lock 鎖維護這兩個內部類fairsync和unfairsync,都繼承自aqs,重寫了部分方法,實際上大部分方法還是aqs中的,Lock只是重新把AQS做了封裝,讓程序員更方便地使用Lock鎖。

和Lock鎖搭配使用的還有condition,由於Lock鎖只維護着一個阻塞隊列,有時候想分不同情況進行鎖阻塞和鎖通知怎麼辦,原來我們一般會使用多個鎖對象,現在可以使用condition來完成這件事,比如線程A和線程B分別等待事件A和事件B,可以使用兩個condition分別維護兩個隊列,A放在A隊列,B放在B隊列,由於Lock和condition是綁定使用的,當事件A觸發,線程A被喚醒,此時他會加入Lock自己的CLH隊列中進行鎖爭用,當然也分爲公平鎖和非公平鎖兩種,和上面的描述一樣。

Lock和condtion的組合廣泛用於JUC包中,比如生產者和消費者模型,再比如cyliderbarrier。

讀寫鎖

讀寫鎖也是Lock的一個子類,它在一個阻塞隊列中同時存儲讀線程節點和寫線程節點,讀寫鎖採用state的高16位和低16位分別代表獨佔鎖和共享鎖的狀態,如果共享鎖的state > 0可以繼續獲取讀鎖,並且state-1,如果=0,則加入到阻塞隊列中,寫鎖節點和獨佔鎖的處理一樣,因此一個隊列中會有兩種類型的節點,喚醒讀鎖節點時不會喚醒寫鎖節點,喚醒寫鎖節點時,則會喚醒後續的節點。

因此讀寫鎖一般用於讀多寫少的場景,寫鎖可以降級爲讀鎖,就是在獲取到寫鎖的情況下可以再獲取讀鎖。

併發工具類

1 countdownlatch

countdownlatch主要通過AQS的共享模式實現,初始時設置state爲N,N是countdownlatch初始化使用的size,每當有一個線程執行countdown,則state-1,state = 0之前所有線程阻塞在隊列中,當state=0時喚醒隊頭節點,隊頭節點依次通知所有共享類型的節點,喚醒這些線程並執行後面的代碼。

2 cycliderbarrier

cycliderbarrier主要通過lock和condition結合實現,首先設置state爲屏障等待的線程數,在某個節點設置一個屏障,所有線程運行到此處會阻塞等待,其實就是等待在一個condition的隊列中,並且每當有一個線程到達,state -=1 則當所有線程到達時,state = 0,則喚醒condition隊列的所有結點,去執行後面的代碼。

3 samphere

samphere也是使用AQS的共享模式實現的,與countlatch大同小異,不再贅述。

4 exchanger

exchanger就比較複雜了。使用exchanger時會開闢一段空間用來讓兩個線程進行交互操作,這個空間一般是一個棧或隊列,一個線程進來時先把數據放到這個格子裏,然後阻塞等待其他線程跟他交換,如果另一個線程也進來了,就會讀取這個數據,並把自己的數據放到對方線程的格子裏,然後雙雙離開。當然使用棧和隊列的交互是不同的,使用棧的話匹配的是最晚進來的一個線程,隊列則相反。

原子數據類型

原子數據類型基本都是通過cas操作實現的,避免併發操作時出現的安全問題。

同步容器

同步容器主要就是concurrenthashmap了,在集合類中我已經講了chm了,所以在這裏簡單帶過,chm1.7通過分段鎖來實現鎖粗化,使用的死LLock鎖,而1.8則改用synchronized和cas的結合,性能更好一些。

還有就是concurrentlinkedlist,ConcurrentSkipListMap與CopyOnWriteArrayList。

第一個鏈表也是通過cas和synchronized實現。

而concurrentskiplistmap則是一個跳錶,跳錶分爲很多層,每層都是一個鏈表,每個節點可以有向下和向右兩個指針,先通過向右指針進行索引,再通過向下指針細化搜索,這個的搜索效率是很高的,可以達到logn,並且它的實現難度也比較低。通過跳錶存map就是把entry節點放在鏈表中了。查詢時按照跳錶的查詢規則即可。

CopyOnWriteArrayList是一個寫時複製鏈表,查詢時不加鎖,而修改時則會複製一個新list進行操作,然後再賦值給原list即可。適合讀多寫少的場景。

阻塞隊列

BlockingQueue 實現之 ArrayBlockingQueue

  1. ArrayBlockingQueue其實就是數組實現的阻塞隊列,該阻塞隊列通過一個lock和兩個condition實現,一個condition負責從隊頭插入節點,一個condition負責隊尾讀取節點,通過這樣的方式可以實現生產者消費者模型。

BlockingQueue 實現之 LinkedBlockingQueue

  1. LinkedBlockingQueue是用鏈表實現的阻塞隊列,和arrayblockqueue有所區別,它支持實現爲×××隊列,並且它使用兩個lock和對應的condition搭配使用,這是因爲鏈表可以同時對頭部和尾部進行操作,而數組進行操作後可能還要執行移位和擴容等操作。

  2. 所以鏈表實現更靈活,讀寫分別用兩把鎖,效率更高。

BlockingQueue 實現之 SynchronousQueue

  1. SynchronousQueue實現是一個不存儲數據的隊列,只會保留一個隊列用於保存線程節點。詳細請參加上面的exchanger實現類,它就是基於SynchronousQueue設計出來的工具類。

BlockingQueue 實現之 PriorityBlockingQueue

PriorityBlockingQueue

  1. PriorityBlockingQueue是一個支持優先級的×××隊列。默認情況下元素採取自然順序排列,也可以通過比較器comparator來指定元素的排序規則。元素按照升序排列。

DelayQueue

  1. DelayQueue是一個支持延時獲取元素的×××阻塞隊列。隊列使用PriorityQueue來實現。隊列中的元素必須實現Delayed接口,在創建元素時可以指定多久才能從隊列中獲取當前元素。只有在延遲期滿時才能從隊列中提取元素。我們可以將DelayQueue運用在以下應用場景:


  2. 緩存系統的設計:可以用DelayQueue保存緩存元素的有效期,使用一個線程循環查詢DelayQueue,一旦能從DelayQueue中獲取元素時,表示緩存有效期到了。

  3. 定時任務調度。使用DelayQueue保存當天將會執行的任務和執行時間,一旦從DelayQueue中獲取到任務就開始執行,從比如TimerQueue就是使用DelayQueue實現的。

線程池

類圖

首先看看executor接口,只提供一個run方法,而他的一個子接口executorservice則提供了更多方法,比如提交任務,結束線程池等。

然後抽象類abstractexecutorservice提供了更多的實現了,最後我們最常使用的類ThreadPoolExecutor就是繼承它來的。

ThreadPoolExecutor可以傳入多種參數來自定義實現線程池。

而我們也可以使用Executors中的工廠方法來實例化常用的線程池。

常用線程池

比如newFixedThreadPool

newSingleThreadExecutor newCachedThreadPool

newScheduledThreadPool等等,這些線程池即可以使用submit提交有返回結果的callable和futuretask任務,通過一個future來接收結果,或者通過callable中的回調函數call來回寫執行結果。也可以用execute執行無返回值的runable任務。

在探討這些線程池的區別之前,先看看線程池的幾個核心概念。

1 任務隊列:線程池中維護了一個任務隊列,每當向線程池提交任務時,任務加入隊列。

2 工作線程:也叫worker,從線程池中獲取任務並執行,執行後被回收或者保留,因情況而定。

3 核心線程數和最大線程數,核心線程數是線程池需要保持存活的線程數量,以便接收任務,最大線程數是能創建的線程數上限。

4 newFixedThreadPool可以設置固定的核心線程數和最大線程數,一個任務進來以後,就會開啓一個線程去執行,並且這部分線程不會被回收,當開啓的線程達到核心線程數時,則把任務先放進任務隊列。當任務隊列已滿時,纔會繼續開啓線程去處理,如果線程總數打到最大線程數限制,任務隊列又是滿的時候,會執行對應的拒絕策略。

5 拒絕策略一般有幾種常用的,比如丟棄任務,丟棄隊尾任務,回退給調用者執行,或者拋出異常,也可以使用自定義的拒絕策略。

6 newSingleThreadExecutor是一個單線程執行的線程池,只會維護一個線程,他也有任務隊列,當任務隊列已滿並且線程數已經是1個的時候,再提交任務就會執行拒絕策略。

7 newCachedThreadPool比較特別,第一個任務進來時會開啓一個線程,而後如果線程還沒執行完前面的任務又有新任務進來,就會再創建一個線程,這個線程池使用的是無容量的SynchronousQueue隊列,要求請求線程和接受線程匹配時纔會完成任務執行。所以如果一直提交任務,而接受線程來不及處理的話,就會導致線程池不斷創建線程,導致cpu消耗很大。

8 ScheduledThreadPoolExecutor內部使用的是delayqueue隊列,內部是一個優先級隊列priorityqueue,也就是一個堆。通過這個delayqueue可以知道線程調度的先後順序和執行時間點。

Fork/Join框架

又稱工作竊取線程池。

我們在大學算法課本上,學過的一種基本算法就是:分治。其基本思路就是:把一個大的任務分成若干個子任務,這些子任務分別計算,最後再Merge出最終結果。這個過程通常都會用到遞歸。

而Fork/Join其實就是一種利用多線程來實現“分治算法”的並行框架。

另外一方面,可以把Fori/Join看作一個單機版的Map/Reduce,只不過這裏的並行不是多臺機器並行計算,而是多個線程並行計算。

1 與ThreadPool的區別通過上面例子,我們可以看出,它在使用上,和ThreadPool有共同的地方,也有區別點: (1) ThreadPool只有“外部任務”,也就是調用者放到隊列裏的任務。 ForkJoinPool有“外部任務”,還有“內部任務”,也就是任務自身在執行過程中,分裂出”子任務“,遞歸,再次放入隊列。 (2)ForkJoinPool裏面的任務通常有2類,RecusiveAction/RecusiveTask,這2個都是繼承自FutureTask。在使用的時候,重寫其compute算法。

2 工作竊取算法上面提到,ForkJoinPool裏有”外部任務“,也有“內部任務”。其中外部任務,是放在ForkJoinPool的全局隊列裏面,而每個Worker線程,也有一個自己的隊列,用於存放內部任務。

3 竊取的基本思路就是:當worker自己的任務隊列裏面沒有任務時,就去scan別的線程的隊列,把別人的任務拿過來執行

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章