Java 併發編程(三)JMM

1.1 線程之間的通信

線程的通信是指線程之間以何種機制來交換信息。在編程中,線程之間的通信機制有兩種,共享內存消息傳遞。 在共享內存的併發模型裏,線程之間共享程序的公共狀態,線程之間通過寫-讀內存中的公共狀態來隱式進行通信,典型的共享內存通信方式就是通過共享對象進行通信。 在消息傳遞的併發模型裏,線程之間沒有公共狀態,線程之間必須通過明確的發送消息來顯式進行通信,在java中典型的消息傳遞方式就是wait()和notify()。

1.2 線程間的同步

同步是指程序用於控制不同線程之間操作發生相對順序的機制。 在共享內存併發模型裏,同步是顯式進行的。程序員必須顯式指定某個方法或某段代碼需要在線程之間互斥執行。 在消息傳遞的併發模型裏,由於消息的發送必須在消息的接收之前,因此同步是隱式進行的。

2 內存模型 -JMM

  • Java的併發採用的是共享內存模型

JMM定義了Java 虛擬機(JVM)在計算機內存(RAM)中的工作方式。JVM是整個計算機虛擬模型,所以JMM是隸屬於JVM的。從抽象的角度來看,JMM定義了線程和主內存之間的抽象關係:線程之間的共享變量存儲在主內存(Main Memory)中,每個線程都有一個私有的本地內存(Local Memory),本地內存中存儲了該線程以讀/寫共享變量的副本。本地內存是JMM的一個抽象概念,並不真實存在。它涵蓋了緩存、寫緩衝區、寄存器以及其他的硬件和編譯器優化。

2.1 JVM對Java內存模型的實現

  • 在JVM內部,Java內存模型把內存分成了兩部分:線程棧區和堆區 JVM中運行的每個線程都擁有自己的線程棧,線程棧包含了當前線程執行的方法調用相關信息,我們也把它稱作調用棧。隨着代碼的不斷執行,調用棧會不斷變化。

 

所有原始類型(boolean,byte,short,char,int,long,float,double)的局部變量都直接保存在線程棧當中,對於它們的值各個線程之間都是獨立的。對於原始類型的局部變量,一個線程可以傳遞一個副本給另一個線程,當它們之間是無法共享的。 堆區包含了Java應用創建的所有對象信息,不管對象是哪個線程創建的,其中的對象包括原始類型的封裝類(如Byte、Integer、Long等等)。不管對象是屬於一個成員變量還是方法中的局部變量,它都會被存儲在堆區。 一個局部變量如果是原始類型,那麼它會被完全存儲到棧區。 一個局部變量也有可能是一個對象的引用,這種情況下,這個本地引用會被存儲到棧中,但是對象本身仍然存儲在堆區。 對於一個對象的成員方法,這些方法中包含局部變量,仍需要存儲在棧區,即使它們所屬的對象在堆區。 對於一個對象的成員變量,不管它是原始類型還是包裝類型,都會被存儲到堆區。Static類型的變量以及類本身相關信息都會隨着類本身存儲在堆區。

 

 

 

2.2 Java內存模型帶來的問題

2.2.1 可見性問題

CPU中運行的線程從主存中拷貝共享對象obj到它的CPU緩存,把對象obj的count變量改爲2。但這個變更對運行在右邊CPU中的線程不可見,因爲這個更改還沒有flush到主存中:要解決共享對象可見性這個問題,我們可以使用java volatile關鍵字或者是加鎖

 

 

 

2.2.2 競爭現象

線程A和線程B共享一個對象obj。假設線程A從主存讀取Obj.count變量到自己的CPU緩存,同時,線程B也讀取了Obj.count變量到它的CPU緩存,並且這兩個線程都對Obj.count做了加1操作。此時,Obj.count加1操作被執行了兩次,不過都在不同的CPU緩存中。如果這兩個加1操作是串行執行的,那麼Obj.count變量便會在原始值上加2,最終主存中的Obj.count的值會是3。然而下圖中兩個加1操作是並行的,不管是線程A還是線程B先flush計算結果到主存,最終主存中的Obj.count只會增加1次變成2,儘管一共有兩次加1操作。 要解決上面的問題我們可以使用java synchronized代碼塊。

 

 

 

2.3 Java內存模型中的重排序

  • 在執行程序時,爲了提高性能,編譯器和處理器常常會對指令做重排序。

2.3.1 重排序類型

 

 

  • 1)編譯器優化的重排序。編譯器在不改變單線程程序語義的前提下,可以重新安排語句的執行順序。

  • 2)指令級並行的重排序。現代處理器採用了指令級並行技術(Instruction-LevelParallelism,ILP)來將多條指令重疊執行。如果不存在數據依賴性,處理器可以改變語句對應機器指令的執行順序。

  • 3)內存系統的重排序。由於處理器使用緩存和讀/寫緩衝區,這使得加載和存儲操作看上去可能是在亂序執行。

2.3.2 重排序與依賴性

  • 數據依賴性 如果兩個操作訪問同一個變量,且這兩個操作中有一個爲寫操作,此時這兩個操作之間就存在數據依賴性。數據依賴分爲下列3種類型,這3種情況,只要重排序兩個操作的執行順序,程序的執行結果就會被改變。

名稱 示例 說明
寫後讀

a=1

b=a

寫一個變量後,在讀這個變量
寫後寫

a=1;

a=2;

寫一個變量後,再寫這個變量
讀後寫

b=a;

a=1;

讀一個變量後,再寫這個變量
  • 控制依賴性 flag變量是個標記,用來標識變量a是否已被寫入,在use方法中變量i依賴if (flag)的判斷,這裏就叫控制依賴,如果發生了重排序,結果就不對了。


    public void use() {
        if (flag) {
            int i = a*a;
        }
        //.....
    }

 

 

  • as-if-serial 不管如何重排序,都必須保證代碼在單線程下的運行正確,連單線程下都無法正確,更不用討論多線程併發的情況,所以就提出了一個as-if-serial的概念。 as-if-serial語義的意思是:不管怎麼重排序(編譯器和處理器爲了提高並行度),(單線程)程序的執行結果不能被改變。編譯器、runtime和處理器都必須遵守as-if-serial語義。爲了遵守as-if-serial語義,編譯器和處理器不會對存在數據依賴關係的操作做重排序,因爲這種重排序會改變執行結果。(強調一下,這裏所說的數據依賴性僅針對單個處理器中執行的指令序列和單個線程中執行的操作,不同處理器之間和不同線程之間的數據依賴性不被編譯器和處理器考慮。)但是,如果操作之間不存在數據依賴關係,這些操作依然可能被編譯器和處理器重排序。

 

{
    int a= 1;//1
    int b =1;//2
    int c = a+b;//3
}

 

1和3之間存在數據依賴關係,同時2和3之間也存在數據依賴關係。因此在最終執行的指令序列中,3不能被重排序到1和2的前面(3排到1和2的前面,程序的結果將會被改變)。但1和2之間沒有數據依賴關係,編譯器和處理器可以重排序1和2之間的執行順序。 as-if-serial語義使單線程下無需擔心重排序的干擾,也無需擔心內存可見性問題。

2.3.3 併發下重排序帶來的問題

 

    private Boolean flag = false;
    private int a = 0;

    private void init(){
        a = 1;//1
        flag = true;//2
        //..........
    }

    public void use() {
        if (flag) {//3
            int i = a*a;//4
        }
        //.....
    }

 

這裏假設有兩個線程A和B,A首先執行init ()方法,隨後B線程接着執行use ()方法。線程B在執行操作4時,能否看到線程A在操作1對共享變量a的寫入呢?

答案是:不一定能看到。 由於操作1和操作2沒有數據依賴關係,編譯器和處理器可以對這兩個操作重排序;同樣,操作3和操作4沒有數據依賴關係,編譯器和處理器也可以對這兩個操作重排序。

讓我們先來看看,當操作1和操作2重排序時,可能會產生什麼效果?

     操作1和操作2做了重排序。程序執行時,線程A首先寫標記變量flag,隨後線程B讀這個變量。由於條件判斷爲真,線程B將讀取變量a。此時,變量a還沒有被線程A寫入,這時就會發生錯誤!

當操作3和操作4重排序時會產生什麼效果?

在程序中,操作3和操作4存在控制依賴關係。當代碼中存在控制依賴性時,會影響指令序列執行的並行度。爲此,編譯器和處理器會採用猜測(Speculation)執行來克服控制相關性對並行度的影響。以處理器的猜測執行爲例,執行線程B的處理器可以提前讀取並計算a*a,然後把計算結果臨時保存到一個名爲重排序緩衝(Reorder Buffer,ROB)的硬件緩存中。當操作3的條件判斷爲真時,就把該計算結果寫入變量i中。猜測執行實質上對操作3和4做了重排序,問題在於這時候,a的值還沒被線程A賦值。在單線程程序中,對存在控制依賴的操作重排序,不會改變執行結果(這也是as-if-serial語義允許對存在控制依賴的操作做重排序的原因);但在多線程程序中,對存在控制依賴的操作重排序,可能會改變程序的執行結果。

2.4.4 解決在併發下的問題

1)內存屏障------禁止重排序

屏障類型 指令示例 說明
LoadLoad Barrisers Load1;LoadLoad; Load2 該屏障確保Load1數據的裝載先於Load2及其後所有裝載指令的的操作
StoreStore Barriers Store1;StoreStore;Store2 該屏障確保Store1立刻刷新數據到內存(使其對其他處理器可見)的操作先於Store2及其後所有存儲指令的操作
LoadStore Barriers Load1;LoadStore;Stores2 確保Load1的數據裝載先於Store2及其後所有的存儲指令刷新數據到內存的操作
StoreLoad Barriers Store1;StoreLoad;Load2 該屏障確保Store1立刻刷新數據到內存的操作先於Load2及其後所有裝載裝載指令的操作。它會使該屏障之前的所有內存訪問指令(存儲指令和訪問指令)完成之後,才執行該屏障之後的內存訪問指令

 

Java編譯器在生成指令序列的適當位置會插入內存屏障指令來禁止特定類型的處理器重排序,從而讓程序按我們預想的流程去執行。 1、保證特定操作的執行順序。 2、影響某些數據(或則是某條指令的執行結果)的內存可見性。

編譯器和CPU能夠重排序指令,保證最終相同的結果,嘗試優化性能。插入一條Memory Barrier會告訴編譯器和CPU:不管什麼指令都不能和這條Memory Barrier指令重排序。 Memory Barrier所做的另外一件事是強制刷出各種CPU cache,如一個Write-Barrier(寫入屏障)將刷出所有在Barrier之前寫入 cache 的數據,因此,任何CPU上的線程都能讀取到這些數據的最新版本。 JMM把內存屏障指令分爲4類,解釋表格,StoreLoad Barriers是一個“全能型”的屏障,它同時具有其他3個屏障的效果。現代的多處理器大多支持該屏障(其他類型的屏障不一定被所有處理器支持)。

2)臨界區(synchronized?)

 

 

 

臨界區內的代碼可以重排序(但JMM不允許臨界區內的代碼“逸出”到臨界區之外,那樣會破壞監視器的語義)。JMM會在退出臨界區和進入臨界區這兩個關鍵時間點做一些特別處理,雖然線程A在臨界區內做了重排序,但由於監視器互斥執行的特性,這裏的線程B根本無法“觀察”到線程A在臨界區內的重排序。這種重排序既提高了執行效率,又沒有改變程序的執行結果。

2.5 Happens-Before

用happens-before的概念來闡述操作之間的內存可見性。在JMM中,如果一個操作執行的結果需要對另一個操作可見,那麼這兩個操作之間必須要存在happens-before關係 。

兩個操作之間具有happens-before關係,並不意味着前一個操作必須要在後一個操作之前執行!happens-before僅僅要求前一個操作(執行的結果)對後一個操作可見,且前一個操作按順序排在第二個操作之前(the first is visible to and ordered before the second) 。

1)如果一個操作happens-before另一個操作,那麼第一個操作的執行結果將對第二個操作可見,而且第一個操作的執行順序排在第二個操作之前。(對程序員來說)

2)兩個操作之間存在happens-before關係,並不意味着Java平臺的具體實現必須要按照happens-before關係指定的順序來執行。如果重排序之後的執行結果,與按happens-before關係來執行的結果一致,那麼這種重排序是允許的(對編譯器和處理器 來說)

在Java 規範提案中爲讓大家理解內存可見性的這個概念,提出了happens-before的概念來闡述操作之間的內存可見性。對應Java程序員來說,理解happens-before是理解JMM的關鍵。JMM這麼做的原因是:程序員對於這兩個操作是否真的被重排序並不關心,程序員關心的是程序執行時的語義不能被改變(即執行結果不能被改變)。因此,happens-before關係本質上和as-if-serial語義是一回事。as-if-serial語義保證單線程內程序的執行結果不被改變,happens-before關係保證正確同步的多線程程序的執行結果不被改變。

 

 

  • Happens-Before規則-無需任何同步手段就可以保證的 1)程序順序規則:一個線程中的每個操作,happens-before於該線程中的任意後續操作。 2)監視器鎖規則:對一個鎖的解鎖,happens-before於隨後對這個鎖的加鎖。 3)volatile變量規則:對一個volatile域的寫,happens-before於任意後續對這個volatile域的讀。 4)傳遞性:如果A happens-before B,且B happens-before C,那麼A happens-before C。 5)start()規則:如果線程A執行操作ThreadB.start()(啓動線程B),那麼A線程的ThreadB.start()操作happens-before於線程B中的任意操作。 6)join()規則:如果線程A執行操作ThreadB.join()併成功返回,那麼線程B中的任意操作happens-before於線程A從ThreadB.join()操作成功返回。 7 )線程中斷規則:對線程interrupt方法的調用happens-before於被中斷線程的代碼檢測到中斷事件的發生。

參考文章

https://www.jianshu.com/p/8a58d8335270 JMM和底層實現原理

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章