聊聊併發（一）——深入分析Volatile的實現原理

引言

在多線程併發編程中synchronized和Volatile都扮演着重要的角色，Volatile是輕量級的synchronized，它在多處理器開發中保證了共享變量的“可見性”。可見性的意思是當一個線程修改一個共享變量時，另外一個線程能讀到這個修改的值。

它在某些情況下比synchronized的開銷更小，本文將深入分析在硬件層面上Inter處理器是如何實現Volatile的，通過深入分析能幫助我們正確的使用Volatile變量。
術語定義

術語	英文單詞	描述
共享變量		在多個線程之間能夠被共享的變量被稱爲共享變量。共享變量包括所有的實例變量，靜態變量和數組元素。他們都被存放在堆內存中，Volatile只作用於共享變量。
內存屏障	Memory Barriers	是一組處理器指令，`用於實現對內存操作的順序限制。`
緩衝行	Cache line	緩存中可以分配的最小存儲單位。處理器填寫緩存線時會加載整個緩存線，需要使用多個主內存讀週期。
原子操作	Atomic operations	不可中斷的一個或一系列操作。
緩存行填充	cache line fill	當處理器識別到從內存中讀取操作數是可緩存的，處理器讀取整個緩存行到適當的緩存（L1，L2，L3的或所有）
緩存命中	cache hit	如果進行高速緩存行填充操作的內存位置仍然是下次處理器訪問的地址時，處理器從緩存中讀取操作數，而不是從內存
寫命中	write hit	當處理器將操作數寫回到一個內存緩存的區域時，它首先會檢查這個緩存的內存地址是否在緩存行中，如果存在一個有效的緩存行，則處理器將這個操作數寫回到緩存，而不是寫回到內存，這個操作被稱爲寫命中。
寫缺失	write misses the cache	一個有效的緩存行被寫入到`不存在`的內存區域。

- Volatile的官方定義

Java語言規範第三版中對volatile的定義如下： java編程語言允許線程訪問共享變量，爲了確保共享變量能被準確和一致的更新，線程應該確保通過排他鎖單獨獲得這個變量。Java語言提供了volatile，在某些情況下比鎖更加方便。如果一個字段被聲明成volatile，java線程內存模型確保所有線程看到這個變量的值是一致的。

爲什麼要使用Volatile

Volatile變量修飾符如果使用恰當的話，它比synchronized的使用和執行成本會更低，因爲它不會引起線程上下文的切換和調度。

Volatile的實現原理

那麼Volatile是如何來保證可見性的呢？在x86處理器下通過工具獲取JIT編譯器生成的彙編指令來看看對Volatile進行寫操作CPU會做什麼事情。
Java代碼：

instance = new Singleton();//instance是volatile變量

彙編代碼：

0x01a3de1d: movb $0x0,0x1104800(%esi);

0x01a3de24: lock addl $0x0,(%esp);

有volatile變量修飾的共享變量進行寫操作的時候會多第二行彙編代碼，通過查IA-32架構軟件開發者手冊可知，lock前綴的指令在多核處理器下會引發了兩件事情。

將當前處理器緩存行的數據會寫回到系統內存。
這個寫回內存的操作會引起在其他CPU裏緩存了該內存地址的數據無效。

處理器爲了提高處理速度，不直接和內存進行通訊，而是先將系統內存的數據讀到內部緩存（L1,L2或其他）後再進行操作，但操作完之後不知道何時會寫到內存，如果對聲明瞭Volatile變量進行寫操作，JVM就會向處理器發送一條Lock前綴的指令，將這個變量所在緩存行的數據寫回到系統內存。但是就算寫回到內存，如果其他處理器緩存的值還是舊的，再執行計算操作就會有問題，所以在多處理器下，爲了保證各個處理器的緩存是一致的，就會實現緩存一致性協議，

每個處理器通過嗅探在總線上傳播的數據來檢查自己緩存的值是不是過期了，當處理器發現自己緩存行對應的內存地址被修改，就會將當前處理器的緩存行設置成無效狀態，當處理器要對這個數據進行修改操作的時候，會強制重新從系統內存裏把數據讀到處理器緩存裏。

這兩件事情在IA-32軟件開發者架構手冊的第三冊的多處理器管理章節（第八章）中有詳細闡述。

Lock前綴指令會引起處理器緩存回寫到內存。 Lock前綴指令導致在執行指令期間，聲言處理器的 LOCK# 信號。在多處理器環境中，LOCK# 信號確保在聲言該信號期間，處理器可以獨佔使用任何共享內存。（因爲它會鎖住總線，導致其他CPU不能訪問總線，不能訪問總線就意味着不能訪問系統內存），但是在最近的處理器裏，LOCK＃信號一般不鎖總線，而是鎖緩存，畢竟鎖總線開銷比較大。在8.1.4章節有詳細說明鎖定操作對處理器緩存的影響，對於Intel486和Pentium處理器，在鎖操作時，總是在總線上聲言LOCK#信號。但在P6和最近的處理器中，如果訪問的內存區域已經緩存在處理器內部，則不會聲言LOCK#信號。相反地，它會鎖定這塊內存區域的緩存並回寫到內存，並使用緩存一致性機制來確保修改的原子性，此操作被稱爲“緩存鎖定”，緩存一致性機制會阻止同時修改被兩個以上處理器緩存的內存區域數據。

一個處理器的緩存回寫到內存會導致其他處理器的緩存無效。IA-32處理器和Intel 64處理器使用MESI（修改，獨佔，共享，無效）控制協議去維護內部緩存和其他處理器緩存的一致性。在多核處理器系統中進行操作的時候，IA-32 和Intel 64處理器能嗅探其他處理器訪問系統內存和它們的內部緩存。它們使用嗅探技術保證它的內部緩存，系統內存和其他處理器的緩存的數據在總線上保持一致。例如在Pentium和P6 family處理器中，如果通過嗅探一個處理器來檢測其他處理器打算寫內存地址，而這個地址當前處理共享狀態，那麼正在嗅探的處理器將無效它的緩存行，在下次訪問相同內存地址時，強制執行緩存行填充。

Volatile的使用優化

著名的Java併發編程大師Doug lea在JDK7的併發包裏新增一個隊列集合類LinkedTransferQueue，他在使用Volatile變量時，用一種追加字節的方式來優化隊列出隊和入隊的性能。

追加字節能優化性能？這種方式看起來很神奇，但如果深入理解處理器架構就能理解其中的奧祕。讓我們先來看看LinkedTransferQueue這個類，它使用一個內部類類型來定義隊列的頭隊列（Head）和尾節點（tail），而這個內部類PaddedAtomicReference相對於父類AtomicReference只做了一件事情，就將共享變量追加到64字節。我們可以來計算下，一個對象的引用佔4個字節，它追加了15個變量共佔60個字節，再加上父類的Value變量，一共64個字節。

/** head of the queue */
private transient final PaddedAtomicReference < QNode > head;
/** tail of the queue */
private transient final PaddedAtomicReference < QNode > tail;


static final class PaddedAtomicReference < T > extends AtomicReference < T > {

    // enough padding for 64bytes with 4byte refs 
    Object p0, p1, p2, p3, p4, p5, p6, p7, p8, p9, pa, pb, pc, pd, pe;

    PaddedAtomicReference(T r) {
        super(r);
    }
}

public class AtomicReference < V > implements java.io.Serializable {
    private volatile V value;
    //省略其他代碼 ｝

爲什麼追加64字節能夠提高併發編程的效率呢？ 因爲對於英特爾酷睿i7，酷睿， Atom和NetBurst， Core Solo和Pentium M處理器的L1，L2或L3緩存的高速緩存行是64個字節寬，不支持部分填充緩存行，這意味着如果隊列的頭節點和尾節點都不足64字節的話，處理器會將它們都讀到同一個高速緩存行中，在多處理器下每個處理器都會緩存同樣的頭尾節點，當一個處理器試圖修改頭接點時會將整個緩存行鎖定，那麼在緩存一致性機制的作用下，會導致其他處理器不能訪問自己高速緩存中的尾節點，而隊列的入隊和出隊操作是需要不停修改頭接點和尾節點，所以在多處理器的情況下將會嚴重影響到隊列的入隊和出隊效率。Doug lea使用追加到64字節的方式來填滿高速緩衝區的緩存行，避免頭接點和尾節點加載到同一個緩存行，使得頭尾節點在修改時不會互相鎖定。

那麼是不是在使用Volatile變量時都應該追加到64字節呢？不是的。在兩種場景下不應該使用這種方式。第一：緩存行非64字節寬的處理器，如P6系列和奔騰處理器，它們的L1和L2高速緩存行是32個字節寬。第二：共享變量不會被頻繁的寫。因爲使用追加字節的方式需要處理器讀取更多的字節到高速緩衝區，這本身就會帶來一定的性能消耗，共享變量如果不被頻繁寫的話，鎖的機率也非常小，就沒必要通過追加字節的方式來避免相互鎖定。

參考資料

JVM執行篇：使用HSDIS插件分析JVM代碼執行細節
 內存屏障和併發
 Intel 64和IA-32架構軟件開發人員手冊

關於作者
方騰飛，阿里巴巴資深軟件開發工程師，致力於高性能網絡編程，目前在公司從事詢盤管理和長連接服務器OpenComet的開發工作。博客地址：http://ifeve.com

聊聊併發（一）——深入分析Volatile的實現原理

C#開源的兩款功能強大的錄屏神器

認知提升的方法

螞蟻面試：Springcloud核心組件的底層原理，你知道多少？

使用anddroid studio編譯報錯: Error:Execution failed for task ':mergeDebugResources'.

java移位運算符：（帶符號右移）和>>>（無符號右移）。

UiAutomator for android 巧換角度

解決5.0以上通知欄圖標變白

GAN代碼解析(tensorflow實現),資源自動下載手寫數字圖片生成

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結