HotSpot對象、對象的創建、對象的內存佈局、對象的訪問定位

概述

深入探討一下HotSpot虛擬機在Java堆中對象分配、佈局 和訪問的全過程

對象的創建

new 一個對象是怎麼一個過程呢?

當JVM遇到一條字節碼new指令時,首先將去檢查這個指令的參數是否在常量池中定位到一個類的符號引用,

編譯時會產生Class文件,class常量池作爲class文件的一部分,包括了類版本,字段,方法,接口,常量池表(字面量、符號引用)

在類加載時,class常量池會儲存在運行時常量池中

並且檢查這個符號引用代表的類是否已被加載、解析、初始化過。
如果沒有,那麼必須先執行相應的類加載過程。
在類加載檢查通過後,接下來虛擬機將爲新生對象分配內存。對象所需內存的大小在類加載完成後便可完全確定,爲對象分配空間的任務實際上等同於把一塊確定大小的內存塊重Java堆中劃分出來。

假設Java堆中內存是絕對規整的,所有被使用過的內存都被放到一邊,空閒的內存空間方向挪動一段與對象大小相等的距離,這種分配方式成爲“指針碰撞”。

但如果Java堆中的內存並不是規整的,已被使用的內存和空閒的內存相互交錯在一起,那就沒法進行指針碰撞,虛擬機就必須維護一個列表,記錄那些內存可用,在分配的時候從列表中找到一塊足夠大的空間劃分給對象實例,並更新列表上的記錄,這種分配方式稱類“空閒列表

選擇哪種分配方式由Java堆是否規整決定,而Java堆是否規整又由所採用的垃圾收集器是否帶有空間壓縮整理的能力決定。因此,當使用Serial,Parnew等帶壓縮整理過程的收集器時,系統採用的分配算法是指針碰撞,既簡單又高效;而當使用CMS這種基於清楚(Sweep)算法收集器時,理論上就只能採用較爲複雜的空間列表來分配內存。

除如何劃分可用空間之外,還需要考慮創建對象在虛擬機中是非常頻繁的行爲,即時僅僅修改一個指針所指向的位置,在併發情況下也並非不是線程安全的,可能出現正在給對象A分配內存,指針還沒來得及修改,對象B又同時使用了原來的指針來分配內存的情況。解決這個問題有兩種可選方案:

  • 一種是對分配內存空間的動作進行同步處理——實際上虛擬機是採用CAS配上失敗重試的方式保證更新操作的原子性;
  • 另外一種是把內存分配的動作按照線程劃分在不同的空間之中進行,即每個線程在Java堆中預先分配一小塊內存,稱爲本地線程分配緩衝(Thread Local Allocation Buffer,TLAB),那個線程要分配內存,就先在那個線程的本地緩衝區分配,本地緩衝區用完了,分配新的緩存區時才需要同步鎖定。虛擬機是否使用TLAB,可以通過-XX:+/-UseTLAB參數來設定。

內存分配完成之後,虛擬機必須將分配到內存空間(但不包括對象頭)都初始化爲零值,如果使用了TLAB的話,這項工作提前至TLAB分配時執行。這步操作保證了對象的實例字段在Java代碼中可以不賦初始值就直接使用。

接下來,Java虛擬機還要對對象進行必要的設置,例如這個對象是那個類的實例、如何才能找到類的元數據信息、對象的哈希碼(實際上對象的哈希碼會延後到真正調用Object::hashCode()方法時才 計算)、對象的GC分代年齡等信息。這些信息存放在對象的對象頭之中。根據虛擬機當前運行狀態的不同,如是否啓動偏向鎖等,對象頭會有不同的設置方式。

在上面工作都完成之後,從虛擬機視角來看,一個新的對象已產生,但是從Java程序的視角來看,對象創建纔剛剛開始——構造函數,即Class文件中的()方法還沒有執行,所有的字段都爲默認的零值,對象需要的其他資源和狀態也還沒有按照預定的意圖構造好。new指令之後會接着執行()方法,按照程序員的意願對對象進行初始化,這樣一個真正可用的對象纔算完全被構造出來。

總結一下 new 一個對象的流程

Java中new一個對象的步驟:
1. 當虛擬機遇到一條new指令時候,首先去檢查這個指令的參數是否能 在常量池中能否定位到一個類的符號引用 (即類的帶路徑全名),並且檢查這個符號引用代表的類是否已被加載、解析和初始化過,即驗證是否是第一次使用該類。如果沒有(不是第一次使用),那必須先執行相應的類加載過程(class.forname())。
2. 在類加載檢查通過後,接下來虛擬機將 爲新生的對象分配內存 。對象所需的內存的大小在類加載完成後便可以完全確定,爲對象分配空間的任務等同於把一塊確定大小的內存從Java堆中劃分出來,目前常用的有兩種方式,根據使用的垃圾收集器是否具有空間壓縮整理能力來決定使用哪種分配機制:
  2.1. 指針碰撞(Bump the Pointer):假設Java堆的內存是絕對規整的,所有用過的內存都放一邊,空閒的內存放在另一邊,中間放着一個指針作爲分界點的指示器,那所分配內存就僅僅把那個指針向空閒空間那邊挪動一段與對象大小相等的距離。
  2.2. 空閒列表(Free List):如果Java堆中的內存並不是規整的,已使用的內存和空間的內存是相互交錯的,虛擬機必須維護一個空閒列表,記錄上哪些內存塊是可用的,在分配時候從列表中找到一塊足夠大的空間劃分給對象使用。
3. 內存分配完後,虛擬機需要將分配到的內存空間中的數據類型都 初始化爲零值(不包括對象頭);
4. 虛擬機要 對對象頭進行必要的設置 ,例如這個對象是哪個類的實例(即所屬類)、如何才能找到類的元數據信息、對象的哈希碼、對象的GC分代年齡等信息,這些信息都存放在對象的對象頭中。
至此,從虛擬機視角來看,一個新的對象已經產生了。但是在Java程序視角來看,執行new操作後會接着執行如下步驟:
5.  調用對象的init()方法 ,根據傳入的屬性值給對象屬性賦值。
6. 在線程 棧中新建對象引用 ,並指向堆中剛剛新建的對象實例。

對象的內存佈局

在HotSpot虛擬機中,對象在堆內存中的存儲佈局可以劃分爲三個部分:對象頭(Header)、實例數據(Instance Data)和對齊填充(Padding)。

對象頭

HotSpot虛擬機對象的對象頭部分包括兩類信息。第一類是用於儲存對象自身的運行時數據,如哈希碼(HashCode)、GC分代年齡、鎖狀態標誌、線程持有的鎖、偏向線程ID、偏向時間戳等,這部分數據的長度在32位和64位虛擬機(未開啓壓縮指針)中分別爲32bit和64bit,官方稱它爲“Mark Word”。 對象需要儲存的運行時數據很多,其實超過了32、64位Bitmap結構所能記錄的最大限度,但對象頭裏的信息是與對象自身定義的數據無關的額外存儲成本,考慮到虛擬機的空間效率,Mark Word被設計成一個有着動態定義的數據結構,一邊在極小的空間內存儲儘量多的數據,根據對象的狀態複用自己的存儲空間。

例如32位的HotSpot虛擬機中,如對象未被同步鎖鎖定的狀態下,Mark Word的32bit儲存空間中25個比特用於儲存對象哈希碼,4個比特用於儲存對象分代年齡,2個bit用存儲鎖標誌位,1個bit固定爲0,在其它狀態(輕量級鎖、重量級鎖、GC標記、可偏向)下對象存儲內容如表2-1所示

儲存內容 標誌位 狀態
對象哈希碼、對象分代年齡 01 未鎖定
指向鎖記錄的指針 00 輕量級 鎖
指向重量級鎖指針 10 膨脹(重量級鎖定 )
空,不需要記錄信息 11 GC標記
偏向線程ID,偏向時間戳,對象分代年齡 01 可偏向
|-------------------------------------------------------|--------------------|
|                  Mark Word (32 bits)                  |       State        |
|-------------------------------------------------------|--------------------|
| identity_hashcode:25 | age:4 | biased_lock:1 | lock:2 |       Normal       |
|-------------------------------------------------------|--------------------|
|  thread:23 | epoch:2 | age:4 | biased_lock:1 | lock:2 |       Biased       |
|-------------------------------------------------------|--------------------|
|               ptr_to_lock_record:30          | lock:2 | Lightweight Locked |
|-------------------------------------------------------|--------------------|
|               ptr_to_heavyweight_monitor:30  | lock:2 | Heavyweight Locked |
|-------------------------------------------------------|--------------------|
|                                              | lock:2 |    Marked for GC   |
|-------------------------------------------------------|--------------------|

如果是64位指針壓縮情況下Mark Word佈局會是怎樣?
參考文章:https://blog.csdn.net/baidu_28523317/article/details/104453927
在這裏插入圖片描述

biased_lock:對象是否啓用偏向鎖標記,只佔1個二進制位。爲1時表示對象啓用偏向鎖,爲0時表示對象沒有偏向鎖。
age:4位的Java對象年齡。在GC中,如果對象在Survivor區複製一次,年齡增加1。當對象達到設定的閾值時,將會晉升到老年代。默認情況下,並行GC的年齡閾值爲15,併發GC的年齡閾值爲6。由於age只有4位,所以最大值爲15,這就是-XX:MaxTenuringThreshold選項最大值爲15的原因。
identity_hashcode:25位的對象標識Hash碼,採用延遲加載技術。調用方法System.identityHashCode()計算,並會將結果寫到該對象頭中。當對象被鎖定時,該值會移動到管程Monitor中。
thread:持有偏向鎖的線程ID。
epoch:偏向時間戳。
ptr_to_lock_record:指向棧中鎖記錄的指針。
ptr_to_heavyweight_monitor:指向管程Monitor的指針。

對象頭的另外一部分是類型指針,即對象指向它的類型元數據的指針,Java虛擬機通過這個指針來確定對象是那個類的實例。 並不是所有的虛擬機實現都必須在對象數據上保留類型指針。
此外,如果對象是數組,那麼對象頭中還必須有一塊用於記錄數組長度的數據,因爲無法通過元數據中的信息推斷數組的大小。

實例數據

實例數據是對象真正存儲有效的信息,即我們在程序代碼裏面所定義的各種類型的字 段內容,無論是從父類繼承下來的,還是在子類中定義的字段都必須記錄起來。這部分存儲順序會受到虛擬機分配策略參數(-XX:FieldsAllocationStyle參數)和字段在Java源碼中定義順序的影響。HotSpot虛擬機默認的分配順序爲longs/doubles、ints、shorts/chars、bytes/booleans、oops(Ordinary Object Pointers,OOPs),從以上默認的分配策略中可以看到,相同寬度的字段總是被分配到一起存 放,在滿足這個前提條件的情況下,在父類中定義的變量會出現在子類之前。如果HotSpot虛擬機的+XX::CompactFields參數值爲true(默認爲True),那子類之中較窄的變量也允許插入父類變量的空 隙之中,以節省出一點點空間。

對齊填充

對象的第三部分是對齊填充,這並不是必然存在的,也沒有特別含義,它僅僅起着佔位符的作用。由於HotSpot虛擬機的自動內存管理系統要求對象起止必須是8字節的整數倍,換句話說就是任何對象的大小都必須是8的正數倍。如果對象實例數據部分沒有對齊的話,就需要通過對齊填充來補全。

測試

我們可以利用JOL工具來進行試驗測試

<!-- https://mvnrepository.com/artifact/org.openjdk.jol/jol-core -->
<dependency>
    <groupId>org.openjdk.jol</groupId>
    <artifactId>jol-core</artifactId>
    <version>0.10</version>
</dependency>

Obj.class

public class Obj {
    private Integer age;
    private char c;
}

Main

public class Demo {
    private static Obj obj = new Obj();
    public static void main(String[] args) {
        System.out.println(ClassLayout.parseInstance(obj).toPrintable());
    }
}

結果
在這裏插入圖片描述
MarkWord值如何讀,跟你從圖中看到的正好相反。這裏涉及到一個知識點“大端存儲與小端存儲”。

  • Little-Endian:低位字節存放在內存的低地址端,高位字節存放在內存的高地址端。
  • Big-Endian:高位字節存放在內存的低地址端,低位字節存放在內存的高地址端。
    MarkWord:0x00000000 00 00 00 01 ->2機制 轉換結果 後三位001 無鎖;hashcode採用延遲加載技術所以都是0
public class Demo {
    private static Obj obj = new Obj();
    public static void main(String[] args) {
        System.out.println(obj.hashCode());
        System.out.println(ClassLayout.parseInstance(obj).toPrintable());
    }
}

在這裏插入圖片描述
hashcode : 0x014ae5a5->10進制:21685669 與輸出結果等
MarkWord: 0x014ae5a501->2進制:101001010111001011010010100000001 後三位001 無鎖狀態

加鎖試試

public class Demo {
    private static Obj obj = new Obj();
    public static void main(String[] args) {
        synchronized (obj) {
            System.out.println(ClassLayout.parseInstance(obj).toPrintable());
        }
    }
}

在這裏插入圖片描述
MarkWord:0x029bf2d0 ->2進制:10100110111111001011010000 後兩位00:輕量級鎖;

對象的訪問定位

創建對象自然是爲了後續使用該對象,我們的Java程序會通過棧上的reference數據來操作堆上的具體對象。由於reference類型在《Java虛擬機規範》裏面只規定了它是一個指向對象的引用,並沒有定義這個引用通過什麼方式去定位、訪問到堆中對象的具體位置,所以對象訪問方式也是由虛擬機實現而定的,主流的訪問方式主要使用句柄直接指針兩種:

  • 如果使用句柄訪問的話,Java堆中將可能劃分出一塊內存來作爲句柄池,reference中存儲的就是對象的句柄地址,而句柄中包含了對象實例數據與數據類型各自具體的地址信息,如圖所示.。

在這裏插入圖片描述

  • 如果使用直接指針訪問的話,Java堆中對象的內存佈局就必須考慮如何放置訪問類型數據的相關信息,reference中存儲的直接就是對象地址,就不需要多一次間接訪問的開銷,如下圖:

在這裏插入圖片描述
這兩種對象訪問各有優勢,使用句柄來訪問的最大好處就是reference中存儲的是穩定句柄地址,在對象被移動(垃圾收集移動對象是非常普遍行爲)時只會改變句柄中的實例數據指針,而reference本身不需要被修改

使用直接指針來訪問最大的好處就是速度快,它節省來了一次指針定位的時間開銷,由於對象訪問在Java中非常頻繁,因此這類開銷積少成多也是一項極爲可觀的執行成本,HotSpot而言,它主要使用第二種方式進行對象訪問

說明

本文章基本來自來源《深入理解Java虛擬機》第三版,文章僅做讀書記錄

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章