JVM 堆中對象分配、佈局和訪問


本文摘自深入理解 Java 虛擬機第三版


對象的創建

Java 是一門面向對象的語言,Java 程序運行過程中無時無刻都有對象被創建出來。從語言層面看,創建對象只是一個 new 關鍵字而已,而在虛擬機中,對象(僅限於普通 Java 對象,不包括數組和 Class 對象等)的創建又是怎麼一個過程呢?

以 Hotspot 虛擬機爲例,當虛擬機遇到一條字節碼指令,首先會檢查這個指令的參數是否能在常量池中定位到一個符號引用,並檢查這個符號引用代表的類是否已被加載、解析和初始化,如果沒有,那麼會先執行對應的類加載過程

類加載檢查通過後,虛擬機將爲新生對象分配內存。對象所需內存的大小在類加載過程中即可完全確定,爲對象分配空間的任務實際上等同於把一塊確定大小的內存區域從 Java 堆中劃分出來,並分配給對象。劃分內存的方式主要有兩種:

  • 指針碰撞法

    即假設 Java 堆中內存是絕對規整的,已被使用的內存放在一邊,空閒的內存放在另一邊,中間有一個指針作爲分界點的指示器,那麼當需要分配內存時,只需要將指針向空閒空間的方向挪動一段與對象大小相等的距離即可

  • 空閒列表法

    這個情況就是 Java 堆中內存並不是規整的,已使用內存和空閒內存相互交錯在一起。此時虛擬機必須維護一個列表,記錄哪些內存塊可用,分配時從列表中找出一塊足夠大的空間劃分給對象實例,並更新列表記錄

由此可見,選擇哪種分配方式由 Java 堆是否規整決定,而 Java 堆是否規整又由所採用的垃圾收集器是否帶有空間壓縮整理的能力決定

除了如何劃分可用空間以外,還有一個需要考慮的問題:對象創建在虛擬機中是非常頻繁的行爲,即使僅僅只是修改指針的位置,在併發情況下也並不是安全的,有可能出現正在給對象 A 分配內存,指針還沒來得及修改,對象 B 又同時使用原來的指針來分配內存。解決該問題的方法有兩個:一個是對分配內存空間的動作片進行同步處理,實際上虛擬機是採用 CAS 配上失敗重試機制來保證更新操作的原子性的;另一種是把內存分配的動作按照線程劃分到不同的空間之中進行,即每個線程在 Java 堆中預先分配一小塊內存,稱爲本地線程分配緩衝(Thread Local Allocation Buffer),簡稱 TLAB,哪個線程要分配內存,就在哪個線程的本地緩衝區中分配,只有本地緩衝區用完了,分配新的緩衝區時才需要同步鎖定。虛擬機是否使用 TLAB,可以通過 -XX:+/UseTLAB 參數來設定

內存分配完成後,虛擬機必須先將分配到的內存空間(但不包括對象頭)都初始化爲零值,如果使用了 TLAB 的話,這項工作也可以提前在 TLAB 分配時順便進行。這步操作保證了對象的實例字段在 Java 代碼中可以不賦初值就直接使用,使程序可以訪問到這些字段的數據類型對應的零值

接下來,Java 虛擬機還需要對對象的對象頭(Object Header)進行設置,對象頭存放一些信息如這個對象是哪個對象的實例、如何找到類的元數據信息、對象的哈希碼、對象的 GC 分代年齡等

上面的工作完成之後,從虛擬機的視角來看,一個新的對象已經誕生了,而從 Java 程序的角度來看,對象的創建纔剛剛開始,對象的構造函數,即 Class 文件的 <init> 方法尚未執行,所有的字段都是默認的零值。new 指令之後會接着執行 <init> 方法,對對象進行初始化,這樣一個真正可用的對象纔算完全構造出來


對象的內存佈局

在 HotSpot 虛擬機中,對象在堆內存中的存儲佈局可以劃分爲三個部分:對象頭(Header)、實例數據(Instance Data)和對齊填充(Padding)

1. 對象頭

Hotspot 虛擬機對象的對象頭部分包括兩類信息,第一類是用於存儲對象自身的運行時數據,如哈希碼、GC 分代年齡、鎖狀態標誌、線程持有鎖、偏向線程 ID、編向時間戳等。這部分數據的長度在 32 位和 64 位虛擬機中分別爲 32 個比特和 64 個比特,官方稱之爲 “Mark Word”

但實際上,對象需要存儲待運行時數據很多,已經超過了 32、64 位 Bitmap 結構所能記錄的最大限度,因此 Mark Word 被設計成一個有着動態定義的數據結構,以便儘可能多的複用自己的存儲空間,例如在 32 位 JVM 中是這樣存儲的:

對象頭的另一個部分是類型指針,即對象指向它的類型元數據的指針,Java 虛擬機通過這個指針來確定這個對象是屬於哪個類的實例。然而,並不是所有的虛擬機都會在對象頭上保留類型指針,換句話說,查找對象的元數據信息不一定要經過對象本身。此外,如果對象是個數組,那麼在對象頭中還必須有一塊用於記錄數組長度的數據

2. 實例數據

實例數據部分是對象真正存儲的有效信息,即我們在代碼裏面所定義的各種類型的字段內容,無論是從父類繼承下來的,還是在子類中定義的字段都必須記錄起來

3. 對齊填充

對齊填充並不是必然存在的,它僅僅起着佔位符的作用,因爲 Hotspot 虛擬機的自動內存管理機制要求對象的大小必須是 8 字節的整數倍。因此,如果對象實例數據部分沒有對齊的話,就需要通過對齊填充來補全


對象的訪問定位

Java 程序會通過棧上的 reference 數據來操作堆上的具體對象。在 Java 虛擬機規範中,只是規定 reference 類型是一個指向對象的引用,並沒有定義要用什麼方式實現。因此對象訪問方式是由虛擬機自主實現的,主流的訪問方式主要有使用句柄和直接指針兩種:

  • 句柄訪問

    Java 堆中會劃分出一塊內存來作爲句柄池,reference 中存儲的就是對象的句柄地址,而句柄包含了對象實例數據和類型數據各自具體的地址信息

  • 直接指針

    reference 中存儲的就是對象地址,所以如果只是訪問對象本身的話,可以避免多次開銷。另外,如果使用直接指針訪問,Java 堆中對象的內存佈局就必須考慮如何放置用於訪問類型數據的相關信息

兩種方式各有千秋,使用句柄的好處就是 reference 中存儲的是穩定的句柄地址,如果對象被移動(例如進行垃圾收集),那麼只會改變句柄中實例數據指針,而 reference 本身不需要修改。而使用直接指針的好處就是速度更快,節省時間開銷。在 HotSpot 虛擬機中主要使用直接指針方式進行對象訪問


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章