Java虛擬機學習筆記(一):內存區域與HotSpot虛擬機對象探祕

運行時數據區域

Java虛擬機在執行Java程序的過程中會把它所管理的內存劃分爲若干個不同的數據區域。這些區域都有各自的用途,以及創建和銷燬的時間,有的區域隨着虛擬機進程的啓動而存在,有些區域則依賴用戶線程的啓動和結束而建立和銷燬。根據《Java虛擬機規範(Java SE 7版)》的規定,Java虛擬機所管理的內存將會包括以下幾個運行時數據區域:
Java虛擬機運行時數據區

程序計數器(線程私有)

程序計數器是一塊較小的內存空間,它可以看作是當前線程所執行的字節碼的行號指示器在虛擬機概念模型中,字節碼解釋器工作時就是通過改變這個計數器的值來選取下一條需要執行的字節碼指令,分支、循環、跳轉、異常處理、線程恢復等基礎功能都需要依賴這個計數器來完成。

由於Java虛擬機的多線程是通過線程輪流切換並分配處理器執行時間的方式來實現的,在任何一個確定的時刻,一個處理器都只會執行一條線程中的指令。因此,爲了線程切換後能恢復到正確的執行位置,每條線程都需要有一個獨立的程序計數器,各條線程之間計數器互不影響,獨立存儲

如果線程正在執行的是一個Java方法,這個計數器記錄的是正在執行的虛擬機字節碼指令的地址;如果正在執行的是Native方法,這個計數器值則爲空。此內存區域是唯一一個在Java虛擬機規範中沒有規定任何OutOfMemoryError情況的區域

Java虛擬機棧(線程私有)

虛擬機棧描述的是Java方法執行的內存模型:每個方法在執行的同時都會創建一個棧幀(Stack Frame)用於存儲局部變量表、操作數棧、動態鏈接、方法出口等信息。每一個方法從調用直至執行完成的過程,就對應着一個棧幀在虛擬機棧中入棧到出棧的過程。

棧幀是方法運行時的基礎數據結構

經常有人把Java內存區分爲堆內存(Heap)和棧內存(Stack),Java內存區域實際上比這複雜的多,這種劃分方式的流行只能說明大多數程序員最關注的、與對象內存分配關係最密切的內存區域是這兩塊。其中 “棧”就是現在講的虛擬機棧,或者說是虛擬機棧中局部變量表部分

局部變量表存放了編譯期可知的各種基本數據類型(boolean、byte、char、short、int、float、long、double)、對象引用(reference類型,他不等同於對象本身,可能是一個指向對象起始地址的應用指針,也可能是指向一個代表對象的句柄或其他與此對象相關的位置)和returnAddress類型(指向了一條字節碼指令的地址)。

需要注意的是局部變量表所需的內存空間在編譯期間完成分配,當進入一個方法時,這個方法需要在幀中分配多大的局部變量空間是完全確定的,在方法運行期間不會改變

其中64位長度的long和double類型的數據會佔用2個局部變量空間(Slot),其餘的數據類型只佔用1個。

在Java虛擬機規範中,對這個區域規定了兩種異常情況:
(1)如果線程請求的棧深度大於虛擬機所允許的深度,將拋出StackOverflowError異常
(2)如果虛擬機棧可以動態擴展,在擴展時無法申請到足夠的內存,就會拋出OutOfMemoryError異常

本地方法棧

本地方法棧爲虛擬機使用到的Native方法服務,也會拋出StackOverflowError和OutOfMemoryError異常。

Java堆(GC堆)

Java堆是Java虛擬機所管理的內存中最大的一塊。Java堆是被所有線程共享的一塊內存區域,在虛擬機啓動時創建。此內存區域的唯一目的就是存放對象實例,幾乎所有的對象實例都在這裏分配內存。

Java堆是垃圾收集器管理的主要區域,因此很多時候也被稱爲“GC堆”。從內存回收的角度來看,由於現在收集器基本都採用分代收集算法,所以Java堆中還可以細分爲:新生代和老年代;再細緻一點的有Eden空間、From Survivor空間、To Survivor空間等。從內存分配的角度來看,線程共享的Java堆中可能劃分出多個線程私有的分配緩衝區。

根據Java虛擬機規範的規定,Java堆可以處於物理上不連續的內存空間中,只要邏輯上是連續的即可。當前主流的虛擬機都是按照可擴展來實現的(通過-Xmx和-Xms控制)。如果在堆中沒有內存完成實例分配,並且堆也無法再擴展時,將會拋出OutOfMemoryError異常。

方法區(別名Non-Heap)

方法區和Java堆一樣,是各個線程共享的內存區域,它用於存儲已被虛擬機加載的類信息、常量、靜態變量、即時編譯器編譯後的代碼等數據。

根據Java虛擬機規範的規定,當方法區無法滿足內存分配需求時,將拋出OutOfMemoryError。

運行時常量池

和Class文件中的常量池是不同概念

運行時常量池是方法區的一部分。Class文件中除了有類的版本、字段、方法、接口等描述信息外,還有一項信息是常量池,用於存放編譯期生成的各種字面量和符號引用,這部分內容將在類加載後進入方法區的運行時常量池中存放

Java虛擬機對Class文件每一部分(包括常量池)的格式都有嚴格規定,每一個字節用於存儲哪種數據都必須符合規範上的要求才會被虛擬機認可、裝載和執行,但對於運行時常量池,Java虛擬機規範沒有做任何細節的要求,不同的提供商實現的虛擬機可以按照自己的需求來實現這個內存區域。不過,一般來說,除了保存Class文件中描述的符號引用外,還會把翻譯出來的直接引用也存儲在運行時常量池中

運行時常量池相對於Class文件常量池的另外一個重要特徵是具備動態性,Java語言並不要求常量一定只有編譯期才能生成,也就是並非預置入Class文件中常量池的內容才能進入方法區運行時常量池,運行期間也可能將新的常量放入池中。

當常量池無法再申請到內存時會拋出OutOfMemoryError異常。

直接內存

在JDK 1.4中新加入了NIO(New Input/Output)類,引入了一種基於通道(Channel)與緩衝區(Buffer)的I/O方式,它可以使用Native函數庫直接分配堆外內存,然後通過一個存儲在Java堆中的DirectByteBuffer對象作爲這塊內存的引用進行操作。本機直接內存的分配不受Java堆大小的限制,但是,既然是內存,肯定還是會受到本機總內存大小以及處理器尋址空間的限制。

HotSpot虛擬機對象探祕

對象的創建通常僅僅是一個new關鍵字而已,而在虛擬機中,對象(限於普通Java對象,不包括數組和Class對象等)的創建一般包含5個步驟:
(1)檢查這個指令的參數是否能在常量池中定位到一個類的符號引用,並且檢查這個符號引用代表的類是否已被加載、解析和初始化過。如果沒有,那必須先執行相應的類加載過程。
(2)在類加載檢查通過後,虛擬機將爲新生對象分配內存。對象所需內存的大小在類加載完成後便可完全確定,爲對象分配空間的任務等同於把一塊確定大小的內存從Java堆中劃分出來。

指針碰撞:假設Java堆中內存是絕對規整的,所有用過的內存都放在一邊,空閒的內存放在另一邊,中間放着一個指針作爲分界點的指示器,那所分配內存就僅僅是把那個指針向空閒空間那邊挪動一段與對象大小相等的距離。
空閒列表:如果Java堆中的內存並不是規整的,已使用的內存和空閒的內存相互交錯,虛擬機必須維護一個列表,記錄哪些內存塊是可用的,在分配的時候從列表中找到一塊足夠大的空間劃分給對象實例,並更新列表上的記錄。

選擇哪種分配方式由Java堆是否規整決定,而Java堆是否規整又由所採用的垃圾收集器是否帶有壓縮整理功能決定。因此,Serial、ParNew等帶Compact過程的收集器採用的分配算法是指針碰撞,而CMS這種基於Mark-Sweep算法的收集器通常採用空閒列表。

除了空間的劃分,我們還需要處理一下併發情況。解決方案有兩種:

  • 一種是對分配內存空間的動作進行同步處理–實際上虛擬機採用CAS配上失敗重試的方式保證更新操作的原子性;
  • 另一種是把內存分配的動作按照線程劃分在不同的空間之中進行,即每個線程在Java堆中預先分配一小塊內存,稱爲本地線程分配緩衝(Thread Local Allocation Buffer,TLAB)。只有TLAB用完並分配新的TLAB時,才需要同步鎖定,虛擬機是否使用TLAB,可以通過-XX:+/-UseTLAB參數來設定

(3)將分配到的內存空間都初始化爲零值(不包括對象頭),如果使用TLAB,這一工作過程也可以提前至TLAB分配時進行。這一步操作保證了對象實例字段在Java代碼中可以不賦初始值就直接使用
(4)對對象進行必要的設置,例如這個對象是哪個類的實例、如何才能找到類的元數據信息、對象的哈希嗎、對象的GC分代年齡等信息。這些信息存放在對象的對象頭之中。
(5)執行new指令之後會接着執行< init>方法,把對象按照程序員的意願進行初始化,這樣一個真正可用的對象纔算完全產生出來。即所有字段先全部初始化爲對應零值,再通過init初始化爲所設置的對應值。

對象的內存佈局

在HotSpot虛擬機中,對象在內存中存儲的佈局可以分爲3塊區域:對象頭(Header)、實例數據(Instance Data)和對齊填充(Padding)

對象頭

對象頭包括兩部分信息:

  • 用於存儲對象自身的運行時數據,如哈希碼、GC分代年齡、鎖狀態標誌、線程持有的鎖、偏向線程ID、偏向時間戳等。
  • (非必須)類型指針,即對象指向它的類元數據的指針,虛擬機通過這個指針來確定這個對象是哪個類的實例。如果對象是Java數組,那在對象頭中還必須有一塊用於記錄數組長度的數據,因爲虛擬機可以通過普通Java對象的元數據信息確定Java對象的大小,但是從數組的元數據卻無法確定數組的大小。

實例數據

實例數據部分是對象真正存儲的有效信息,也是在程序代碼中所定義的各種類型的字段內容。無論是從父類繼承下來的,還是在子類中定義的,都需要記錄起來。這部分的存儲順序會收到虛擬機分配策略參數字段在Java源碼中定義順序的影響。HotSpot虛擬機默認的分配策略爲longs/doubles、ints、shorts/chars、bytes/booleans、oops(Ordinary Object Pointers),從分配策略中可以看出,相同寬度的字段總是被分配到一起在滿足這個前提條件的情況下,在父類中定義的變量會出現在子類之前。如果CompactFields參數值爲true(默認爲true),那麼子類之中較窄的變量也可能會插入到父類變量的空隙之中。

對齊填充

對齊填充並不是必然存在的,也沒有特別的含義,它僅僅起着佔位符的作用。HotSpot VM的自動內存管理系統要求對象起始地址必須是8字節的整數倍,即對象的大小必須是8字節的整數倍。而對象頭部分正好是8字節的倍數,因此當對象實例數據部分沒有對齊時,就需要通過對齊填充來不全。

對象的訪問定位

Java程序需要通過棧上的reference數據來操作堆上的具體對象。由於reference類型在Java虛擬機規範中只規定了一個指向對象的引用,並沒有定義這個引用應該通過何種方式去定位、訪問堆中的對象的具體位置,所以對象訪問方式也是取決於虛擬機實現而定的。目前主流的訪問方式有使用句柄和直接指針兩種

使用句柄

如果使用句柄訪問的話,那麼Java堆中將會劃分出一塊內存來作爲句柄池,reference中存儲的就是對象的句柄地址,而句柄中包含了對象實例數據與類型數據各自的具體地址信息。
使用句柄訪問

直接指針

使用直接指針訪問,那麼Java堆對象的佈局中就必須考慮如何放置訪問類型數據的相關信息,而reference中存儲的直接就是對象地址。
直接指針

  • 使用句柄來訪問的最大好處: reference中存儲的是穩定的句柄地址,在對象被移動(垃圾收集時移動對象是非常普遍的行爲)時只會改變句柄中的實例數據指針,而reference本身不需要修改。
  • 使用直接指針訪問方式的最大好處: 速度更快,它節省了一次指針定位的時間開銷,由於對象的訪問在Java中非常頻繁,因此這類開銷積少成多後也是一項非常可觀的執行成本。Sun HotSpot是使用的直接指針的方式進行對象的訪問。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章