深入理解Java虛擬機(3)筆記

1.1 JDK和JRE的區別

從廣義上講,Kotlin、Clojure、JRuby、Groovy等運行於Java虛擬機上的編程語言及其相關的程序都屬於Java技術體系中的一員。

把Java程序設計語言、Java虛擬機、Java類庫這三部分統稱爲JDK(JavaDevelopment Kit),JDK是用於支持Java程序開發的最小環境。可以把Java類庫API中的Java SE API子集[插圖]和Java虛擬機這兩部分統稱爲JRE(Java Runtime Environment),JRE是支持Java程序運行的標準環境。圖1-2展示了Java技術體系所包括的內容,以及JDK和JRE所涵蓋的範圍。

 

1.2 運行時數據區域

Java虛擬機在執行Java程序的過程中會把它所管理的內存劃分爲若干個不同的數據區域。這些區域有各自的用途,以及創建和銷燬的時間,有的區域隨着虛擬機進程的啓動而一直存在,有些區域則是依賴用戶線程的啓動和結束而建立和銷燬。根據《Java虛擬機規範》的規定,Java虛擬機所管理的內存將會包括以下幾個運行時數據區域,如圖2-1所示。

 

 

1.3 程序計數器

程序計數器(Program Counter Register)是一塊較小的內存空間,它可以看作是當前線程所執行的字節碼的行號指示器。在Java虛擬機的概念模型裏[插圖],字節碼解釋器工作時就是通過改變這個計數器的值來選取下一條需要執行的字節碼指令,它是程序控制流的指示器,分支、循環、跳轉、異常處理、線程恢復等基礎功能都需要依賴這個計數器來完成。由於Java虛擬機的多線程是通過線程輪流切換、分配處理器執行時間的方式來實現的,在任何一個確定的時刻,一個處理器(對於多核處理器來說是一個內核)都只會執行一條線程中的指令。因此,爲了線程切換後能恢復到正確的執行位置,每條線程都需要有一個獨立的程序計數器,各條線程之間計數器互不影響,獨立存儲,我們稱這類內存區域爲“線程私有”的內存。

如果線程正在執行的是一個Java方法,這個計數器記錄的是正在執行的虛擬機字節碼指令的地址;如果正在執行的是本地(Native)方法,這個計數器值則應爲空(Undefined)。此內存區域是唯一一個在《Java虛擬機規範》中沒有規定任何OutOfMemoryError情況的區域。2.2.2 Java虛擬機棧與程序計數器一樣,Java虛擬機棧(Java Virtual Machine Stack)也是線程私有的,它的生命週期與線程相同。虛擬機棧描述的是Java方法執行的線程內存模型:每個方法被執行的時候,Java虛擬機都會同步創建一個棧幀[插圖](Stack Frame)用於存儲局部變量表、操作數棧、動態連接、方法出口等信息。每一個方法被調用直至執行完畢的過程,就對應着一個棧幀在虛擬機棧中從入棧到出棧的過程。經常有人把Java內存區域籠統地劃分爲堆內存(Heap)和棧內存(Stack),這種劃分方式直接繼承自傳統的C、C++程序的內存佈局結構,在Java語言裏就顯得有些粗糙了,實際的內存區域劃分要比這更復雜。不過這種劃分方式的流行也間接說明了程序員最關注的、與對象內存分配關係最密切的區域是“堆”和“棧”兩塊。其中,“堆”在稍後筆者會專門講述,而“棧”通常就是指這裏講的虛擬機棧,或者更多的情況下只是指虛擬機棧中局部變量表部分。局部變量表存放了編譯期可知的各種Java虛擬機基本數據類型(boolean、byte、char、short、int、float、long、double)、對象引用(reference類型,它並不等同於對象本身,可能是一個指向對象起始地址的引用指針,也可能是指向一個代表對象的句柄或者其他與此對象相關的位置)和returnAddress類型(指向了一條字節碼指令的地址)。這些數據類型在局部變量表中的存儲空間以局部變量槽(Slot)來表示,其中64位長度的long和double類型的數據會佔用兩個變量槽,其餘的數據類型只佔用一個。局部變量表所需的內存空間在編譯期間完成分配,當進入一個方法時,這個方法需要在棧幀中分配多大的局部變量空間是完全確定的,在方法運行期間不會改變局部變量表的大小。請讀者注意,這裏說的“大小”是指變量槽的數量,虛擬機真正使用多大的內存空間(譬如按照1個變量槽佔用32個比特、64個比特,或者更多)來實現一個變量槽,這是完全由具體的虛擬機實現自行決定的事情。在《Java虛擬機規範》中,對這個內存區域規定了兩類異常狀況:如果線程請求的棧深度大於虛擬機所允許的深度,將拋出StackOverflowError異常;如果Java虛擬機棧容量可以動態擴展[插圖],當棧擴展時無法申請到足夠的內存會拋出OutOfMemoryError異常。

 

1.4 本地方法棧

本地方法棧(Native Method Stacks)與虛擬機棧所發揮的作用是非常相似的,其區別只是虛擬機棧爲虛擬機執行Java方法(也就是字節碼)服務,而本地方法棧則是爲虛擬機使用到的本地(Native)方法服務。《Java虛擬機規範》對本地方法棧中方法使用的語言、使用方式與數據結構並沒有任何強制規定,因此具體的虛擬機可以根據需要自由實現它,甚至有的Java虛擬機(譬如Hot-Spot虛擬機)直接就把本地方法棧和虛擬機棧合二爲一。與虛擬機棧一樣,本地方法棧也會在棧深度溢出或者棧擴展失敗時分別拋出StackOverflowError和OutOfMemoryError異常。

 

1.5 Java堆

對於Java應用程序來說,Java堆(Java Heap)是虛擬機所管理的內存中最大的一塊。Java堆是被所有線程共享的一塊內存區域,在虛擬機啓動時創建。此內存區域的唯一目的就是存放對象實例,Java世界裏“幾乎”所有的對象實例都在這裏分配內存。在《Java虛擬機規範》中對Java堆的描述是:“所有的對象實例以及數組都應當在堆上分配[插圖]”,而這裏筆者寫的“幾乎”是指從實現角度來看,隨着Java語言的發展,現在已經能看到些許跡象表明日後可能出現值類型的支持,即使只考慮現在,由於即時編譯技術的進步,尤其是逃逸分析技術的日漸強大,棧上分配、標量替換[插圖]優化手段已經導致一些微妙的變化悄然發生,所以說Java對象實例都分配在堆上也漸漸變得不是那麼絕對了。

Java堆是垃圾收集器管理的內存區域,因此一些資料中它也被稱作“GC堆”(Garbage Collected Heap,幸好國內沒翻譯成“垃圾堆”)。從回收內存的角度看,由於現代垃圾收集器大部分都是基於分代收集理論設計的,所以Java堆中經常會出現“新生代”“老年代”“永久代”“Eden空間”“From Survivor空間”“To Survivor空間”等名詞,這些概念在本書後續章節中還會反覆登場亮相,在這裏筆者想先說明的是這些區域劃分僅僅是一部分垃圾收集器的共同特性或者說設計風格而已,而非某個Java虛擬機具體實現的固有內存佈局,更不是《Java虛擬機規範》裏對Java堆的進一步細緻劃分。不少資料上經常寫着類似於“Java虛擬機的堆內存分爲新生代、老年代、永久代、Eden、Survivor……”這樣的內容。在十年之前(以G1收集器的出現爲分界),作爲業界絕對主流的HotSpot虛擬機,它內部的垃圾收集器全部都基於“經典分代”[插圖]來設計,需要新生代、老年代收集器搭配才能工作,在這種背景下,上述說法還算是不會產生太大歧義。但是到了今天,垃圾收集器技術與十年前已不可同日而語,HotSpot裏面也出現了不採用分代設計的新垃圾收集器,再按照上面的提法就有很多需要商榷的地方了。

如果從分配內存的角度看,所有線程共享的Java堆中可以劃分出多個線程私有的分配緩衝區(Thread LocalAllocation Buffer,TLAB),以提升對象分配時的效率。不過無論從什麼角度,無論如何劃分,都不會改變Java堆中存儲內容的共性,無論是哪個區域,存儲的都只能是對象的實例,將Java堆細分的目的只是爲了更好地回收內存,或者更快地分配內存。在本章中,我們僅僅針對內存區域的作用進行討論,Java堆中的上述各個區域的分配、回收等細節將會是下一章的主題。根據《Java虛擬機規範》的規定,Java堆可以處於物理上不連續的內存空間中,但在邏輯上它應該被視爲連續的,這點就像我們用磁盤空間去存儲文件一樣,並不要求每個文件都連續存放。但對於大對象(典型的如數組對象),多數虛擬機實現出於實現簡單、存儲高效的考慮,很可能會要求連續的內存空間。Java堆既可以被實現成固定大小的,也可以是可擴展的,不過當前主流的Java虛擬機都是按照可擴展來實現的(通過參數-Xmx和-Xms設定)。如果在Java堆中沒有內存完成實例分配,並且堆也無法再擴展時,Java虛擬機將會拋出OutOfMemoryError異常。

 

1.6 方法區

方法區(Method Area)與Java堆一樣,是各個線程共享的內存區域,它用於存儲已被虛擬機加載的類型信息、常量、靜態變量、即時編譯器編譯後的代碼緩存等數據。雖然《Java虛擬機規範》中把方法區描述爲堆的一個邏輯部分,但是它卻有一個別名叫作“非堆”(Non-Heap),目的是與Java堆區分開來。說到方法區,不得不提一下“永久代”這個概念,尤其是在JDK 8以前,許多Java程序員都習慣在HotSpot虛擬機上開發、部署程序,很多人都更願意把方法區稱呼爲“永久代”(Permanent Generation),或將兩者混爲一談。本質上這兩者並不是等價的,因爲僅僅是當時的HotSpot虛擬機設計團隊選擇把收集器的分代設計擴展至方法區,或者說使用永久代來實現方法區而已,這樣使得HotSpot的垃圾收集器能夠像管理Java堆一樣管理這部分內存,省去專門爲方法區編寫內存管理代碼的工作。但是對於其他虛擬機實現,譬如BEA JRockit、IBM J9等來說,是不存在永久代的概念的。原則上如何實現方法區屬於虛擬機實現細節,不受《Java虛擬機規範》管束,並不要求統一。但現在回頭來看,當年使用永久代來實現方法區的決定並不是一個好主意,這種設計導致了Java應用更容易遇到內存溢出的問題(永久代有-XX:MaxPermSize的上限,即使不設置也有默認大小,,而J9和JRockit只要沒有觸碰到進程可用內存的上限,例如32位系統中的4GB限制,就不會出問題),而且有極少數方法(例如String::intern())會因永久代的原因而導致不同虛擬機下有不同的表現。當Oracle收購BEA獲得了JRockit的所有權後,準備把JRockit中的優秀功能,譬如Java Mission Control管理工具,移植到HotSpot虛擬機時,但因爲兩者對方法區實現的差異而面臨諸多困難。考慮到HotSpot未來的發展,在JDK 6的時候HotSpot開發團隊就有放棄永久代,逐步改爲採用本地內存(Native Memory)來實現方法區的計劃了[插圖],到了JDK 7的HotSpot,已經把原本放在永久代的字符串常量池、靜態變量等移出,而到了JDK 8,終於完全廢棄了永久代的概念,改用與JRockit、J9一樣在本地內存中實現的元空間(Meta-space)來代替,把JDK 7中永久代還剩餘的內容(主要是類型信息)全部移到元空間中。

 

1.7 運行時常量池

運行時常量池(Runtime Constant Pool)是方法區的一部分。Class文件中除了有類的版本、字段、方法、接口等描述信息外,還有一項信息是常量池表(Constant Pool Table),用於存放編譯期生成的各種字面量與符號引用,這部分內容將在類加載後存放到方法區的運行時常量池中。

Java虛擬機對於Class文件每一部分(自然也包括常量池)的格式都有嚴格規定,如每一個字節用於存儲哪種數據都必須符合規範上的要求才會被虛擬機認可、加載和執行,但對於運行時常量池,《Java虛擬機規範》並沒有做任何細節的要求,不同提供商實現的虛擬機可以按照自己的需要來實現這個內存區域,不過一般來說,除了保存Class文件中描述的符號引用外,還會把由符號引用翻譯出來的直接引用也存儲在運行時常量池中[插圖]。運行時常量池相對於Class文件常量池的另外一個重要特徵是具備動態性,Java語言並不要求常量一定只有編譯期才能產生,也就是說,並非預置入Class文件中常量池的內容才能進入方法區運行時常量池,運行期間也可以將新的常量放入池中,這種特性被開發人員利用得比較多的便是String類的intern()方法。既然運行時常量池是方法區的一部分,自然受到方法區內存的限制,當常量池無法再申請到內存時會拋出OutOfMemoryError異常。

 

1.8 直接內存

直接內存(Direct Memory)並不是虛擬機運行時數據區的一部分,也不是《Java虛擬機規範》中定義的內存區域。但是這部分內存也被頻繁地使用,而且也可能導致OutOfMemoryError異常出現,所以我們放到這裏一起講解。在JDK 1.4中新加入了NIO(New Input/Output)類,引入了一種基於通道(Channel)與緩衝區(Buffer)的I/O方式,它可以使用Native函數庫直接分配堆外內存,然後通過一個存儲在Java堆裏面的DirectByteBuffer對象作爲這塊內存的引用進行操作。這樣能在一些場景中顯著提高性能,因爲避免了在Java堆和Native堆中來回複製數據。顯然,本機直接內存的分配不會受到Java堆大小的限制,但是,既然是內存,則肯定還是會受到本機總內存(包括物理內存、SWAP分區或者分頁文件)大小以及處理器尋址空間的限制,一般服務器管理員配置虛擬機參數時,會根據實際內存去設置-Xmx等參數信息,但經常忽略掉直接內存,使得各個內存區域總和大於物理內存限制(包括物理的和操作系統級的限制),從而導致動態擴展時出現OutOfMemoryError異常。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章