JVM內存模型
閱讀完本文你可以獲得什麼?
- 瞭解JVM調優三步曲
- 熟悉JVM內存模型
- 瞭解方法區、永久代、元空間的區別
- 知道爲什麼JDK8後從永久代變成了元空間
- 瞭解CLASS文件格式
本文目的
- JVM調優,通俗的來講分爲三步:事前、事中、事後。
- 事前:是項目上線前根據對象大小,和預估流量進行計算,看看新生代、老年代、方法區,應該怎麼設置大小
- 事中:是項目上線期間在還沒有發生OOM之前根據GC的情況進一步判斷參數配置
- 事後:是發生OOM後根據“現場”情況,排除代碼問題內存泄漏等情況,對多個代的參數配置進行進一步的修改
可以看到調優不管是在哪個階段,都是優化不同分代的參數,所以有必要帶領大家回顧一下JVM內存模型。
本文是JVM調優基礎篇第二篇,前一篇文章已經講述了怎麼計算對象的大小 怎麼計算對象的大小沒看過的同學可以自行查看。
本文會先概括講述一下JVM的數據類型和內存模型都包括什麼東西?然後對每個模塊一一深入解釋
數據類型
- primitive types :原始類型
- reference types:引用類型
像Java編程語言一樣,Java虛擬機可對兩種類型進行操作:原始類型和引用類型。 相應地,可以將兩種類型的值存儲在變量中,作爲參數傳遞,由方法返回並對其進行操作:原始值和引用值。
內存模型概述
JVM內存模型整體上來看分爲三部分:類加載子系統、執行引擎、運行時數據區。
因爲本文的出發點是回顧運行時數據區各代的大小,所以不會詳細介紹類加載子系統和執行引擎的相關細節。
類加載子系統
JVM通過類加載器把Class文件從磁盤(一般是)讀取到內存中對應的是Class Content ,然後經過JVM虛擬機規範的檢查和編譯,生成Class對象。
類加載的流程一般都是採用雙親委派模型,然後經歷加載、驗證、準備、解析、初始化、使用、直到卸載。有關類加載的流程就不在這詳細展開了,只說一下Class文件。
在虛擬機規範中只是制定了一個JVM的抽象概念。 它沒有描述Java虛擬機的任何特定實現。規範中說要正確實現Java虛擬機,我們僅需要能夠讀取類文件格式並正確執行其中指定的操作,可見Class文件的重要性。
Class文件
Class文件是一組已8位字節爲基礎長度的二進制字節流 ,各個數據項目嚴格按順序緊湊的排列在 Class 文件中,中間沒有添加任何分隔符。
當遇到需要佔用超 過8字節長度的數據項時,會按照高位在前的方式分割成若干個8個字節來存儲
Class 文 採用類似於C語言結構體的僞結構存放數據,這種結構只有兩種數據類型:無符號數和表
- 無符號數屬於基本數據類型:以 U1 U2 U4 U8 來代表 1 ,2,4,8 個字節的無符號數;無符號數可以用來描述數字,索引引用,數量值或者按照UTF-8編碼的字符串值
- 表是由多個無符號數或其他表作爲數據項構成的複合數據類型,所有的表都習慣性的以“_info” 結尾。整個 Class 文件本質上就是一個表。
1、魔數
每個 Class 文件頭的四個字節稱爲魔數 ,它的唯一作用是確定一個 Class 文件是否是可以被虛擬機加載的
2、版本號
有兩個版本號 小版本號、和主版本號,一共使用四字節來表示。Java的版本號是從45開始的
類加載驗證時會起作用,高版本可以運行低版本,反之不能。
3、常量池
由於常量池的數量不是固定的,所以在常量池的入口放置一項U2類型的數據,代表常量池的容量計數值
Class文件中只有常量池的文件計數是從1開始的,0有特殊的作用(來表示不引用任何一個常量池的特殊的含義)
常量池中存放兩種數據:字面量、符號引用
- 字面量
- 字面量比較接近 Java 語言層面的常量的概念
- 文本字符串,聲明爲 final 的常量值等
- 符號引用
- 類和接口的全限定名
- 字段的名稱和描述符
- 方法的名稱和描述符
4、訪問標誌
這個標誌用於識別一些類或接口層次的訪問信息,包括:這個 class 是類還是接口,是否定義爲 public 類型,是否定義爲 abstract 類型,如果是類的話是否聲明爲 final 類型等。
5、類索引、父類索引與接口索引集合
類索引 “this_class” 和父索引 “super_class” 都是一個U2類型的數據,而接口索引集合是一組U2類型數據的集合,Class 文件通過這三個數據項來確定這個類的繼承關係。
和常量池一樣接口索引集合的大小也是不固定的,所以前邊放置了一個U2類型的數值來表示接口索引的大小。下邊的方法表、字段表、屬性表都是類似,下邊不會再贅述。
6、字段表集合
字段表用來描述接口或者類中聲明的變量
7、方法表集合
方法表用來描述接口或者類中聲明的方法
8、屬性表集合
在Class文件、字段表、方法表中都可以攜帶自己的屬性表集合,以用於描述某些場景專有的信息。
字節碼指令
Java 虛擬機的指令由一個字節長度的代表着某種特定操作含義的數字(稱爲操作碼),以及緊跟其後的多個代表此操作所需參數(稱爲操作數)而構成。
由於虛擬機採用面向操作數棧而不是寄存器的架構,所以大多數的指令都不包含操作數,只有一個操作碼。
字節碼和數據類型
- 加載和存儲指令
用於將數據在棧楨中的局部變量表和操作數棧之間來回傳輸。 - 運算指令
運算指令用於對兩個操作數棧上的值進行某中特定的運算,並把結果重新存入到操作數棧 - 類型轉換指令
可以將兩種不同類型數數值進行相互轉換。 - 對象創建和訪問指令
- 操作數棧管理指令
- 控制轉移指令
- 方法調用和返回指令
- 異常處理指令
- 同步指令
java 虛擬機可以支持方法的同步和方法內部一段指令序列的同步,這兩種同步結構都是使用管程(Monitor)來支持的
方法級的同步是隱式的,既無需通過字節碼指令來控制。它實現在方法調用和返回的操作之中。
同步一段指令集序列通常是由 java 語言中的 synchronize 語句塊來表示的,java 虛擬機指令級中有 monitorenter 和 monitorexist 兩條指令來支持 synchronize 語義的
具體的命令可以看我的另一篇文章: JVM指令手冊
實例
有如下類
public class APP {
private static int i = 1;
private int b = 1;
public static void main(String[] args) {
APP app = new APP();
app.add(1);
System.out.println(i);
}
private void add(int param) {
i += param;
}
}
通過 jclasslib 看它的class文件結構:
General info
通過javap -verbose App
查看詳細信息
警告: 二進制文件App包含org.learn.code.jvm.APP
Classfile ./target/classes/org/learn/code/jvm/App.class
Last modified 2020-5-23; size 773 bytes
MD5 checksum fa818076b88cec56e09844e32bfcdfd1
Compiled from "APP.java"
public class org.learn.code.jvm.APP
// 次版本
minor version: 0
// 大版本
major version: 49
//訪問標示
flags: ACC_PUBLIC, ACC_SUPER
//常量池
Constant pool:
#1 = Methodref #9.#31 // java/lang/Object."<init>":()V
#2 = Fieldref #3.#32 // org/learn/code/jvm/APP.b:I
#3 = Class #33 // org/learn/code/jvm/APP
#4 = Methodref #3.#31 // org/learn/code/jvm/APP."<init>":()V
#5 = Methodref #3.#34 // org/learn/code/jvm/APP.add:(I)V
#6 = Fieldref #35.#36 // java/lang/System.out:Ljava/io/PrintStream;
#7 = Fieldref #3.#37 // org/learn/code/jvm/APP.i:I
#8 = Methodref #38.#39 // java/io/PrintStream.println:(I)V
#9 = Class #40 // java/lang/Object
#10 = Utf8 i
#11 = Utf8 I
#12 = Utf8 b
#13 = Utf8 <init>
#14 = Utf8 ()V
#15 = Utf8 Code
#16 = Utf8 LineNumberTable
#17 = Utf8 LocalVariableTable
#18 = Utf8 this
#19 = Utf8 Lorg/learn/code/jvm/APP;
#20 = Utf8 main
#21 = Utf8 ([Ljava/lang/String;)V
#22 = Utf8 args
#23 = Utf8 [Ljava/lang/String;
#24 = Utf8 app
#25 = Utf8 add
#26 = Utf8 (I)V
#27 = Utf8 param
#28 = Utf8 <clinit>
#29 = Utf8 SourceFile
#30 = Utf8 APP.java
#31 = NameAndType #13:#14 // "<init>":()V
#32 = NameAndType #12:#11 // b:I
#33 = Utf8 org/learn/code/jvm/APP
#34 = NameAndType #25:#26 // add:(I)V
#35 = Class #41 // java/lang/System
#36 = NameAndType #42:#43 // out:Ljava/io/PrintStream;
#37 = NameAndType #10:#11 // i:I
#38 = Class #44 // java/io/PrintStream
#39 = NameAndType #45:#26 // println:(I)V
#40 = Utf8 java/lang/Object
#41 = Utf8 java/lang/System
#42 = Utf8 out
#43 = Utf8 Ljava/io/PrintStream;
#44 = Utf8 java/io/PrintStream
#45 = Utf8 println
//方法表
{
//構造方法
public org.learn.code.jvm.APP();
descriptor: ()V
flags: ACC_PUBLIC
Code:
//操作數棧 基部變量表 參數
stack=2, locals=1, args_size=1
0: aload_0
1: invokespecial #1 // Method java/lang/Object."<init>":()V
4: aload_0
5: iconst_1
6: putfield #2 // Field b:I
9: return
//源碼行號 :字節碼指令
LineNumberTable:
line 3: 0
line 7: 4
//局部變量表
LocalVariableTable:
Start Length Slot Name Signature
0 10 0 this Lorg/learn/code/jvm/APP;
//main方法
public static void main(java.lang.String[]);
descriptor: ([Ljava/lang/String;)V
flags: ACC_PUBLIC, ACC_STATIC
Code:
stack=2, locals=2, args_size=1
0: new #3 // class org/learn/code/jvm/APP
3: dup
4: invokespecial #4 // Method "<init>":()V
7: astore_1
8: aload_1
9: iconst_1
10: invokespecial #5 // Method add:(I)V
13: getstatic #6 // Field java/lang/System.out:Ljava/io/PrintStream;
16: getstatic #7 // Field i:I
19: invokevirtual #8 // Method java/io/PrintStream.println:(I)V
22: return
LineNumberTable:
line 10: 0
line 11: 8
line 12: 13
line 13: 22
LocalVariableTable:
Start Length Slot Name Signature
0 23 0 args [Ljava/lang/String;
8 15 1 app Lorg/learn/code/jvm/APP;
//靜態快
static {};
descriptor: ()V
flags: ACC_STATIC
Code:
stack=1, locals=0, args_size=0
0: iconst_1
1: putstatic #7 // Field i:I
4: return
LineNumberTable:
line 5: 0
}
//屬性信息
SourceFile: "APP.java"
執行引擎
執行引擎分爲兩種:基於棧的解釋執行和基於寄存器的
java 編譯器輸出的指令流,基本上是一種基於棧的指令集架構,指令流中的指令帶部分都是零地址指令,他們依賴操作數棧進行工作。
基於寄存器的指令集,指令中帶有地址
基於棧的指令集的優點是:可以移植,寄存器由硬件直接提供,程序直接依賴這些硬件寄存器則不可避免的要收到硬件的約束,
基於棧的指令集的缺點: 相對來說慢
運行時數據區
內存結構
概覽見上邊的整體圖示
由於1.6、1.7、1.8 各個版本直間有差異所以再給大家畫的具體一點
1.6時
1.7時
1.8時
堆
線程共享,幾乎
所有對象都在這裏分配內存,是垃圾收集的主要區域(“GC 堆”)
最小 1/64 最大 1/4
堆的劃分
從內存分配的角度來看
可能會劃分出多個線程私有的分配緩衝區TLAB
從內存回收的角度來看
現代的垃圾收集器基本都是採用分代收集算法,其主要的思想是將堆邏輯上分成兩塊:新生代、老年代,針對不同類型的對象採取不同的垃圾回收算法。
新生代
分爲 Surviver和 Eden
Eden與Surviver區域默認比例8:1:1 需要指定比例
不然不會走默認。
Surviver:分爲平等對稱的2塊,From Survivor 空間(s0)、To Survivor 空間(s1)
爲什麼新生代又拆分出兩塊?且大小不同
在新生代中,每次垃圾收集時都發現有大批對象死去,只有少量存活,
所以使用複製算法進行垃圾回收,如果採用一半一半的配置,那將會有一半的空間浪費,具hotSpot官方調查,新生代大約會有85%的對象時每次都會回收的,所以制定了8:1:1 既可以防止碎片還能節約空間。
老年代
老年代中存活的對象主要有三種:長期存活的對象和大對象(enden區分配不了的)另外還有空間分配擔保產生的對象
因爲對象存活率高、沒有額外空間對它進行分配擔保 所以內存設置會比新生代大。
控制參數
可以通過 -Xms 和 -Xmx 兩個虛擬機參數來指定一個程序的堆內存大小,
第一個參數設置初始值,第二個參數設置最大值。-Xmn:新生代大小
異常情況
會發生OOM
方法區
用於存放已被加載的類信息,靜態變量、即時編譯器編譯後的代碼等數據。
1.7及之前:是JVM內存中的一部分數據區 成爲老年代
1.8之後:從虛擬機內存中移除,在堆外開闢空間,受機物理體內存大小的限制 稱爲元空間
方法區、老年代、元空間的區別?
方法區是JVM中定義的規範,該規範只定義了這個區中一般放什麼,並沒有規定這塊內存要放在什麼位置,回收策略是什麼。
老年代和元空間只是他們的一種具體的實現。
爲什麼從老年代替換成元空間?
個人感覺有很多種原因
- sun和hotspot合併 sun原來是元空間所以合併之後hotspot 改成了元空間
- 早期受機器內存大小的限制,後來可使用的內存大小變大了
早期都是32位機,能使用的最大內存是232=4G,如果老年代不放在堆中受控制,那麼加載的時候可能會無限的使用這塊有限的內存,最終會影響其他的應用程序。
現在大多數都是64位機,除了16字節的保留位,能使用的最大內存是248 這都是好幾T的數據了,一般類加載是大到不了的所以不用太關心這塊內存的使用 - 還有一個可能是業務的發展,需要加載的class文件越來越多
控制參數
1.7及之前 配置老年代
-XX:PermSize 設置最小空間 -XX:MaxPermSize 設置最大空間。
1.8及之後 配置元空間
變爲元空間後如果不設置大小理論上只受物理機內存大小限制
最小是 20.75 M
-XX:MetaspaceSize=N和 -XX:MaxMetaspaceSize=N 來指定最大最小值
和堆區一樣,爲了防止動盪一般建議在JVM參數中將MetaspaceSize和MaxMetaspaceSize設置成一樣的值。
異常情況
動態擴展失敗一樣會拋出 OutOfMemoryError 異常。
運行時常量池
- 1.6時:運行時常量池存在堆中
- 1.7時:運行時常量池放在方法區中
- 1.8時:運行時常量池放在堆中 方法區從JVM內存中移除,在堆外開闢了空間(元空間)存放方法區中的數據
- 除了在編譯期生成的常量,還允許動態生成,例如 String 類的 intern()。
- Class 文件中的常量池(編譯器生成的各種字面量和符號引用)會在類加載後被放入這個區域。
虛擬機棧
虛擬機棧,每個線程所獨有,存放的是局部變量和對象的引用。
棧裏面存放的是棧幀 方法的執行和調用就是一個棧針出棧入棧的過程。
對象也可以在棧上分配,看我的這篇文章怎麼計算對象的大小
棧幀
棧幀按虛擬機規範分爲:操作數棧、局部變量表、動態鏈接、返回地址、其他信息。
在hotspot中 沒有其他信息,上面的圖中用虛線標示
操作數棧
JVM是基於棧的解釋執行,每條指令沒有地址,是通過操作數和局部變量表來進行操作。
局部變量表
包括入參 和局部變量
動態鏈接
代表的是方法的直接地址,方法調用是需要拿到直接地址進行調用
返回地址
返回地址的作用,用來恢復 操作數棧的指針和局部變量表的指針,並且如果有返回值,也會把返回值入另一方法的局部變量表
寄存器的值應該也會恢復(存疑)。
控制參數
默認大小爲1M 最小爲160K 可以通過 -Xss 來控制
異常情況
會發生OOM 分兩種情況
- 棧深度不夠,一般是遞歸調用
- 沒有內存給新創建的棧
本地方法棧
本地方法棧和虛擬機棧類似,也會有OOM只不過是在運行Native方法時使用的。
程序計數器/PC寄存器
如果執行的方法不是本地方法,則計數器包含當前正在執行的Java虛擬機指令的地址。 如果線程當前正在執行的方法是本地方法,則Java虛擬機的pc寄存器的值未定義。
Java虛擬機的pc寄存器足夠寬,可以在特定平臺上保存returnAddress或本機指針。
字節碼解釋器工作時,就是通過改變這個計數器的值來選取下一條需要執行的字節碼指令
是唯一一個不會產生OOM的區域