Java字節碼文件虛擬指令集簡介

Java 虛擬機的指令由一個字節長度的、代表着某種特定操作含義的操作碼(Opcode)以及跟隨其後的零至多個代表此操作所需參數的操作數(Operands)所構成。虛擬機中許多指令並不包含操作數,只有一個操作碼。

如果忽略異常處理,那 Java 虛擬機的解釋器使用下面這個僞代碼的循環即可有效地工作:

do{
 自動計算PC寄存器以及從PC寄存器的位置取出操作碼;
 if(存在操作數)取出操作數;
 執行操作碼所定義的操作
}while(處理下一次循環);
  • 1
  • 2
  • 3
  • 4
  • 5
  • 1
  • 2
  • 3
  • 4
  • 5

操作數的數量以及長度取決於操作碼,如果一個操作數的長度超過了一個字節,那它將會以 Big-Endian 順序存儲——即高位在前的字節序。舉個例子,如果要將一個 16 位長度的無符號整數使用兩個無符號字節存儲起來(將它們命名爲 byte1 和 byte2),那它們的值應該是這樣的:

(byte1<<8)|byte2 
  • 1
  • 1

字節碼指令流應當都是單字節對齊的,只有“tableswitch”和“lookupswitch”兩條指令例外,由於它們的操作數比較特殊,都是以 4 字節爲界劃分開的,所以這兩條指令那個也需要預留出相應的空位來實現對齊。

限制 Java 虛擬機操作碼的長度爲一個字節,並且放棄了編譯後代碼的參數長度對齊,是爲了儘可能地獲得短小精幹的編譯代碼,即使這可能會讓 Java 虛擬機的具體實現付出一定的性能成本爲代價。由於每個操作碼只能有一個字節長度,所以直接限制了整個指令集的數量 (字節碼無法超過 256 條的限制就來源於此) ,又由於沒有假設數據是對齊好的,這就意味着虛擬機處理那些超過一個字節的數據的時候,不得不在運行時從字節中重建出具體數據的結構,這在某種程度上會損失一些性能。

數據類型與Java虛擬機

在 Java 虛擬機的指令集中,大多數的指令都包含了其操作所對應的數據類型信息。舉個例子,iload 指令用於從局部變量表中加載 int 型的數據到操作數棧中,而 fload 指令加載的則是 float 類型的數據。這兩條指令的操作可能會是由同一段代碼來實現的,但它們必須擁有各自獨立的操作符。

對於大部分爲與數據類型相關的字節碼指令,他們的操作碼助記符中都有特殊的字符來表明專門爲哪種數據類型服務:i 代表對 int 類型的數據操作,l 代表 long,s 代表 short,b 代表 byte,c 代表 char,f 代表 float,d 代表 double,a 代表 reference。也有一些指令的助記符中沒有明確的指明操作類型的字母,例如 arraylength 指令,它沒有代表數據類型的特殊字符,但操作數永遠只能是一個數組類型的對象。還有另外一些指令,例如無條件跳轉指令 goto 則是與數據類型無關的。

由於 Java 虛擬機的操作碼長度只有一個字節,所以包含了數據類型的操作碼對指令集的設計帶來了很大的壓力:如果每一種與數據類型相關的指令都支持 Java 虛擬機所有運行時數據類型的話,那恐怕就會超出一個字節所能表示的數量範圍了。因此,Java 虛擬機的指令集對於特定的操作只提供了有限的類型相關指令去支持它,換句話說,指令集將會故意被設計成非完全獨立的(Not Orthogonal,即並非每種數據類型和每一種操作都有對應的指令)。有一些單獨的指令可以在必要的時候用來將一些不支持的類型轉換爲可被支持的類型。

下表列舉了 Java 虛擬機所支持的字節碼指令集,通過使用數據類型列所代表的特殊字符替換 opcode 列的指令模板中的 T,就可以得到一個具體的字節碼指令。如果在表中指令模板與數據類型兩列共同確定的格爲空,則說明虛擬機不支持對這種數據類型執行這項操作。例如 load 指令有操作 int 類型的 iload,但是沒有操作 byte 類型的同類指令。

請注意,從下表中看來,大部分的指令都沒有支持整數類型 byte、char 和 short,甚至沒有任何指令支持 boolean 類型。編譯器會在編譯期或運行期會將 byte 和 short 類型的數據帶符號擴展(Sign-Extend)爲相應的 int 類型數據,將 boolean 和 char 類型數據零位擴展(Zero-Extend)爲相應的 int 類型數據。與之類似的,在處理 boolean、byte、short 和 char 類型的數組時,也會轉換爲使用對應的 int 類型的字節碼指令來處理。因此,大多數對於 boolean、byte、short 和 char 類型數據的操作,實際上都是使用相應的對 int 類型作爲運算類型(Computational Type)。

Java 虛擬機指令集所支持的數據類型:

這裏寫圖片描述

在 Java 虛擬機中,實際類型與運算類型之間的映射關係,如下表所示:

這裏寫圖片描述

有部分對操作棧進行操作的 Java 虛擬機指令(例如 pop 和 swap 指令)是與具體類型無關的,不過這些指令也必須受到運算類型分類的限制,這些分類也在表中列出了。

加載和存儲指令

加載和存儲指令用於將數據從棧幀的局部變量表和操作數棧之間來回傳輸:

1、將一個局部變量加載到操作棧的指令包括有:iload、iload_<n>、lload、lload_<n>、fload、fload_<n>、dload、dload_<n>、aload、aload_<n>
2、將一個數值從操作數棧存儲到局部變量表的指令包括有:istore、istore_<n>、lstore、lstore_<n>、fstore、fstore_<n>、dstore、dstore_<n>、astore、astore_<n>
3、將一個常量加載到操作數棧的指令包括有:bipush、sipush、ldc、ldc_w、ldc2_w、aconst_null、iconst_m1、iconst_<i>、lconst_<l>、fconst_<f>、dconst_<d>
4、擴充局部變量表的訪問索引的指令:wide
  • 1
  • 2
  • 3
  • 4
  • 1
  • 2
  • 3
  • 4

訪問對象的字段或數組元素的指令也同樣會與操作數棧傳輸數據。

上面所列舉的指令助記符中,有一部分是以尖括號結尾的(例如 iload_<n>),這些指令助記符實際上是代表了一組指令(例如 iload_<n>,它代表了 iload_0、iload_1、iload_2 和 iload_3 這幾條指令)。這幾組指令都是某個帶有一個操作數的通用指令(例如 iload)的特殊形式,對於這若干組特殊指令來說,它們表面上沒有操作數,不需要進行取操作數的動作,但操作數都是在指令中隱含的。除此之外,他們的語義與原生的通用指令完全一致(例如 iload_0 的語義與操作數爲 0 時的 iload 指令語義完全一致)。在尖括號之間的字母制定了指令隱含操作數的數據類型,<i>代表是 int 形數據,<l>代表 long 型,<f>代表 float 型,<d>代表 double型。在操作 byte、char 和 short 類型數據時,也用 int 類型表示。

這種指令表示方法,在整個《Java 虛擬機規範》之中都是通用的。

運算指令

算術指令用於對兩個操作數棧上的值進行某種特定運算,並把結果重新存入到操作棧頂。大體上運算指令可以分爲兩種:對整型數據進行運算的指令與對浮點型數據進行運算的指令,無論是那種算術指令,都是使用 Java 虛擬機的數字類型的。數據沒有直接支持 byte、short、char 和 boolean 類型(§2.11.1)的算術指令,對於這些數據的運算,都是使用操作 int 類型的指令。

整數與浮點數的算術指令在溢出和被零除的時候也有各自不同的行爲,所有的算術指令包括:


    加法指令:iadd、ladd、fadd、dadd
    減法指令:isub、lsub、fsub、dsub
    乘法指令:imul、lmul、fmul、dmul
    除法指令:idiv、ldiv、fdiv、ddiv
    求餘指令:irem、lrem、frem、drem
    取反指令:ineg、lneg、fneg、dneg
    位移指令:ishl、ishr、iushr、lshl、lshr、lushr
    按位或指令:ior、lor
    按位與指令:iand、land
    按位異或指令:ixor、lxor
    局部變量自增指令:iinc
    比較指令:dcmpg、dcmpl、fcmpg、fcmpl、lcmp
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13

Java 虛擬機的指令集直接支持了在《Java 語言規範》中描述的各種對整數及浮點數操作的語義。

Java 虛擬機沒有明確規定整型數據溢出的情況,但是規定了在處理整型數據時,只有除法指令(idiv 和 ldiv)以及求餘指令(irem 和 lrem)出現除數爲零時會導致虛擬機拋出異常,如果發生了這種情況,虛擬機將會拋出 ArithmeitcException 異常。

Java 虛擬機在處理浮點數時,必須遵循 IEEE 754 規範中所規定行爲限制。也就是說 Java虛擬機要求完全支持 IEEE 754 中定義的非正規浮點數值(Denormalized Floating-Point Numbers,§2.3.2)和逐級下溢(Gradual Underflow)。這些特徵將會使得某些數值算法處理起來變得更容易一些。

Java 虛擬機要求在進行浮點數運算時,所有的運算結果都必須舍入到適當的進度,非精確的結果必須舍入爲可被表示的最接近的精確值,如果有兩種可表示的形式與該值一樣接近,那將優先選擇最低有效位爲零的。這種舍入模式也是 IEEE 754 規範中的默認舍入模式,稱爲向最接近數舍入模式。

在把浮點數轉換爲整數時,Java 虛擬機使用 IEEE 754 標準中的向零舍入模式,這種模式的舍入結果會導致數字被截斷,所有小數部分的有效字節都會被丟棄掉。向零舍入模式將在目標數值類型中選擇一個最接近,但是不大於原值的數字來作爲最精確的舍入結果。

Java 虛擬機在處理浮點數運算時,不會拋出任何運行時異常(這裏所講的是 Java 的異常,請勿與 IEEE 754 規範中的浮點異常互相混淆),當一個操作產生溢出時,將會使用有符號的無窮大來表示,如果某個操作結果沒有明確的數學定義的話,將會時候 NaN 值來表示。所有使用 NaN 值作爲操作數的算術操作,結果都會返回 NaN。

在對 long 類型數值進行比較時,虛擬機採用帶符號的比較方式,而對浮點數值進行比較時(dcmpg、dcmpl、fcmpg、fcmpl),虛擬機採用 IEEE 754 規範說定義的無信號比較(Nonsignaling Comparisons)方式。

類型轉換指令

類型轉換指令可以將兩種 Java 虛擬機數值類型進行相互轉換,這些轉換操作一般用於實現用戶代碼的顯式類型轉換操作,或者用來處理 Java 虛擬機字節碼指令集中指令非完全獨立獨立的問題。

Java 虛擬機直接支持(注:“直接支持”意味着轉換時無需顯式的轉換指令)以下數值的寬化類型轉換(Widening Numeric Conversions,小範圍類型向大範圍類型的安全轉換):


    int 類型到 longfloat 或者 double 類型
    long 類型到 floatdouble 類型
    float 類型到 double 類型
  • 1
  • 2
  • 3
  • 4
  • 1
  • 2
  • 3
  • 4

窄化類型轉換(Narrowing Numeric Conversions)指令包括有:i2b、i2c、i2s、l2i、f2i、f2l、d2i、d2l 和 d2f。窄化類型轉換可能會導致轉換結果產生不同的正負號、不同的數量級,轉換過程很可能會導致數值丟失精度。

在將 int 或 long 類型窄化轉換爲整數類型 T 的時候,轉換過程僅僅是簡單的丟棄除最低位N 個字節以外的內容,N 是類型 T 的數據類型長度,這將可能導致轉換結果與輸入值有不同的正負號(注:在高位字節符號位被丟棄了)。

在將一個浮點值轉窄化轉換爲整數類型 T(T 限於 int 或 long 類型之一)的時候,將遵循以下轉換規則:

如果浮點值是 NaN,那轉換結果就是 int 或 long 類型的 0 
否則,如果浮點值不是無窮大的話,浮點值使用 IEEE 754 的向零舍入模式(§2.8.1) 
取整,獲得整數值 v,這時候可能有兩種情況:

    如果 T 是 long 類型,並且轉換結果在 long 類型的表示範圍之內,那就轉換爲 long
    類型數值 v
    如果 T 是 int 類型,並且轉換結果在 int 類型的表示範圍之內,那就轉換爲 int
    類型數值 v
否則:
    如果轉換結果 v 的值太小(包括足夠小的負數以及負無窮大的情況),無法使用 T 類
    型表示的話,那轉換結果取 int 或 long 類型所能表示的最小數字。
    如果轉換結果 v 的值太大(包括足夠大的正數以及正無窮大的情況),無法使用 T 類
    型表示的話,那轉換結果取 int 或 long 類型所能表示的最大數字。

從 double 類型到 float 類型做窄化轉換的過程與 IEEE 754 中定義的一致,通過 IEEE 754向最接近數舍入模式(§2.8.1)舍入得到一個可以使用 float 類型表示的數字。如果轉換結果的絕對值太小無法使用 float 來表示的話,將返回 float 類型的正負零。如果轉換結果的絕對值太大無法使用 float 來表示的話,將返回 float 類型的正負無窮大,對於 double 類型的 NaN值將就規定轉換爲 float 類型的 NaN 值。

儘管可能發生上限溢出、下限溢出和精度丟失等情況,但是 Java 虛擬機中數值類型的窄化轉換永遠不可能導致虛擬機拋出運行時異常(此處的異常是指《Java 虛擬機規範》中定義的異常,請讀者不要與 IEEE 754 中定義的浮點異常信號產生混淆)。

對象創建與操作

雖然類實例和數組都是對象,但 Java 虛擬機對類實例和數組的創建與操作使用了不同的字節碼指令:

1、創建類實例的指令:new

2、創建數組的指令:newarray,anewarray,multianewarray

3、訪問類字段(static 字段,或者稱爲類變量)和實例字段(非 static 字段,或者成爲實例變量)的指令:getfield、putfield、getstatic、putstatic

4、把一個數組元素加載到操作數棧的指令:baload、caload、saload、iaload、laload、faload、daload、aaload

5、將一個操作數棧的值儲存到數組元素中的指令:bastore、castore、sastore、iastore、fastore、dastore、aastore

6、取數組長度的指令:arraylength

7、檢查類實例類型的指令:instanceof、checkcas

操作數棧管理指令

Java 虛擬機提供了一些用於直接操作操作數棧的指令,包括:pop、pop2、dup、dup2、dup_x1、dup2_x1、dup_x2、dup2_x2 和 swap。

控制轉移指令

控制轉移指令可以讓 Java 虛擬機有條件或無條件地從指定指令而不是控制轉移指令的下一條指令繼續執行程序。控制轉移指令包括有:

1、條件分支:ifeq、iflt、ifle、ifne、ifgt、ifge、ifnull、ifnonnull、if_icmpeq、if_icmpne、if_icmplt, if_icmpgt、if_icmple、if_icmpge、if_acmpeq 和 if_acmpne。

2、複合條件分支:tableswitch、lookupswitch

3、無條件分支:goto、goto_w、jsr、jsr_w、ret

在 Java 虛擬機中有專門的指令集用來處理 int 和 reference 類型的條件分支比較操作,爲了可以無需明顯標識一個實體值是否 null,也有專門的指令用來檢測 null 值。

boolean 類型、byte 類型、char 類型和 short 類型的條件分支比較操作,都使用 int 類型的比較指令來完成,而對於 long 類型、float 類型和 double 類型的條件分支比較操作,則會先執行相應類型的比較運算指令,運算指令會返回一個整形值到操作數棧中,隨後再執行 int 類型的條件分支比較操作來完成整個分支跳轉。由於各種類型的比較最終都會轉化爲 int 類型的比較操作,基於 int 類型比較的這種重要性,Java 虛擬機提供了非常豐富的 int類型的條件分支指令。

所有 int 類型的條件分支轉移指令進行的都是有符號的比較操作。

方法調用和返回指令

以下四條指令用於方法調用:

1、invokevirtual 指令用於調用對象的實例方法,根據對象的實際類型進行分派(虛方法分派),這也是 Java 語言中最常見的方法分派方式。

2、invokeinterface 指令用於調用接口方法,它會在運行時搜索一個實現了這個接口方法的對象,找出適合的方法進行調用。

3、invokespecial 指令用於調用一些需要特殊處理的實例方法,包括實例初始化方法、私有方法和父類方法。

4、invokestatic 指令用於調用類方法(static 方法)。

而方法返回指令則是根據返回值的類型區分的,包括有 ireturn(當返回值是 boolean、byte、char、short 和 int 類型時使用)、lreturn、freturn、dreturn 和 areturn,另外還有一條 return 指令供聲明爲 void 的方法、實例初始化方法、類和接口的類初始化方法使用。

拋出異常

在程序中顯式拋出異常的操作會由 athrow 指令實現,除了這種情況,還有別的異常會在其它 Java 虛擬機指令檢測到異常狀況時由虛擬機自動拋出。

同步

Java 虛擬機可以支持方法級的同步和方法內部一段指令序列的同步,這兩種同步結構都是使用管程(Monitor)來支持的。

方法級的同步是隱式,即無需通過字節碼指令來控制的,它實現在方法調用和返回操作之中。虛擬機可以從方法常量池中的方法表結構(method_info Structure)中的 ACC_SYNCHRONIZED 訪問標誌區分一個方法是否同步方法。當方法調用時,調用指令將會檢查方法的 ACC_SYNCHRONIZED 訪問標誌是否被設置,如果設置了,執行線程將先持有管程,然後再執行方法,最後再方法完成(無論是正常完成還是非正常完成)時釋放管程。在方法執行期間,執行線程持有了管程,其他任何線程都無法再獲得同一個管程。如果一個同步方法執行期間拋出了異常,並且在方法內部無法處理此異常,那這個同步方法所持有的管程將在異常拋到同步方法之外時自動釋放。

同步一段指令集序列通常是由 Java 語言中的 synchronized 塊來表示的,Java 虛擬機的指令集中有 monitorenter 和 monitorexit 兩條指令來支持 synchronized 關鍵字的語義,正確實現 synchronized 關鍵字需要編譯器與 Java 虛擬機兩者協作支持。

結構化鎖定(Structured Locking)是指在方法調用期間每一個管程退出都與前面的管程進入相匹配的情形。因爲無法保證所有提交給 Java 虛擬機執行的代碼都滿足結構化鎖定,所以 Java 虛擬機允許(但不強制要求)通過以下兩條規則來保證結構化鎖定成立。假設 T 代表一條線程,M 代表一個管程的話:

1、T 在方法執行時持有管程 M 的次數必須與 T 在方法完成(包括正常和非正常完成)時釋放管程 M 的次數相等。

2、找方法調用過程中,任何時刻都不會出現線程 T 釋放管程 M 的次數比 T 持有管程 M 次數多的情況。

請注意,在同步方法調用時自動持有和釋放管程的過程也被認爲是在方法調用期間發生。

發佈了149 篇原創文章 · 獲贊 315 · 訪問量 79萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章