JDK 9 對字符串 String 的優化,挺有意思!


String類可以說是Java編程中使用最多的類了,如果能對String字符串的性能進行優化,那麼程序的性能必然能大幅提升。

這不JDK9就對String字符串進行了改進升級,在某些場景下可以讓String字符串內存減少一半,進而減少JVM的GC次數。

String的底層存儲

在面試的時候我們通常會說String字符串有不可變的特性,每次都要創建新的字符串。那麼,爲什麼String字符串是不可變的呢?

先來看一下String字符串的底層存儲結構:

public final class String
    implements java.io.Serializable, Comparable<String>, CharSequence {
    
    private final char value[];

    public String() {
        this.value = "".value;
    }

    public String(String original) {
        this.value = original.value;
        this.hash = original.hash;
    }
    // ...
}    

看到什麼了?當我們new一個String對象時,對應的字符串其實是以char數組的形式存儲在String對象內部。而這個char數組是final的,也就是說不可變的。

這也就是爲什麼我們說String字符串擁有不可變的特性,當字符串改變了,char數組不可變,就只能創建一個新的對象,新的char數組了。

底層存儲的優化

上面說的情況是JDK8及以前版本,到了JDK9,String中字符串的存儲不再用char數組了,改用byte數組。

public final class String
    implements java.io.Serializable, Comparable<String>, CharSequence {

    @Stable
    private final byte[] value;

    private final byte coder;
    
    @Native static final byte LATIN1 = 0;
    @Native static final byte UTF16  = 1;
    
    static final boolean COMPACT_STRINGS;
  
    public String() {
        this.value = "".value;
        this.coder = "".coder;
    }

    @HotSpotIntrinsicCandidate
    public String(String original) {
        this.value = original.value;
        this.coder = original.coder;
        this.hash = original.hash;
    }
    
    // ...
}

不僅將char數組改爲byte數組,而且新增了一個coder的成員變量。

在程序中,絕大多數字符串只包含英文字母數字等字符,使用Latin-1編碼,一個字符佔用一個byte。如果使用char,一個char要佔用兩個byte,會佔用雙倍的內存空間。

但是,如果字符串中使用了中文等超出Latin-1表示範圍的字符,使用Latin-1就沒辦法表示了。這時JDK會使用UTF-16編碼,那麼佔用的空間和舊版(使用char[])是一樣的。

coder變量代表編碼的格式,目前String支持兩種編碼格式Latin-1和UTF-16。Latin-1需要用一個字節來存儲,而UTF-16需要使用2個字節或者4個字節來存儲。

據說這一改進方案是JDK的開發人員用大數據和人工能智能,調研了成千上萬的應用程序的heapdump信息後,得出:大部分的String都是以Latin-1字符編碼來表示的,只需要一個字節存儲就夠了,兩個字節完全是浪費。

COMPACT_STRINGS屬性則是用來控制是否開啓String的compact功能。默認情況下是開啓的。可以使用-XX:-CompactStrings參數來對此功能進行關閉。

改進的好處

改進的好處是非常明顯的,首先如果項目中使用Latin-1字符集居多,內存的佔用大幅度減少,同樣的硬件配置可以支撐更多的業務。

當內存減少之後,進一步導致減少GC次數,進而減少Stop-The-World的頻次,同樣會提升系統的性能。

總結

隨着JDK的迭代String字符串的內存結構及方法等也在不斷的發展演變,一方面是精於求精的態度,另一個更重要的原因是String在代碼中很常見,並且它往往是JVM中佔用內存最多的一類數據,因此對它(String)的優化收益非常大。


本文分享自微信公衆號 - Java中文社羣(javacn666)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章