Java 中的 String 有沒有長度限制?

這是我的第 199 期分享

作者 | Hollis

來源 | Hollis(ID:hollischuang) 

分享 | Java中文社羣(ID:javacn666)

關於String有沒有長度限制的問題,我之前單獨寫過一篇文章分析過,最近我又抽空回顧了一下這個問題,發現又有了一些新的認識。於是準備重新整理下這個內容。

這次在之前那篇文章的基礎上除了增加了一些驗證過程外,還有些錯誤內容的修正。我這次在分析過程中會嘗試對Jdk的編譯過程進行debug,並且會參考一些JVM規範等全方面的介紹下這個知識點。

String的長度限制

想要搞清楚這個問題,首先我們需要翻閱一下String的源碼,看下其中是否有關於長度的限制或者定義。

String類中有很多重載的構造函數,其中有幾個是支持用戶傳入length來執行長度的:

public String(byte bytes[], int offset, int length) 

可以看到,這裏面的參數length是使用int類型定義的,那麼也就是說,String定義的時候,最大支持的長度就是int的最大範圍值。

根據Integer類的定義,java.lang.Integer#MAX_VALUE的最大值是2^31 - 1;

那麼,我們是不是就可以認爲String能支持的最大長度就是這個值了呢?

其實並不是,這個值只是在運行期,我們構造String的時候可以支持的一個最大長度,而實際上,在運行期,定義字符串的時候也是有長度限制的。

如以下代碼:

String s = "11111...1111";//其中有10萬個字符"1"

當我們使用如上形式定義一個字符串的時候,當我們執行javac編譯時,是會拋出異常的,提示如下:

錯誤: 常量字符串過長

那麼,明明String的構造函數指定的長度是可以支持2147483647(2^31 - 1)的,爲什麼像以上形式定義的時候無法編譯呢?

其實,形如String s = "xxx";定義String的時候,xxx被我們稱之爲字面量,這種字面量在編譯之後會以常量的形式進入到Class常量池。

那麼問題就來了,因爲要進入常量池,就要遵守常量池的有關規定。

常量池限制

我們知道,javac是將Java文件編譯成class文件的一個命令,那麼在Class文件生成過程中,就需要遵守一定的格式。

根據《Java虛擬機規範》中第4.4章節常量池的定義,CONSTANT_String_info 用於表示 java.lang.String 類型的常量對象,格式如下:

CONSTANT_String_info {

    u1 tag;

    u2 string_index;

}

其中,string_index 項的值必須是對常量池的有效索引, 常量池在該索引處的項必須是 CONSTANT_Utf8_info 結構,表示一組 Unicode 碼點序列,這組 Unicode 碼點序列最終會被初始化爲一個 String 對象。

CONSTANT_Utf8_info 結構用於表示字符串常量的值:

CONSTANT_Utf8_info {

    u1 tag;

    u2 length;

    u1 bytes[length];

}

其中,length則指明瞭 bytes[]數組的長度,其類型爲u2,

通過翻閱《規範》,我們可以獲悉。u2表示兩個字節的無符號數,那麼1個字節有8位,2個字節就有16位。

16位無符號數可表示的最大值位2^16 - 1 = 65535。

也就是說,Class文件中常量池的格式規定了,其字符串常量的長度不能超過65535。

那麼,我們嘗試使用以下方式定義字符串:

 String s = "11111...1111";//其中有65535萬個字符"1"

嘗試使用javac編譯,同樣會得到"錯誤: 常量字符串過長",那麼原因是什麼呢?

其實,這個原因在javac的代碼中是可以找到的,在Gen類中有如下代碼:

private void checkStringConstant(DiagnosticPosition var1, Object var2) {

    if (this.nerrs == 0 && var2 != null && var2 instanceof String         && ((String)var2).length() >= 65535) {

        this.log.error(var1, "limit.string", new Object[0]);

        ++this.nerrs;

    }

}

代碼中可以看出,當參數類型爲String,並且長度大於等於65535的時候,就會導致編譯失敗。

這個地方大家可以嘗試着debug一下javac的編譯過程(視頻中有對java的編譯過程進行debug的方法),也可以發現這個地方會報錯。

如果我們嘗試以65534個字符定義字符串,則會發現可以正常編譯。

其實,關於這個值,在《Java虛擬機規範》也有過說明:

if the Java Virtual Machine code for a method is exactly 65535 bytes long and ends with an instruction that is 1 byte long, then that instruction cannot be protected by an exception handler. A compiler writer can work around this bug by limiting the maximum size of the generated Java Virtual Machine code for any method, instance initialization method, or static initializer (the size of any code array) to 65534 bytes

運行期限制

上面提到的這種String長度的限制是編譯期的限制,也就是使用String s= “”;這種字面值方式定義的時候纔會有的限制。

那麼,String在運行期有沒有限制呢,答案是有的,就是我們前文提到的那個Integer.MAX_VALUE ,這個值約等於4G,在運行期,如果String的長度超過這個範圍,就可能會拋出異常。(在jdk 1.9之前)

int 是一個 32 位變量類型,取正數部分來算的話,他們最長可以有

2^31-1 =2147483647 個 16-bit Unicodecharacter



2147483647 * 16 = 34359738352 位

34359738352 / 8 = 4294967294 (Byte)

4294967294 / 1024 = 4194303.998046875 (KB)

4194303.998046875 / 1024 = 4095.9999980926513671875 (MB)

4095.9999980926513671875 / 1024 = 3.99999999813735485076904296875 (GB)

有近 4G 的容量。

很多人會有疑惑,編譯的時候最大長度都要求小於65535了,運行期怎麼會出現大於65535的情況呢。這其實很常見,如以下代碼:

String s = "";

for (int i = 0; i <100000 ; i++) {

    s+="i";

}

得到的字符串長度就有10萬,另外我之前在實際應用中遇到過這個問題。

之前一次系統對接,需要傳輸高清圖片,約定的傳輸方式是對方將圖片轉成BASE6編碼,我們接收到之後再轉成圖片。

在將BASE64編碼後的內容賦值給字符串的時候就拋了異常。

總結

字符串有長度限制,在編譯期,要求字符串常量池中的常量不能超過65535,並且在javac執行過程中控制了最大值爲65534。

在運行期,長度不能超過Int的範圍,否則會拋異常。

最後,這個知識點 ,我錄製了視頻,其中有關於如何進行實驗測試、如何查閱Java規範以及如何對javac進行deubg的技巧。歡迎進一步學習。

視頻:https://www.bilibili.com/video/BV1uK4y1t7H1/



往期推薦String性能提升10倍的幾個方法!(源碼+原理分析)別再問我 new 字符串創建了幾個對象了!我來證明給你看!關注公衆號發送”進羣“,磊哥拉你進讀者羣。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章