String還有長度限制?是多少?

前言

話說Java中String是有長度限制的,聽到這裏很多人不禁要問,String還有長度限制?是的有,而且在JVM編譯中還有規範,而且有的家人們在面試的時候也遇到了。

本人就遇到過面試的時候問這個的,而且在之前開發的中也真實地遇到過這個String長度限制的場景(將某固定文件轉碼成Base64的形式用字符串存儲,在運行時需要的時候在轉回來,當時文件比較大),那這個規範限制到底是怎麼樣的,咱們話不多說先瞜瞜去。關於Java項目還整理了100+Java項目視頻+源碼+筆記,地址:100+Java項目視頻+源碼+筆記

String

首先要知道String的長度限制我們就需要知道String是怎麼存儲字符串的,String其實是使用的一個char類型的數組來存儲字符串中的字符的。

那麼String既然是數組存儲那數組會有長度的限制嗎?是的有限制,但是是在有先提條件下的,我們看看String中返回length的方法。

由此我們看到返回值類型是int類型,Java中定義數組是可以給數組指定長度的,當然不指定的話默認會根據數組元素來指定:

int[] arr1 = new int[10]; // 定義一個長度爲10的數組
int[] arr2 = {1,2,3,4,5}; // 那麼此時數組的長度爲5

整數在java中是有限制的,我們通過源碼來看看int類型對應的包裝類Integer可以看到,其長度最大限制爲2^31 -1,那麼說明了數組的長度是0~2^31-1,那麼計算一下就是(2^31-1 = 2147483647 = 4GB)

看到這我們嘗試通過編碼來驗證一下上述觀點。

以上是我通過定義字面量的形式構造的10萬個字符的字符串,編譯之後虛擬機提示報錯,說我們的字符串長度過長,不是說好了可以存21億個嗎?爲什麼才10萬個就報錯了呢?

其實這裏涉及到了JVM編譯規範的限制了,其實JVM在編譯時,如果我們將字符串定義成了字面量的形式,編譯時JVM是會將其存放在常量池中,這時候JVM對這個常量池存儲String類型做出了限制,接下來我們先看下手冊是如何說的。

常量池中,每個 cp_info 項的格式必須相同,它們都以一個表示 cp_info 類型的單字節 “tag”項開頭。後面 info[]項的內容 由tag 的類型所決定。

我們可以看到 String類型的表示是 CONSTANT_String ,我們來看下CONSTANT_String具體是如何定義的。

這裏定義的 u2 string_index 表示的是常量池的有效索引,其類型是CONSTANT_Utf8_info 結構體表示的,這裏我們需要注意的是其中定義的length我們看下面這張圖。

在class文件中u2表示的是無符號數佔2個字節單位,我們知道1個字節佔8位,2個字節就是16位 ,那麼2個字節能表示的範圍就是2^16- 1 = 65535 。範中class文件格式對u1、u2的定義的解釋做了一下摘要:

這裏對java虛擬機規摘要部分

1、class文件中文件內容類型解釋

定義一組私有數據類型來表示 Class 文件的內容,它們包括 u1,u2 和 u4,分別代 表了 1、2 和 4 個字節的無符號數。

每個 Class 文件都是由 8 字節爲單位的字節流組成,所有的 16 位、32 位和 64 位長度的數 據將被構造成 2 個、4 個和 8 個 8 字節單位來表示。

2、程序異常處理的有效範圍解釋

start_pc 和 end_pc 兩項的值表明了異常處理器在 code[]數組中的有效範圍。

start_pc 必須是對當前 code[]數組中某一指令的操作碼的有效索引,end_pc 要 麼是對當前 code[]數組中某一指令的操作碼的有效索引,要麼等於 code_length 的值,即當前 code[]數組的長度。start_pc 的值必須比 end_pc 小。

當程序計數器在範圍[start_pc, end_pc)內時,異常處理器就將生效。即設 x 爲 異常句柄的有效範圍內的值,x 滿足:start_pc ≤ x < end_pc

實際上,end_pc 值本身不屬於異常處理器的有效範圍這點屬於 Java 虛擬機歷史上 的一個設計缺陷:如果 Java 虛擬機中的一個方法的 code 屬性的長度剛好是 65535 個字節,並且以一個 1 個字節長度的指令結束,那麼這條指令將不能被異常處理器 所處理。

不過編譯器可以通過限制任何方法、實例初始化方法或類初始化方法的code[]數組最大長度爲 65534,這樣可以間接彌補這個 BUG。

注意:這裏對個人認爲比較重要的點做了標記,首先第一個加粗說白了就是說數組有效範圍就是【0-65565】但是第二個加粗的地方又解釋了,因爲虛擬機還需要1個字節的指令作爲結束,所以其實真正的有效範圍是【0-65564】,這裏要注意這裏的範圍僅限編譯時期,如果你是運行時拼接的字符串是可以超出這個範圍的。

接下來我們通過一個小實驗來測試一下我們構建一個長度爲65534的字符串,看看是否就能編譯通過。0期階段彙總

首先通過一個for循環構建65534長度的字符串,在控制檯打印後,我們通過自己度孃的一個在線字符統計工具計算了一下確實是65534個字符,如下:

然後我們將字符複製後以定義字面量的形式賦值給字符串,可以看到我們選擇這些字符右下角顯示的確實是65534,於是乎運行了一波,果然成功了。

看到這裏我們來總結一下:

字符串有長度限制嗎?是多少?

首先字符串的內容是由一個字符數組 char[] 來存儲的,由於數組的長度及索引是整數,且String類中返回字符串長度的方法length() 的返回值也是int ,所以通過查看java源碼中的類Integer我們可以看到Integer的最大範圍是2^31 -1,由於數組是從0開始的,所以數組的最大長度可以使【0~2^31】通過計算是大概4GB。

但是通過翻閱java虛擬機手冊對class文件格式的定義以及常量池中對String類型的結構體定義我們可以知道對於索引定義了u2,就是無符號佔2個字節,2個字節可以表示的最大範圍是2^16 -1 = 65535。

其實是65535,但是由於JVM需要1個字節表示結束指令,所以這個範圍就爲65534了。超出這個範圍在編譯時期是會報錯的,但是運行時拼接或者賦值的話範圍是在整形的最大範圍。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章