前言
話說 Java 中 String 是有長度限制的,聽到這里很多人不禁要問舶得,String 還有長度限制掰烟?
是的有棺耍,而且在 JVM 編譯中還有規(guī)范转培,而且有的鐵汁在面試的時(shí)候也遇到了跃惫。
我朋友就遇到過面試的時(shí)候問這個(gè)的滨巴,而且在之前開發(fā)的中也真實(shí)地遇到過這個(gè) String 長度限制的場景(將某固定文件轉(zhuǎn)碼成 Base64 的形式用字符串存儲(chǔ),在運(yùn)行時(shí)需要的時(shí)候在轉(zhuǎn)回來哪替,當(dāng)時(shí)文件比較大)红氯,那這個(gè)規(guī)范限制到底是怎么樣的泣懊,咱們話不多說先??去躺彬。
整理了一份
Java學(xué)習(xí)筆記和面試題集
需要的朋友可自行領(lǐng)取
String
首先要知道 String 的長度限制我們就需要知道 String 是怎么存儲(chǔ)字符串的煤墙,String 其實(shí)是使用的一個(gè) char 類型的數(shù)組來存儲(chǔ)字符串中的字符的梅惯。
存儲(chǔ) String 的容器原來是它
那么 String 既然是數(shù)組存儲(chǔ)那數(shù)組會(huì)有長度的限制嗎?是的有限制仿野,但是是在有先提條件下的铣减,我們看看 String 中返回 length 的方法。
String 類中的 length 方法
由此我們看到返回值類型是 int 類型脚作,Java 中定義數(shù)組是可以給數(shù)組指定長度的葫哗,當(dāng)然不指定的話默認(rèn)會(huì)根據(jù)數(shù)組元素來指定:
int[] arr1 = new int[10]; // 定義一個(gè)長度為10的數(shù)組int[] arr2 = {1,2,3,4,5}; // 那么此時(shí)數(shù)組的長度為5
整數(shù)在 java 中是有限制的,我們通過源碼來看看 int 類型對(duì)應(yīng)的包裝類 Integer 可以看到球涛,其長度最大限制為 2^31 -1魄梯,那么說明了數(shù)組的長度是 0~231-1,那么計(jì)算一下就是(231-1 = 2147483647 = 4GB)
Integer 的取值范圍
看到這我們嘗試通過編碼來驗(yàn)證一下上述觀點(diǎn)宾符。
以字面量形式定義字符串
以上是我通過定義字面量的形式構(gòu)造的 10 萬個(gè)字符的字符串,編譯之后虛擬機(jī)提示報(bào)錯(cuò)灭翔,說我們的字符串長度過長魏烫,不是說好了可以存 21 億個(gè)嗎?為什么才 10 萬個(gè)就報(bào)錯(cuò)了呢肝箱?
其實(shí)這里涉及到了 JVM 編譯規(guī)范的限制了哄褒,其實(shí) JVM 在編譯時(shí),如果我們將字符串定義成了字面量的形式煌张,編譯時(shí) JVM 是會(huì)將其存放在常量池中呐赡,這時(shí)候 JVM 對(duì)這個(gè)常量池存儲(chǔ) String 類型做出了限制,接下來我們先看下手冊是如何說的骏融。
java 虛擬機(jī)規(guī)范截圖
常量池中链嘀,每個(gè) cp_info 項(xiàng)的格式必須相同,它們都以一個(gè)表示 cp_info 類型的單字節(jié) “tag” 項(xiàng)開頭档玻。后面 info[] 項(xiàng)的內(nèi)容 由 tag 的類型所決定怀泊。
java 虛擬機(jī)規(guī)范手冊常量類型表
我們可以看到 String 類型的表示是 CONSTANT_String ,我們來看下 CONSTANT_String 具體是如何定義的误趴。
這里定義的 u2 string_index 表示的是常量池的有效索引霹琼,其類型是 CONSTANT_Utf8_info 結(jié)構(gòu)體表示的,這里我們需要注意的是其中定義的 length 我們看下面這張圖凉当。
在 class 文件中 u2 表示的是無符號(hào)數(shù)占 2 個(gè)字節(jié)單位枣申,我們知道 1 個(gè)字節(jié)占 8 位,2 個(gè)字節(jié)就是 16 位 看杭,那么 2 個(gè)字節(jié)能表示的范圍就是 2^16- 1 = 65535 忠藤。范中 class 文件格式對(duì) u1、u2 的定義的解釋做了一下摘要:
這里對(duì) java 虛擬機(jī)規(guī)摘要部分
1楼雹、class 文件中文件內(nèi)容類型解釋
定義一組私有數(shù)據(jù)類型來表示 Class 文件的內(nèi)容熄驼,它們包括 u1像寒,u2 和 u4,分別代 表了 1瓜贾、2 和 4 個(gè)字節(jié)的無符號(hào)數(shù)诺祸。
每個(gè) Class 文件都是由 8 字節(jié)為單位的字節(jié)流組成,所有的 16 位祭芦、32 位和 64 位長度的數(shù) 據(jù)將被構(gòu)造成 2 個(gè)筷笨、4 個(gè)和 8 個(gè) 8 字節(jié)單位來表示。
2龟劲、程序異常處理的有效范圍解釋
start_pc 和 end_pc 兩項(xiàng)的值表明了異常處理器在 code[] 數(shù)組中的有效范圍胃夏。
start_pc 必須是對(duì)當(dāng)前 code[] 數(shù)組中某一指令的操作碼的有效索引,end_pc 要 么是對(duì)當(dāng)前 code[] 數(shù)組中某一指令的操作碼的有效索引昌跌,要么等于 code_length 的值仰禀,即當(dāng)前 code[] 數(shù)組的長度。start_pc 的值必須比 end_pc 小蚕愤。
當(dāng)程序計(jì)數(shù)器在范圍[start_pc, end_pc)
內(nèi)時(shí)答恶,異常處理器就將生效。即設(shè) x 為 異常句柄的有效范圍內(nèi)的值萍诱,x 滿足:start_pc ≤ x < end_pc
悬嗓。
實(shí)際上,end_pc 值本身不屬于異常處理器的有效范圍這點(diǎn)屬于 Java 虛擬機(jī)歷史上 的一個(gè)設(shè)計(jì)缺陷:如果 Java 虛擬機(jī)中的一個(gè)方法的 code 屬性的長度剛好是 65535 個(gè)字節(jié)裕坊,并且以一個(gè) 1 個(gè)字節(jié)長度的指令結(jié)束包竹,那么這條指令將不能被異常處理器 所處理。
不過編譯器可以通過限制任何方法籍凝、實(shí)例初始化方法或類初始化方法的code[]
數(shù)組最大長度為 65534周瞎,這樣可以間接彌補(bǔ)這個(gè) BUG。
注意:這里對(duì)個(gè)人認(rèn)為比較重要的點(diǎn)做了標(biāo)記饵蒂,首先第一個(gè)加粗說白了就是說數(shù)組有效范圍就是【0-65565】但是第二個(gè)加粗的地方又解釋了堰氓,因?yàn)樘摂M機(jī)還需要 1 個(gè)字節(jié)的指令作為結(jié)束,所以其實(shí)真正的有效范圍是【0-65564】苹享,這里要注意這里的范圍僅限編譯時(shí)期双絮,如果你是運(yùn)行時(shí)拼接的字符串是可以超出這個(gè)范圍的。
接下來我們通過一個(gè)小實(shí)驗(yàn)來測試一下我們構(gòu)建一個(gè)長度為 65534 的字符串得问,看看是否就能編譯通過囤攀。0 期階段匯總
首先通過一個(gè) for 循環(huán)構(gòu)建 65534 長度的字符串,在控制臺(tái)打印后宫纬,我們通過自己度娘的一個(gè)在線字符統(tǒng)計(jì)工具計(jì)算了一下確實(shí)是 65534 個(gè)字符焚挠,如下:
然后我們將字符復(fù)制后以定義字面量的形式賦值給字符串,可以看到我們選擇這些字符右下角顯示的確實(shí)是 65534漓骚,于是乎運(yùn)行了一波蝌衔,果然成功了榛泛。
看到這里我們來總結(jié)一下:
問:字符串有長度限制嗎?是多少噩斟?
答:首先字符串的內(nèi)容是由一個(gè)字符數(shù)組 char[] 來存儲(chǔ)的曹锨,由于數(shù)組的長度及索引是整數(shù),且 String 類中返回字符串長度的方法 length() 的返回值也是 int 剃允,所以通過查看 java 源碼中的類 Integer 我們可以看到 Integer 的最大范圍是 2^31 -1, 由于數(shù)組是從 0 開始的沛简,所以數(shù)組的最大長度可以使【0~2^31】通過計(jì)算是大概 4GB。
但是通過翻閱 java 虛擬機(jī)手冊對(duì) class 文件格式的定義以及常量池中對(duì) String 類型的結(jié)構(gòu)體定義我們可以知道對(duì)于索引定義了 u2斥废,就是無符號(hào)占 2 個(gè)字節(jié)椒楣,2 個(gè)字節(jié)可以表示的最大范圍是 2^16 -1 = 65535。
其實(shí)是 65535牡肉,但是由于 JVM 需要 1 個(gè)字節(jié)表示結(jié)束指令捧灰,所以這個(gè)范圍就為 65534 了。超出這個(gè)范圍在編譯時(shí)期是會(huì)報(bào)錯(cuò)的统锤,但是運(yùn)行時(shí)拼接或者賦值的話范圍是在整形的最大范圍毛俏。
Java學(xué)習(xí)筆記和面試題集,需要的朋友可自行領(lǐng)取