首先看一段程序:
using System;
class Program
{
static void Main(string[] args)
{
string a = "hello world";
string b = a;
a = "hello";
Console.WriteLine("{0}, {1}", a, b);
Console.WriteLine(a == b);
Console.WriteLine(object.ReferenceEquals(a, b));
}
}
這個沒有什么特殊的地方鹏溯,相信大家都知道運行結(jié)果:
hello, hello world
False
False
第二個WriteLine使用==比較兩個字符串捏萍,返回False是因為他們不一致太抓。而最后一個WriteLine返回False,因為a令杈、b的引用不一致腻异。
接下來,我們在代碼的最后添加代碼:
Console.WriteLine((a + " world") == b);
Console.WriteLine(object.ReferenceEquals((a + " world"), b));
這個的輸出这揣,相信也不會出乎大家的意料悔常。前者返回True,因為==兩邊的內(nèi)容相等给赞;后者為False机打,因為+運算符執(zhí)行完畢后,會創(chuàng)建一個新的string實例片迅,這個實例與b的引用不一致残邀。
上面這些就是對象的通常工作方式,兩個獨立的對象可以擁有同樣的內(nèi)容柑蛇,但他們卻是不同的個體芥挣。
接下來,我們就來說一下string不尋常的地方
看一下下面這段代碼:
using System;
class Program
{
static void Main(string[] args)
{
string hello = "hello";
string helloWorld = "hello world";
string helloWorld2 = hello + " world";
Console.WriteLine("{0}, {1}: {2}, {3}", helloWorld, helloWorld2,
helloWorld == helloWorld2,
object.ReferenceEquals(helloWorld, helloWorld2));
}
}
運行一下耻台,結(jié)果為:
hello world, hello world: True, False
再一次空免,沒什么意外,==返回true因為他們內(nèi)容相同盆耽,ReferenceEquals返回False因為他們是不同的引用蹋砚。
現(xiàn)在在后面添加這樣的代碼:
helloWorld2 = "hello world";
Console.WriteLine("{0}, {1}: {2}, {3}", helloWorld, helloWorld2,
helloWorld == helloWorld2,
object.ReferenceEquals(helloWorld, helloWorld2));
運行,結(jié)果為:
hello world, hello world: True, True
等一下摄杂,這里的hellowWorld與helloWorld2引用一致坝咐?這個結(jié)果,相信很多人都有些接受不了析恢。這里的helloWorld2與上面的hello + " world"應(yīng)該是一樣的墨坚,但為什么ReferenceEquals返回的是True?
String.Intern
有經(jīng)驗的程序員們映挂,應(yīng)該知道泽篮,一個大型項目中,字符串的數(shù)量是巨大的袖肥。有些時候會出現(xiàn)幾百咪辱、幾千振劳、甚至幾萬的重復(fù)字符串存在椎组。這些字符串的內(nèi)容相同,但卻會重復(fù)分配內(nèi)存历恐,占用巨額的存儲空間寸癌,這個肯定是要優(yōu)化處理的专筷。而C#在處理這個問題的時候,采用的就是普遍的做法蒸苇,建立內(nèi)部的池磷蛹,池中每一個不同的字符串存在唯一一個個體在池中(這個方案在各種大型項目中都能見得到)。而C#畢竟是一種語言溪烤,而不是一個面向某個具體領(lǐng)域的技術(shù)味咳,所以,它不能將這種內(nèi)部的池技術(shù)檬嘀,做成全部自動化的槽驶。因為我們不知道,將來C#會被使用到何種規(guī)模的項目中鸳兽。如果完全自動化維護這個內(nèi)部池掂铐,可能會在大型項目中,造成內(nèi)存的巨大浪費揍异,畢竟不是所有的字符串都有必要加到這個常駐的池中的全陨。于是,C#提供了String.Intern和String.IsInterned接口衷掷,交給程序員自己維護內(nèi)部的池辱姨。
String.Intern的工作方式很好理解,你將一個字符串作為參數(shù)使用這個接口戚嗅,如果這個字符串已經(jīng)存在池中炮叶,就返回這個存在的引用;如果不存在就將它加入到池中渡处,并返回引用镜悉,例如:
Console.WriteLine(object.ReferenceEquals(String.Intern(helloWorld), String.Intern(helloWorld2)));
這段代碼將返回True,盡管helloWorld與helloWorld2的引用不同医瘫,但他們的內(nèi)容相同侣肄。
這里我們花幾分鐘,測試一下String.Intern醇份,因為在某些情況下稼锅,它產(chǎn)生的結(jié)果,有點違反直覺僚纷。這里是一個例子:
string a = new string(new char[] {'a', 'b', 'c'});
object o = String.Copy(a);
Console.WriteLine(object.ReferenceEquals(o, a));
String.Intern(o.ToString());
Console.WriteLine(object.ReferenceEquals(o, String.Intern(a)));
第一個WriteLine返回False很好理解矩距,因為String.Copy創(chuàng)建了一個a的新的實例,所以怖竭,o與a的引用不用锥债。
但為什么第二個WriteLine返回的是True?思考一下吧,下面再看一個例子:
object o2 = String.Copy(a);
String.Intern(o2.ToString());
Console.WriteLine(object.ReferenceEquals(o2, String.Intern(a)));
這個看起來哮肚,與上面的做了同樣的事登夫,但為什么WriteLine返回的是False?
首先允趟,需要說明一下ToString的工作方式恼策,它總是返回它自身的引用。o是一個指向“abc”的變量潮剪,調(diào)用ToString返回的就是這個引用涣楷。所以,對于上面的內(nèi)容抗碰,可以這樣解釋:
- 開始总棵,變量a指向字符串對象“abc”(#1),變量o指向另一個字符串對象(#2)改含,也包含“abc”情龄。
- 調(diào)用String.Intern(o.ToString())將對象#2的引用添加到內(nèi)部池中。
- 現(xiàn)在#2對象已經(jīng)存在池中了捍壤,任何時候骤视,使用“abc”調(diào)用String.Intern都將返回#2的引用(o指向了這個對象)。
- 所以鹃觉,當(dāng)你使用ReferenceEquals比較o和String.Intern(a)時专酗,返回True。因為String.Intern(a)返回的是#2的引用盗扇。
- 現(xiàn)在我們創(chuàng)建一個新的變量o2祷肯,使用String.Copy(a)創(chuàng)建一個新的對象#3,它也包含“abc”疗隶。
- 調(diào)用String.Intern(o2.ToString())沒有向內(nèi)部池中添加任何內(nèi)容佑笋,因為“abc”已經(jīng)存在(#2)。
- 所以斑鼻,此時調(diào)用Intern返回的是對象#2的引用蒋纬。注意,這里并沒有使用類似o2 = String.Intern(o2.ToString())這樣的代碼坚弱。
- 這就是為什么最后一行WriteLine打印的False的原因蜀备,因為我們在嘗試比較#3與#2的引用。如果如7中所說荒叶,添加o2 = String.Intern(o2.ToString())這樣的代碼碾阁,WriteLine返回的就是True。
String.IsInterned
IsInterned些楣,正如它的名字脂凶,判斷一個字符串是不是已經(jīng)在內(nèi)部池中宪睹。如果傳入的字符串已經(jīng)在池中,則返回這個字符串對象的引用艰猬,如果不再池中,返回null埋市。
下面是一個IsInterned例子:
string s = new string(new char[] {'x', 'y', 'z'});
Console.WriteLine(String.IsInterned(s) ?? "not interned");
String.Intern(s);
Console.WriteLine(String.IsInterned(s) ?? "not interned");
Console.WriteLine(object.ReferenceEquals(
String.IsInterned(new string(new char[] { 'x', 'y', 'z' })), s));
第一個WriteLine打印的是“not interned”冠桃,因為“xyz”還沒有存在于內(nèi)部池中;第二個WriteLine打印了“xyz”因為現(xiàn)在內(nèi)部池中有了“xyz”道宅;第三個WriteLine打印True食听,因為對象引用的就是內(nèi)部池中的“xyz”。
常量字符串自動被加入內(nèi)部池
改變最后一行代碼為:
Console.WriteLine(object.ReferenceEquals("xyz", s));
你會發(fā)現(xiàn)污茵,奇怪的事情發(fā)生了樱报,這些代碼不再輸出“not interned”了,并且最后的兩個WriteLine輸出的是False泞当!發(fā)生了什么迹蛤?
原因就是這個最后添加的那行代碼中的常量“xyz”,CLR會將程序中使用的字符常量自動添加到內(nèi)部池中襟士。所以盗飒,當(dāng)最后一行被添加之后,“xyz”在程序“運行之前”(避免嚴(yán)謹(jǐn)陋桂,這里用引號)就已經(jīng)存在于內(nèi)部池中逆趣。所以,當(dāng)調(diào)用String.IsInterned的時候嗜历,返回的不再是null宣渗,而是指向“xyz”的引用。這也解釋了梨州,為什么后面的ReferenceEquals返回False痕囱,因為s從來沒有被加到內(nèi)部池中,其指向也不是內(nèi)部池的"xyz"暴匠。
編譯器比你想象的要聰明
改變最后一行代碼為:
Console.WriteLine(object.ReferenceEquals("x" + "y" + "z", s));
運行一下咐蝇,你會發(fā)現(xiàn)運行結(jié)果和直接使用“xyz”一樣。但這里使用了+運算符跋锊椤有序?編譯器不應(yīng)該知道”x“+"y"+"z"最終的結(jié)果吧?
實際上岛请,如果你將”x“+"y"+"z"替換為String.Format("{0}{1}{2}",'x','y','z')旭寿,結(jié)果確實就不一樣了。某種原因崇败,CLR會將使用+運算符鏈接的字符串視為常量盅称,而String.Format卻需要在運行時才能知道結(jié)果肩祥。為什么?看一下下面的代碼:
using System;
class Program {
public static void Main() {
Console.WriteLine("x" + "y" + "z");
}
}
這段代碼編譯之后缩膝,使用Ildasm.exe查看混狠,會看到:
看到了吧,編譯器足夠聰明疾层,將”x“+"y"+"z"替換為”xyz“将饺。
本文大部分內(nèi)容來自:http://broadcast.oreilly.com/2010/08/understanding-c-stringintern-m.html,翻譯痛黎、批注:小匠頭