在《詳解Python拼接字符串的七種方式》這篇推文里脯丝,我提到過(guò)商膊,字符串是程序員離不開的事情。后來(lái)宠进,我看到了一個(gè)英文版本的說(shuō)法:
There are few guarantees in life: death, taxes, and programmers needing to deal with strings.
它竟然把程序員處理字符串跟死亡大事并列了晕拆,可見這是多么命中注定……
回頭看其它文章,我發(fā)現(xiàn)這種說(shuō)法得到了佐證材蹬,因?yàn)槲以跓o(wú)意中已零零碎碎地提及了字符串的很多方面实幕,例如:字符串讀寫文件、字符串打印堤器、字符串不可變性昆庇、字符串Intern機(jī)制、字符串拼接闸溃、是否會(huì)取消字符串整吆,等等。而這些辉川,還只能算字符串面目的冰山一角表蝙。
既然如此,那干脆再單獨(dú)寫寫Python的字符串吧乓旗。這篇內(nèi)容可能會(huì)很基(li)礎(chǔ)(lun)勇哗,并不是什么“騷操作”或“冷知識(shí)”,權(quán)當(dāng)是一份溫故而求知新的筆記寸齐。
1欲诺、Python字符串是什么?
根據(jù)維基百科定義:字符串是由零個(gè)或多個(gè)字符組成的有限序列渺鹦。而在Python 3中扰法,它有著更明確的意思:字符串是由Unicode碼點(diǎn)組成的不可變序列(Strings are immutable sequences of Unicode code points.)
字符串是一種序列,這意味著它具備序列類型都支持的操作:
字符串序列還具備一些特有的操作塞颁,限于篇幅,按下不表。預(yù)告一下祠锣,下一篇《你真的知道Python的字符串怎么用嗎酷窥? 》將會(huì)展開介紹,敬請(qǐng)期待……
字符串序列是一種不可變序列伴网,這意味著它不能像可變序列一樣蓬推,進(jìn)行就地修改。例如澡腾,在字符串“Python”的基礎(chǔ)上拼接“Cat”沸伏,得到字符串“PythonCat”,新的字符串是一個(gè)獨(dú)立的存在动分,它與基礎(chǔ)字符串“Python”并沒有關(guān)聯(lián)關(guān)系毅糟。
字符串這種序列與其它序列(如列表澜公、元組)的不同之處在于姆另,它的“元素”限定了只能是Unicode碼點(diǎn)。Unicode碼點(diǎn)是什么呢坟乾?簡(jiǎn)單理解迹辐,就是用Unicode編碼的字符。那字符是什么呢糊渊?字符是人類書寫系統(tǒng)的各類符號(hào),例如阿拉伯?dāng)?shù)字慧脱、拉丁字母渺绒、中文、日文菱鸥、藏文宗兼、標(biāo)點(diǎn)符號(hào)、控制符號(hào)(換行符氮采、制表符等)殷绍、其它特殊符號(hào)(@#¥%$*等等)。那Unicode編碼又是什么呢鹊漠?Unicode別名是萬(wàn)國(guó)碼主到、國(guó)際碼,它是一種適用性最廣的躯概、將書寫字符編碼為計(jì)算機(jī)數(shù)字的標(biāo)準(zhǔn)登钥。
總所周知,在最底層的計(jì)算機(jī)硬件世界里娶靡,只有0和1牧牢。那么,怎么用這個(gè)二進(jìn)制數(shù)字,來(lái)表示人類的文化性的字符呢塔鳍?這些字符數(shù)量龐大伯铣,而且還在日益增長(zhǎng)與變化,什么樣的編碼方案才是最靠譜的呢轮纫?
歷史上腔寡,人類創(chuàng)造了多種多樣的字符編碼標(biāo)準(zhǔn),例如ASCII(1963年)編碼蜡感,以西歐語(yǔ)言的字符為主蹬蚁,它的缺點(diǎn)是只能編碼128個(gè)字符;例如GB2312(1981年)郑兴,這是中國(guó)推出的編碼標(biāo)準(zhǔn)犀斋,在兼容ASCII標(biāo)準(zhǔn)的基礎(chǔ)上,還加入了對(duì)日文情连、俄文等字符的編碼叽粹,但缺點(diǎn)仍是編碼范圍有限,無(wú)法表示古漢語(yǔ)却舀、繁體字及更多書寫系統(tǒng)的字符虫几。
Unicode編碼標(biāo)準(zhǔn)于1991年推出,至今迭代到了第11版挽拔,已經(jīng)能夠編碼146個(gè)書寫系統(tǒng)的130000個(gè)字符辆脸,可謂是無(wú)所不包,真不愧是“國(guó)際碼”螃诅。Unicode編碼其實(shí)是一個(gè)二進(jìn)制字符集啡氢,它建立了從書寫字符映射成唯一的數(shù)字字符的關(guān)系,但是术裸,由于各系統(tǒng)平臺(tái)對(duì)字符的理解差異倘是,以及出于節(jié)省空間的考慮,Unicode編碼還需要再做一次轉(zhuǎn)換袭艺,轉(zhuǎn)換后的新的二進(jìn)制數(shù)字才能作為實(shí)際存儲(chǔ)及網(wǎng)絡(luò)傳輸時(shí)的編碼搀崭。
這種轉(zhuǎn)換方式被稱為Unicode轉(zhuǎn)換格式(Unicode Transformation Format,簡(jiǎn)稱為UTF)猾编,它又細(xì)分為UTF-8瘤睹、UTF-16、UTF-32等等方式答倡。我們最常用的是UTF-8默蚌。為什么UTF-8最常用呢?因?yàn)樗强勺冮L(zhǎng)度的編碼方案苇羡,針對(duì)不同的字符使用不同的字節(jié)數(shù)來(lái)編碼绸吸,例如編碼英文字母時(shí)鼻弧,只需要一個(gè)字節(jié)(8個(gè)比特),而編碼較復(fù)雜的漢字時(shí)锦茁,就會(huì)用到三個(gè)字節(jié)(24個(gè)比特)攘轩。
二進(jìn)制的編碼串可以說(shuō)是給機(jī)器閱讀的码俩,為了方便度帮,我們通常會(huì)將其轉(zhuǎn)化為十六進(jìn)制,例如“中”字的Unicode編碼可以表示成0x4e2d 稿存,其UTF-8編碼可以表示為0xe4b8ad笨篷,'0x'用于開頭表示十六進(jìn)制,這樣就簡(jiǎn)潔多了瓣履。不過(guò)率翅,UTF-8編碼的結(jié)果會(huì)被表示成以字節(jié)為單位的形式,例如“中”字用UTF-8編碼后的字節(jié)形式是\xe4\xb8\xad 袖迎。
Python中為了區(qū)分Unicode編碼與字節(jié)碼冕臭,分別在開頭加“u”和“b”以示區(qū)分。在Python 3中燕锥,因?yàn)閁nicode成了默認(rèn)編碼格式辜贵,所以“u”被省略掉了。
總結(jié)一下托慨,Python 3 中的字符串是由Unicode碼點(diǎn)組成的不可變序列,也即是暇榴,由采用Unicode標(biāo)準(zhǔn)編碼的字符組成的不可變序列厚棵。Unicode編碼將書寫系統(tǒng)的字符映射成了計(jì)算機(jī)二進(jìn)制數(shù)字,為了方便跺撼,通常顯示為十六進(jìn)制窟感;在運(yùn)算內(nèi)存中讨彼,字符以Unicode編碼呈現(xiàn)歉井,當(dāng)寫入磁盤或用于網(wǎng)絡(luò)傳輸時(shí),一般采用UTF-8方式編碼哈误。
在Python 2中哩至,因?yàn)闅v史包袱,即Python先于Unicode編碼而誕生蜜自,所以其編碼問(wèn)題是個(gè)大難題菩貌。幸好拋棄Python 2已成大勢(shì)所趨,所以我就不再對(duì)此做介紹或比對(duì)了重荠。
2 箭阶、Python字符串 VS Java字符串
雖然不提縱向版本間的差異,但是,我想將Python字符串與其它編程語(yǔ)言做一個(gè)橫向?qū)Ρ瘸鸩巍N矣X得這會(huì)是挺好玩的事嘹叫。通過(guò)跨語(yǔ)言的比較,也許我們能加深對(duì)一個(gè)事物(字符串)的理解诈乒,還可能受到啟發(fā)罩扇,得到對(duì)“編程語(yǔ)言”及“編程哲學(xué)”的領(lǐng)悟。
由于本人才疏學(xué)淺怕磨,本文就只對(duì)兩點(diǎn)皮毛特性作說(shuō)明喂饥,歡迎讀者斧正和補(bǔ)充。
(1)字符串的定義方式
Python的字符串是內(nèi)置類型肠鲫,所以使用起來(lái)很方便员帮,有如下三種定義方式:
Java的字符串不是內(nèi)置類型滩届,它屬于對(duì)象集侯,需要通過(guò)String類來(lái)創(chuàng)建。不過(guò)帜消,正因?yàn)樽址S锰耐鳎訨ava特意預(yù)定義了一個(gè)字符串類String,使得程序員也可以像這樣來(lái)定義:String name = "Python貓"; 泡挺,而不必這樣寫:String name = new String("Python貓"); 辈讶。
Java的字符串只能寫在雙引號(hào)內(nèi),不具備Python中單雙引號(hào)混用的靈活娄猫。至于三引號(hào)的多行字符串表示法贱除,Java程序員表示羨慕得要死,那種痛苦媳溺,受過(guò)折磨的人最懂月幌。寫出來(lái)讓Python程序員開心一下:
為什么Java不支持多行字符串悬蔽、什么時(shí)候支持多行字符串扯躺?此類問(wèn)題在Python程序員眼里,可能很費(fèi)解蝎困,但它絕對(duì)能排進(jìn)“Java程序員最希望能實(shí)現(xiàn)的特性”的前列录语。好不容易,官方有計(jì)劃在Java 11 實(shí)現(xiàn)禾乘,但今年9月發(fā)布的Java 11 仍是沒有澎埠,現(xiàn)在改計(jì)劃到Java 12 了。
(2)單個(gè)字符與字符序列
Java中其實(shí)也有單引號(hào)的使用始藕,用在char類型上蒲稳,例如char c = 'A'; 氮趋。char是一種內(nèi)置類型,表示單個(gè)用Unicode編碼的字符江耀。Python中沒有char類型凭峡,字符串類型通吃一切。
前面說(shuō)到决记,Python的字符串是一種字符序列摧冀,而Java的字符串并不是一種序列,要表示相近的概念的話系宫,就得用到字符數(shù)組 或者 字符串?dāng)?shù)組 索昂,例如:
char[] a = { 'a', 'b', 'c'};
String[] str = new String[]{"1","2","3"};
字符數(shù)組和字符串?dāng)?shù)組是一種序列,但并不是字符串扩借,它們之間如果要相互轉(zhuǎn)換椒惨,還是挺麻煩的。另外潮罪,說(shuō)是序列,但Java的序列操作絕對(duì)無(wú)法跟Python相比嫉到,別的不說(shuō)沃暗,就上面提及的幾個(gè)基礎(chǔ)操作,試問(wèn)Java能否實(shí)現(xiàn)何恶、實(shí)現(xiàn)起來(lái)要花費(fèi)多大力氣孽锥?
最后來(lái)個(gè)Ending,關(guān)于“Python字符串到底是什么”就說(shuō)到這啦细层,希望對(duì)你有所幫助惜辑。