你真的知道 Python的 字符串是什么嗎右蕊?

你真的知道 Python的 字符串是什么嗎?

在《詳解Python拼接字符串的七種方式》這篇推文里脯丝,我提到過(guò)商膊,字符串是程序員離不開的事情。后來(lái)宠进,我看到了一個(gè)英文版本的說(shuō)法:

There are few guarantees in life: death, taxes, and programmers needing to deal with strings.

它竟然把程序員處理字符串跟死亡大事并列了晕拆,可見這是多么命中注定……

回頭看其它文章,我發(fā)現(xiàn)這種說(shuō)法得到了佐證材蹬,因?yàn)槲以跓o(wú)意中已零零碎碎地提及了字符串的很多方面实幕,例如:字符串讀寫文件、字符串打印堤器、字符串不可變性昆庇、字符串Intern機(jī)制、字符串拼接闸溃、是否會(huì)取消字符串整吆,等等。而這些辉川,還只能算字符串面目的冰山一角表蝙。

既然如此,那干脆再單獨(dú)寫寫Python的字符串吧乓旗。這篇內(nèi)容可能會(huì)很基(li)礎(chǔ)(lun)勇哗,并不是什么“騷操作”或“冷知識(shí)”,權(quán)當(dāng)是一份溫故而求知新的筆記寸齐。

1欲诺、Python字符串是什么?

根據(jù)維基百科定義:字符串是由零個(gè)或多個(gè)字符組成的有限序列渺鹦。而在Python 3中扰法,它有著更明確的意思:字符串是由Unicode碼點(diǎn)組成的不可變序列(Strings are immutable sequences of Unicode code points.)

字符串是一種序列,這意味著它具備序列類型都支持的操作:

你真的知道 Python的 字符串是什么嗎毅厚?

字符串序列還具備一些特有的操作塞颁,限于篇幅,按下不表。預(yù)告一下祠锣,下一篇《你真的知道Python的字符串怎么用嗎酷窥? 》將會(huì)展開介紹,敬請(qǐng)期待……

字符串序列是一種不可變序列伴网,這意味著它不能像可變序列一樣蓬推,進(jìn)行就地修改。例如澡腾,在字符串“Python”的基礎(chǔ)上拼接“Cat”沸伏,得到字符串“PythonCat”,新的字符串是一個(gè)獨(dú)立的存在动分,它與基礎(chǔ)字符串“Python”并沒有關(guān)聯(lián)關(guān)系毅糟。

你真的知道 Python的 字符串是什么嗎?

字符串這種序列與其它序列(如列表澜公、元組)的不同之處在于姆另,它的“元素”限定了只能是Unicode碼點(diǎn)。Unicode碼點(diǎn)是什么呢坟乾?簡(jiǎn)單理解迹辐,就是用Unicode編碼的字符。那字符是什么呢糊渊?字符是人類書寫系統(tǒng)的各類符號(hào),例如阿拉伯?dāng)?shù)字慧脱、拉丁字母渺绒、中文、日文菱鸥、藏文宗兼、標(biāo)點(diǎn)符號(hào)、控制符號(hào)(換行符氮采、制表符等)殷绍、其它特殊符號(hào)(@#¥%$*等等)。那Unicode編碼又是什么呢鹊漠?Unicode別名是萬(wàn)國(guó)碼主到、國(guó)際碼,它是一種適用性最廣的躯概、將書寫字符編碼為計(jì)算機(jī)數(shù)字的標(biāo)準(zhǔn)登钥。

總所周知,在最底層的計(jì)算機(jī)硬件世界里娶靡,只有0和1牧牢。那么,怎么用這個(gè)二進(jìn)制數(shù)字,來(lái)表示人類的文化性的字符呢塔鳍?這些字符數(shù)量龐大伯铣,而且還在日益增長(zhǎng)與變化,什么樣的編碼方案才是最靠譜的呢轮纫?

歷史上腔寡,人類創(chuàng)造了多種多樣的字符編碼標(biāo)準(zhǔn),例如ASCII(1963年)編碼蜡感,以西歐語(yǔ)言的字符為主蹬蚁,它的缺點(diǎn)是只能編碼128個(gè)字符;例如GB2312(1981年)郑兴,這是中國(guó)推出的編碼標(biāo)準(zhǔn)犀斋,在兼容ASCII標(biāo)準(zhǔn)的基礎(chǔ)上,還加入了對(duì)日文情连、俄文等字符的編碼叽粹,但缺點(diǎn)仍是編碼范圍有限,無(wú)法表示古漢語(yǔ)却舀、繁體字及更多書寫系統(tǒng)的字符虫几。

Unicode編碼標(biāo)準(zhǔn)于1991年推出,至今迭代到了第11版挽拔,已經(jīng)能夠編碼146個(gè)書寫系統(tǒng)的130000個(gè)字符辆脸,可謂是無(wú)所不包,真不愧是“國(guó)際碼”螃诅。Unicode編碼其實(shí)是一個(gè)二進(jìn)制字符集啡氢,它建立了從書寫字符映射成唯一的數(shù)字字符的關(guān)系,但是术裸,由于各系統(tǒng)平臺(tái)對(duì)字符的理解差異倘是,以及出于節(jié)省空間的考慮,Unicode編碼還需要再做一次轉(zhuǎn)換袭艺,轉(zhuǎn)換后的新的二進(jìn)制數(shù)字才能作為實(shí)際存儲(chǔ)及網(wǎng)絡(luò)傳輸時(shí)的編碼搀崭。

這種轉(zhuǎn)換方式被稱為Unicode轉(zhuǎn)換格式(Unicode Transformation Format,簡(jiǎn)稱為UTF)猾编,它又細(xì)分為UTF-8瘤睹、UTF-16、UTF-32等等方式答倡。我們最常用的是UTF-8默蚌。為什么UTF-8最常用呢?因?yàn)樗强勺冮L(zhǎng)度的編碼方案苇羡,針對(duì)不同的字符使用不同的字節(jié)數(shù)來(lái)編碼绸吸,例如編碼英文字母時(shí)鼻弧,只需要一個(gè)字節(jié)(8個(gè)比特),而編碼較復(fù)雜的漢字時(shí)锦茁,就會(huì)用到三個(gè)字節(jié)(24個(gè)比特)攘轩。

你真的知道 Python的 字符串是什么嗎?

二進(jìn)制的編碼串可以說(shuō)是給機(jī)器閱讀的码俩,為了方便度帮,我們通常會(huì)將其轉(zhuǎn)化為十六進(jìn)制,例如“中”字的Unicode編碼可以表示成0x4e2d 稿存,其UTF-8編碼可以表示為0xe4b8ad笨篷,'0x'用于開頭表示十六進(jìn)制,這樣就簡(jiǎn)潔多了瓣履。不過(guò)率翅,UTF-8編碼的結(jié)果會(huì)被表示成以字節(jié)為單位的形式,例如“中”字用UTF-8編碼后的字節(jié)形式是\xe4\xb8\xad 袖迎。

Python中為了區(qū)分Unicode編碼與字節(jié)碼冕臭,分別在開頭加“u”和“b”以示區(qū)分。在Python 3中燕锥,因?yàn)閁nicode成了默認(rèn)編碼格式辜贵,所以“u”被省略掉了。

你真的知道 Python的 字符串是什么嗎归形?

總結(jié)一下托慨,Python 3 中的字符串是由Unicode碼點(diǎn)組成的不可變序列,也即是暇榴,由采用Unicode標(biāo)準(zhǔn)編碼的字符組成的不可變序列厚棵。Unicode編碼將書寫系統(tǒng)的字符映射成了計(jì)算機(jī)二進(jìn)制數(shù)字,為了方便跺撼,通常顯示為十六進(jìn)制窟感;在運(yùn)算內(nèi)存中讨彼,字符以Unicode編碼呈現(xiàn)歉井,當(dāng)寫入磁盤或用于網(wǎng)絡(luò)傳輸時(shí),一般采用UTF-8方式編碼哈误。

在Python 2中哩至,因?yàn)闅v史包袱,即Python先于Unicode編碼而誕生蜜自,所以其編碼問(wèn)題是個(gè)大難題菩貌。幸好拋棄Python 2已成大勢(shì)所趨,所以我就不再對(duì)此做介紹或比對(duì)了重荠。

2 箭阶、Python字符串 VS Java字符串

雖然不提縱向版本間的差異,但是,我想將Python字符串與其它編程語(yǔ)言做一個(gè)橫向?qū)Ρ瘸鸩巍N矣X得這會(huì)是挺好玩的事嘹叫。通過(guò)跨語(yǔ)言的比較,也許我們能加深對(duì)一個(gè)事物(字符串)的理解诈乒,還可能受到啟發(fā)罩扇,得到對(duì)“編程語(yǔ)言”及“編程哲學(xué)”的領(lǐng)悟。

由于本人才疏學(xué)淺怕磨,本文就只對(duì)兩點(diǎn)皮毛特性作說(shuō)明喂饥,歡迎讀者斧正和補(bǔ)充。

(1)字符串的定義方式

Python的字符串是內(nèi)置類型肠鲫,所以使用起來(lái)很方便员帮,有如下三種定義方式:

你真的知道 Python的 字符串是什么嗎?

Java的字符串不是內(nèi)置類型滩届,它屬于對(duì)象集侯,需要通過(guò)String類來(lái)創(chuàng)建。不過(guò)帜消,正因?yàn)樽址S锰耐鳎訨ava特意預(yù)定義了一個(gè)字符串類String,使得程序員也可以像這樣來(lái)定義:String name = "Python貓"; 泡挺,而不必這樣寫:String name = new String("Python貓"); 辈讶。

Java的字符串只能寫在雙引號(hào)內(nèi),不具備Python中單雙引號(hào)混用的靈活娄猫。至于三引號(hào)的多行字符串表示法贱除,Java程序員表示羨慕得要死,那種痛苦媳溺,受過(guò)折磨的人最懂月幌。寫出來(lái)讓Python程序員開心一下:

你真的知道 Python的 字符串是什么嗎?

為什么Java不支持多行字符串悬蔽、什么時(shí)候支持多行字符串扯躺?此類問(wèn)題在Python程序員眼里,可能很費(fèi)解蝎困,但它絕對(duì)能排進(jìn)“Java程序員最希望能實(shí)現(xiàn)的特性”的前列录语。好不容易,官方有計(jì)劃在Java 11 實(shí)現(xiàn)禾乘,但今年9月發(fā)布的Java 11 仍是沒有澎埠,現(xiàn)在改計(jì)劃到Java 12 了。

(2)單個(gè)字符與字符序列

Java中其實(shí)也有單引號(hào)的使用始藕,用在char類型上蒲稳,例如char c = 'A'; 氮趋。char是一種內(nèi)置類型,表示單個(gè)用Unicode編碼的字符江耀。Python中沒有char類型凭峡,字符串類型通吃一切。

前面說(shuō)到决记,Python的字符串是一種字符序列摧冀,而Java的字符串并不是一種序列,要表示相近的概念的話系宫,就得用到字符數(shù)組 或者 字符串?dāng)?shù)組 索昂,例如:

char[] a = { 'a', 'b', 'c'};
String[] str = new String[]{"1","2","3"};

字符數(shù)組和字符串?dāng)?shù)組是一種序列,但并不是字符串扩借,它們之間如果要相互轉(zhuǎn)換椒惨,還是挺麻煩的。另外潮罪,說(shuō)是序列,但Java的序列操作絕對(duì)無(wú)法跟Python相比嫉到,別的不說(shuō)沃暗,就上面提及的幾個(gè)基礎(chǔ)操作,試問(wèn)Java能否實(shí)現(xiàn)何恶、實(shí)現(xiàn)起來(lái)要花費(fèi)多大力氣孽锥?

最后來(lái)個(gè)Ending,關(guān)于“Python字符串到底是什么”就說(shuō)到這啦细层,希望對(duì)你有所幫助惜辑。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市疫赎,隨后出現(xiàn)的幾起案子盛撑,更是在濱河造成了極大的恐慌,老刑警劉巖捧搞,帶你破解...
    沈念sama閱讀 218,640評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件抵卫,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡实牡,警方通過(guò)查閱死者的電腦和手機(jī)陌僵,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,254評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門轴合,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)创坞,“玉大人,你說(shuō)我怎么就攤上這事受葛√庹牵” “怎么了偎谁?”我有些...
    開封第一講書人閱讀 165,011評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)纲堵。 經(jīng)常有香客問(wèn)我巡雨,道長(zhǎng),這世上最難降的妖魔是什么席函? 我笑而不...
    開封第一講書人閱讀 58,755評(píng)論 1 294
  • 正文 為了忘掉前任铐望,我火速辦了婚禮,結(jié)果婚禮上茂附,老公的妹妹穿的比我還像新娘正蛙。我一直安慰自己,他們只是感情好营曼,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,774評(píng)論 6 392
  • 文/花漫 我一把揭開白布乒验。 她就那樣靜靜地躺著,像睡著了一般蒂阱。 火紅的嫁衣襯著肌膚如雪锻全。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,610評(píng)論 1 305
  • 那天录煤,我揣著相機(jī)與錄音鳄厌,去河邊找鬼。 笑死妈踊,一個(gè)胖子當(dāng)著我的面吹牛部翘,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播响委,決...
    沈念sama閱讀 40,352評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼新思,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了赘风?” 一聲冷哼從身側(cè)響起夹囚,我...
    開封第一講書人閱讀 39,257評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎邀窃,沒想到半個(gè)月后荸哟,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,717評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡瞬捕,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,894評(píng)論 3 336
  • 正文 我和宋清朗相戀三年鞍历,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片肪虎。...
    茶點(diǎn)故事閱讀 40,021評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡劣砍,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出扇救,到底是詐尸還是另有隱情刑枝,我是刑警寧澤香嗓,帶...
    沈念sama閱讀 35,735評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站装畅,受9級(jí)特大地震影響靠娱,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜掠兄,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,354評(píng)論 3 330
  • 文/蒙蒙 一像云、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧蚂夕,春花似錦苫费、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,936評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至牍汹,卻和暖如春铐维,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背慎菲。 一陣腳步聲響...
    開封第一講書人閱讀 33,054評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工嫁蛇, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人露该。 一個(gè)月前我還...
    沈念sama閱讀 48,224評(píng)論 3 371
  • 正文 我出身青樓睬棚,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親解幼。 傳聞我的和親對(duì)象是個(gè)殘疾皇子抑党,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,974評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容