你真的知道Python的字符串是什么嗎政勃?

在《詳解Python拼接字符串的七種方式》這篇推文里,我提到過旧乞,字符串是程序員離不開的事情蔚润。后來,我看到了一個(gè)英文版本的說法:

There are few guarantees in life: death, taxes, and programmers needing to deal with strings.

它竟然把程序員處理字符串跟死亡大事并列了尺栖,可見這是多么命中注定......

回頭看其它文章驯击,我發(fā)現(xiàn)這種說法得到了佐證废境,因?yàn)槲以跓o(wú)意中已零零碎碎地提及了字符串的很多方面沫勿,例如:字符串讀寫文件薛窥、字符串打印、字符串不可變性挫以、字符串Intern機(jī)制痴颊、字符串拼接、是否會(huì)取消字符串屡贺,等等蠢棱。而這些,還只能算字符串面目的冰山一角甩栈。

既然如此泻仙,那干脆再單獨(dú)寫寫Python的字符串吧。這篇內(nèi)容可能會(huì)很基(li)礎(chǔ)(lun)量没,并不是什么“騷操作”或“冷知識(shí)”玉转,權(quán)當(dāng)是一份溫故而求知新的筆記。

1 Python字符串是什么殴蹄?

根據(jù)維基百科定義:字符串是由零個(gè)或多個(gè)字符組成的有限序列究抓。而在Python 3中,它有著更明確的意思:字符串是由Unicode碼點(diǎn)組成的不可變序列(Strings are immutable sequences of Unicode code points.)

字符串是一種序列袭灯,這意味著它具備序列類型都支持的操作:

# 以下的s刺下、t皆表示序列,x表示元素
x in s  # 若s包含x稽荧,返回True橘茉,否則返回False
x not in s  # 若s包含x,返回False,否則返回True
s + t  # 連接兩個(gè)序列
s * n  # s復(fù)制n次
s[i]   # s的索引第i項(xiàng)
s[i:j] # s切片從第i項(xiàng)到第j-1項(xiàng)
s[i:j:k]  #  s切片從第i項(xiàng)到第j-1項(xiàng),間隔為k
len(s)  # s的長(zhǎng)度
min(s)  # s的最小元素
max(s)  # s的最大元素
s.index(x) # x的索引位置
s.count(x)  # s中出現(xiàn)x的總次數(shù)

字符串序列還具備一些特有的操作畅卓,限于篇幅擅腰,按下不表。預(yù)告一下翁潘,下一篇《你真的知道Python的字符串怎么用嗎趁冈? 》將會(huì)展開介紹,敬請(qǐng)期待......

字符串序列是一種不可變序列拜马,這意味著它不能像可變序列一能渗勘,進(jìn)行就地修改。例如一膨,在字符串“Python”的基礎(chǔ)上拼接“Cat”,得到字符串“PythonCat”洒沦,新的字符串是一個(gè)獨(dú)立的存在豹绪,它與基礎(chǔ)字符串“Python”并沒有關(guān)聯(lián)關(guān)系。

basename = "Python"
myname = basename + "Cat"
id(basename) == id(myname) >>> False

# 作為對(duì)比申眼,列表能就地修改
baselist = ["Python"]
baselist.append("Cat")
print(baselist) >>> ['Python', 'Cat']

字符串這種序列與其它序列(如列表瞒津、元組)的不同之處在于,它的“元素”限定了只能是Unicode碼點(diǎn)括尸。Unicode碼點(diǎn)是什么呢巷蚪?簡(jiǎn)單理解,就是用Unicode編碼的字符濒翻。那字符是什么呢屁柏?字符是人類書寫系統(tǒng)的各類符號(hào),例如阿拉伯?dāng)?shù)字有送、拉丁字母淌喻、中文、日文雀摘、藏文裸删、標(biāo)點(diǎn)符號(hào)、控制符號(hào)(換行符阵赠、制表符等)涯塔、其它特殊符號(hào)(@#¥%$*等等)。那Unicode編碼又是什么呢清蚀?Unicode別名是萬(wàn)國(guó)碼匕荸、國(guó)際碼,它是一種適用性最廣的枷邪、將書寫字符編碼為計(jì)算機(jī)數(shù)字的標(biāo)準(zhǔn)每聪。

總所周知,在最底層的計(jì)算機(jī)硬件世界里,只有0和1药薯。那么绑洛,怎么用這個(gè)二進(jìn)制數(shù)字,來表示人類的文化性的字符呢童本?這些字符數(shù)量龐大真屯,而且還在日益增長(zhǎng)與變化,什么樣的編碼方案才是最靠譜的呢穷娱?

歷史上绑蔫,人類創(chuàng)造了多種多樣的字符編碼標(biāo)準(zhǔn),例如ASCII(1963年)編碼泵额,以西歐語(yǔ)言的字符為主配深,它的缺點(diǎn)是只能編碼128個(gè)字符;例如GB2312(1981年)嫁盲,這是中國(guó)推出的編碼標(biāo)準(zhǔn)篓叶,在兼容ASCII標(biāo)準(zhǔn)的基礎(chǔ)上,還加入了對(duì)日文羞秤、俄文等字符的編碼缸托,但缺點(diǎn)仍是編碼范圍有限,無(wú)法表示古漢語(yǔ)瘾蛋、繁體字及更多書寫系統(tǒng)的字符俐镐。

Unicode編碼標(biāo)準(zhǔn)于1991年推出,至今迭代到了第11版哺哼,已經(jīng)能夠編碼146個(gè)書寫系統(tǒng)的130000個(gè)字符佩抹,可謂是無(wú)所不包,真不愧是“國(guó)際碼”取董。Unicode編碼其實(shí)是一個(gè)二進(jìn)制字符集匹摇,它建立了從書寫字符映射成唯一的數(shù)字字符的關(guān)系,但是甲葬,由于各系統(tǒng)平臺(tái)對(duì)字符的理解差異廊勃,以及出于節(jié)省空間的考慮,Unicode編碼還需要再做一次轉(zhuǎn)換经窖,轉(zhuǎn)換后的新的二進(jìn)制數(shù)字才能作為實(shí)際存儲(chǔ)及網(wǎng)絡(luò)傳輸時(shí)的編碼坡垫。

這種轉(zhuǎn)換方式被稱為Unicode轉(zhuǎn)換格式(Unicode Transformation Format,簡(jiǎn)稱為UTF)画侣,它又細(xì)分為UTF-8冰悠、UTF-16、UTF-32等等方式配乱。我們最常用的是UTF-8溉卓。為什么UTF-8最常用呢皮迟?因?yàn)樗强勺冮L(zhǎng)度的編碼方案,針對(duì)不同的字符使用不同的字節(jié)數(shù)來編碼桑寨,例如編碼英文字母時(shí)伏尼,只需要一個(gè)字節(jié)(8個(gè)比特),而編碼較復(fù)雜的漢字時(shí)尉尾,就會(huì)用到三個(gè)字節(jié)(24個(gè)比特)爆阶。

image

二進(jìn)制的編碼串可以說是給機(jī)器閱讀的,為了方便沙咏,我們通常會(huì)將其轉(zhuǎn)化為十六進(jìn)制辨图,例如“中”字的Unicode編碼可以表示成0x4e2d ,其UTF-8編碼可以表示為0xe4b8ad 肢藐,'0x'用于開頭表示十六進(jìn)制故河,這樣就簡(jiǎn)潔多了。不過吆豹,UTF-8編碼的結(jié)果會(huì)被表示成以字節(jié)為單位的形式鱼的,例如“中”字用UTF-8編碼后的字節(jié)形式是\xe4\xb8\xad

Python中為了區(qū)分Unicode編碼與字節(jié)碼瞻讽,分別在開頭加“u”和“b”以示區(qū)分鸳吸。在Python 3中熏挎,因?yàn)閁nicode成了默認(rèn)編碼格式速勇,所以“u”被省略掉了。

# 字符轉(zhuǎn)Unicode編碼
# Python3中坎拐,開頭的u被省略烦磁,b不可省略
hex(ord('中')) >>> '0x4e2d'
hex(ord('A'))  >>> '0x41'

# 字符轉(zhuǎn)UTF-8編碼(encode)
'中'.encode('utf-8') >>> b'\xe4\xb8\xad'
'A'.encode('utf-8')  >>> b'A'

# Unicode編碼還原成字符
chr(0x4e2d) >>> '中'
chr(0x41) >>> 'A'

# UTF-8編碼還原成字符(decode)
b'\xe4\xb8\xad'.decode('utf-8') >>> '中'
b'A'.decode('utf-8') >>> 'A'

總結(jié)一下,Python 3 中的字符串是由Unicode碼點(diǎn)組成的不可變序列哼勇,也即是都伪,由采用Unicode標(biāo)準(zhǔn)編碼的字符組成的不可變序列。Unicode編碼將書寫系統(tǒng)的字符映射成了計(jì)算機(jī)二進(jìn)制數(shù)字积担,為了方便陨晶,通常顯示為十六進(jìn)制;在運(yùn)算內(nèi)存中帝璧,字符以Unicode編碼呈現(xiàn)先誉,當(dāng)寫入磁盤或用于網(wǎng)絡(luò)傳輸時(shí),一般采用UTF-8方式編碼的烁。

在Python 2中褐耳,因?yàn)闅v史包袱,即Python先于Unicode編碼而誕生渴庆,所以其編碼問題是個(gè)大難題铃芦。幸好拋棄Python 2已成大勢(shì)所趨雅镊,所以我就不再對(duì)此做介紹或比對(duì)了。

2 Python字符串 VS Java字符串

雖然不提縱向版本間的差異刃滓,但是仁烹,我想將Python字符串與其它編程語(yǔ)言做一個(gè)橫向?qū)Ρ取N矣X得這會(huì)是挺好玩的事注盈。通過跨語(yǔ)言的比較晃危,也許我們能加深對(duì)一個(gè)事物(字符串)的理解,還可能受到啟發(fā)老客,得到對(duì)“編程語(yǔ)言”及“編程哲學(xué)”的領(lǐng)悟僚饭。

由于本人才疏學(xué)淺,本文就只對(duì)兩點(diǎn)皮毛特性作說明胧砰,歡迎讀者斧正和補(bǔ)充鳍鸵。

(1)字符串的定義方式

Python的字符串是內(nèi)置類型,所以使用起來很方便尉间,有如下三種定義方式:

str_0 = '''Python字符串可以寫在用三引號(hào)對(duì)內(nèi)偿乖,表示多行字符串。
還可以寫在單引號(hào)對(duì)內(nèi)哲嘲,
當(dāng)然還可以寫在雙引號(hào)對(duì)內(nèi)贪薪。
'''

str_1 = 'Python貓是一只貓'
str_2 = "Python貓是一個(gè)微信公眾號(hào)"

Java的字符串不是內(nèi)置類型,它屬于對(duì)象眠副,需要通過String類來創(chuàng)建画切。不過,正因?yàn)樽址S么雅拢訨ava特意預(yù)定義了一個(gè)字符串類String霍弹,使得程序員也可以像這樣來定義:String name = "Python貓"; ,而不必這樣寫:String name = new String("Python貓"); 娃弓。

Java的字符串只能寫在雙引號(hào)內(nèi)典格,不具備Python中單雙引號(hào)混用的靈活。至于三引號(hào)的多行字符串表示法台丛,Java程序員表示羨慕得要死耍缴,那種痛苦,受過折磨的人最懂挽霉。寫出來讓Python程序員開心一下:

String s = "Java 的多行字符串很麻煩防嗡,\n"
         + "既要使用換行符,\n"
         + "還需要使用加號(hào)拼接";

為什么Java不支持多行字符串炼吴、什么時(shí)候支持多行字符串本鸣?此類問題在Python程序員眼里,可能很費(fèi)解硅蹦,但它絕對(duì)能排進(jìn)“Java程序員最希望能實(shí)現(xiàn)的特性”的前列荣德。好不容易闷煤,官方有計(jì)劃在Java 11 實(shí)現(xiàn),但今年9月發(fā)布的Java 11 仍是沒有涮瞻,現(xiàn)在改計(jì)劃到Java 12 了鲤拿。

(2)單個(gè)字符與字符序列

Java中其實(shí)也有單引號(hào)的使用,用在char類型上署咽,例如char c = 'A'; 近顷。char是一種內(nèi)置類型,表示單個(gè)用Unicode編碼的字符宁否。Python中沒有char類型窒升,字符串類型通吃一切。

前面說到慕匠,Python的字符串是一種字符序列饱须,而Java的字符串并不是一種序列,要表示相近的概念的話台谊,就得用到字符數(shù)組 或者 字符串?dāng)?shù)組 蓉媳,例如:

char[] a = { 'a', 'b', 'c'};  
String[] str = new String[]{"1","2","3"}; 

字符數(shù)組和字符串?dāng)?shù)組是一種序列,但并不是字符串锅铅,它們之間如果要相互轉(zhuǎn)換酪呻,還是挺麻煩的。另外盐须,說是序列玩荠,但Java的序列操作絕對(duì)無(wú)法跟Python相比,別的不說丰歌,就上面提及的幾個(gè)基礎(chǔ)操作姨蟋,試問Java能否實(shí)現(xiàn)屉凯、實(shí)現(xiàn)起來要花費(fèi)多大力氣立帖?

最后來個(gè)Ending,關(guān)于“Python字符串到底是什么”就說到這啦悠砚,希望對(duì)你有所幫助晓勇。下次,我再跟大家說說“Python字符串到底怎么用”灌旧,敬請(qǐng)期待绑咱。


本文原創(chuàng)并首發(fā)于微信公眾號(hào)【Python貓】,后臺(tái)回復(fù)“愛學(xué)習(xí)”枢泰,免費(fèi)獲得20+本精選電子書描融。

拓展閱讀:

https://zh.wikipedia.org/wiki/Unicode

https://zh.wikipedia.org/wiki/UTF-8

https://dwz.cn/AvWg1EDx

https://yiyibooks.cn/xx/python_352/library/stdtypes.html

https://github.com/acmerfight/insight_python/blob/master/Unicode_and_Character_Sets.md

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市衡蚂,隨后出現(xiàn)的幾起案子窿克,更是在濱河造成了極大的恐慌骏庸,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,110評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件年叮,死亡現(xiàn)場(chǎng)離奇詭異具被,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)只损,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,443評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門一姿,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人跃惫,你說我怎么就攤上這事叮叹。” “怎么了爆存?”我有些...
    開封第一講書人閱讀 165,474評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵衬横,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我终蒂,道長(zhǎng)蜂林,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,881評(píng)論 1 295
  • 正文 為了忘掉前任拇泣,我火速辦了婚禮噪叙,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘霉翔。我一直安慰自己睁蕾,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,902評(píng)論 6 392
  • 文/花漫 我一把揭開白布债朵。 她就那樣靜靜地躺著子眶,像睡著了一般。 火紅的嫁衣襯著肌膚如雪序芦。 梳的紋絲不亂的頭發(fā)上臭杰,一...
    開封第一講書人閱讀 51,698評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音谚中,去河邊找鬼渴杆。 笑死,一個(gè)胖子當(dāng)著我的面吹牛宪塔,可吹牛的內(nèi)容都是我干的磁奖。 我是一名探鬼主播,決...
    沈念sama閱讀 40,418評(píng)論 3 419
  • 文/蒼蘭香墨 我猛地睜開眼某筐,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼比搭!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起南誊,我...
    開封第一講書人閱讀 39,332評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤身诺,失蹤者是張志新(化名)和其女友劉穎蔽莱,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體戚长,經(jīng)...
    沈念sama閱讀 45,796評(píng)論 1 316
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡盗冷,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,968評(píng)論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了同廉。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片仪糖。...
    茶點(diǎn)故事閱讀 40,110評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖迫肖,靈堂內(nèi)的尸體忽然破棺而出锅劝,到底是詐尸還是另有隱情,我是刑警寧澤蟆湖,帶...
    沈念sama閱讀 35,792評(píng)論 5 346
  • 正文 年R本政府宣布故爵,位于F島的核電站,受9級(jí)特大地震影響隅津,放射性物質(zhì)發(fā)生泄漏诬垂。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,455評(píng)論 3 331
  • 文/蒙蒙 一伦仍、第九天 我趴在偏房一處隱蔽的房頂上張望结窘。 院中可真熱鬧,春花似錦充蓝、人聲如沸隧枫。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,003評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)官脓。三九已至,卻和暖如春涝焙,著一層夾襖步出監(jiān)牢的瞬間卑笨,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,130評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工纱皆, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留湾趾,地道東北人芭商。 一個(gè)月前我還...
    沈念sama閱讀 48,348評(píng)論 3 373
  • 正文 我出身青樓派草,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親铛楣。 傳聞我的和親對(duì)象是個(gè)殘疾皇子近迁,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,047評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容