我們知道萌庆,Python2.X版本的字符串有兩種:字符串和Unicode字符串。因?yàn)檫@兩種字符串類型币旧,導(dǎo)致無(wú)數(shù)的本地化應(yīng)用出現(xiàn)字符串類型的錯(cuò)誤践险。而現(xiàn)在,Python3.0的字符串全部采納Unicode方案吹菱,并強(qiáng)化了b類型字符序列概念巍虫,并將字符序列和字符串進(jìn)行了區(qū)分,不能執(zhí)行+
操作鳍刷。
本地化編程
這個(gè)變化不但解決了長(zhǎng)久以來(lái)的字符串兼容問(wèn)題占遥,而且讓我們?cè)诰幊踢^(guò)程中可以使用非英文字符作為變量名,如下:
In [1]: 打印函數(shù) = print
In [2]: def 測(cè)試函數(shù)(變量): # 注意输瓜,函數(shù)的括號(hào)必須是半角的瓦胎,也就是英文輸入法下的括號(hào)
...: 打印函數(shù)(變量)
...:
In [3]: 名字 = 'Python3要翻天' # 空格芬萍、等號(hào)和引號(hào)也必須用半角的
In [4]: 測(cè)試函數(shù)(名字)
Python3要翻天
雖然在實(shí)際編程中,大部分情況下都使用英文作為變量名搔啊,但是不排除在教育行業(yè)以及本地化項(xiàng)目中使用這種編程風(fēng)格柬祠。
類型區(qū)別
雖然全面使用了unicode字符串,但是在Python解釋器中负芋,其類型的名稱已經(jīng)改成了str
漫蛔,以表示其普遍性。
字符串和字符序列的類型區(qū)別如下:
In [10]: a = '1'
In [11]: a.__class__
Out[11]: str
In [12]: b = b'1'
In [13]: b.__class__
Out[13]: bytes
In [14]: a + b
---------------------------------------------------------------------------
TypeError Traceback (most recent call last)
<ipython-input-22-f96fb8f649b6> in <module>()
----> 1 a + b
TypeError: Can't convert 'bytes' object to str implicitly
使用區(qū)別
字符串和字符序列被區(qū)分成文本和數(shù)據(jù)旧蛾,因此莽龟,在程序內(nèi)部交互中,使用字符串更加方便锨天,一旦需要進(jìn)行IO交互毯盈,則可能會(huì)使用到字符序列了。不過(guò)病袄,大部分接口支持接受字符串作為輸入搂赋,并自動(dòng)將其編碼為默認(rèn)編碼的字符序列。
示例如下:
In [15]: sys.getdefaultencoding() # 獲取平臺(tái)的默認(rèn)編碼
Out[15]: 'utf-8'
In [16]: with open('test.file', 'w') as f: ## 默認(rèn)編碼為平臺(tái)的默認(rèn)編碼
....: f.write('測(cè)試文本')
....:
In [17]: with open('test.file', 'wb') as f: ## 直接寫入字符序列陪拘,不用理會(huì)編碼問(wèn)題
....: f.write('測(cè)試文本'.encode('utf-8'))
....: