????Unicode是一套國際通用的編碼標準,用于在不同的系統(tǒng)中表示和處理文本數(shù)據(jù)泽论。它讓你可以用同一種形式表示幾乎所有國家的所有語言桐罕,并且可對外部數(shù)據(jù)源進行讀寫操作,比如文本文件或者web頁面窒升。
? ? Swift的String和Character類型是完全兼容Unicode的,之前文章中也提過慕匠。
Unicode標量
? ? 本質上饱须,Swift中的String類型是通過Unicode標量創(chuàng)建的。一個Unicode標量是一個獨一無二的21位的數(shù)字台谊,代表了一個字符或者修飾符蓉媳。比如U+0061表示了LATIN SMALL LETTER A的a譬挚,U+1F425表示FRONT-FACING BABY CHICK??。
?? ?需要注意的是不是所有的21位的Unicode編碼單元都被分配給了一個字符酪呻,有一些是保留到未來分配的减宣。已經(jīng)被分配給字符使用的標量一般都有一個名字,比如上述例子中的LATIN SMALL LETTER A和FRONT-FACING BABY CHICK。
NOTE:一個Unicode標量是一個編碼空間在[U+0000,U+D7FF] 或者[U+E000 ,U+10FFFF]中的任意編碼單元玩荠。Unicode不包含代理對漆腌,也就是處于編碼空間[U+D800, U+DFFF]中的編碼單元。
可擴展的字形集群
? ? Swift中的每一個Character實例都表示了一個單獨的可擴展的字形集群阶冈。一個可擴展的字形集群由一個或者多個Unicode標量組成闷尿,并可以生成人類可讀的字符。
? ??????let eAcute: Character = "\u{E9}" // é
????????let combinedEAcute: Character = "\u{65}\u{301}"? ? ? ? ? // e followed by ?
????????// eAcute is é, combinedEAcute is é
? ? 上面是一個例子女坑,字母é可以用單獨的Unicode標量表示(LATIN SMALL LETTER E WITH ACUTE, or U+00E9)填具,然而,字母é也可以用一對標量表示出來-----字母e(LATIN SMALL LETTER)后面跟隨一個字母???(COMBINING ACUTE ACCENT) 匆骗,也就是U+0065跟隨U+0301劳景。在標量COMBINING ACUTE ACCENT被Unicode文本渲染系統(tǒng)渲染的時候,他會以圖形化的方式作用于它前面的標量绰筛。把e變成é枢泰。
? ? 上面的兩個例子中,字母é都是用一個單獨的Character值來表示出字形集群铝噩。第一個例子衡蚂,集群包含了一個標量,第二個例子骏庸,包含了2個標量毛甲。
? ? 可擴展的字符集群增加了靈活性,是我們可以使用一個單獨的字符去表示很多復雜的腳本字符具被。比如玻募,韓國字母中的音節(jié)可以表示成一組被預分解或者分解后的元素。下面兩個字符在Swift中表示同一個字形:
? ??????let precomposed: Character = "\u{D55C}" // ?
????????let decomposed: Character = "\u{1112}\u{1161}\u{11AB}"? // ?, ?, ?
????????// precomposed is ?, decomposed is ?
? ? 可擴展的字符集群使可以包圍其他的標量一姿,使其稱為字符的一部分:
? ??????let enclosedEAcute: Character = "\u{E9}\u{20DD}"
????????// enclosedEAcute is é??? ??
地區(qū)指示符的Unicode標量可以被組合在一起七咧,生成一個新的字符,比如把REGIONAL INDICATOR SYMBOL LETTER U (U+1F1FA)和 REGIONAL INDICATOR SYMBOL LETTER S (U+1F1F8)組合在一起:
? ??????let regionalIndicatorForUS: Character = "\u{1F1FA}\u{1F1F8}"
????????// regionalIndicatorForUS is ????
字符的數(shù)量
要獲取String中character的數(shù)量,可以使用String的count屬性:
? ??????let unusualMenagerie = "Koala ??, Snail ??, Penguin ??, Dromedary ??"
????????print("unusualMenagerie has \(unusualMenagerie.count) characters")
????????// 打印 "unusualMenagerie has 40 characters
值得注意的是叮叹,由于Swift中Character對可擴展自信集群的使用艾栋,使得字符串的連接或修改并不一定會改變字符串中字符的數(shù)量。
????????var word = "cafe"
????????print("the number of characters in \(word) is \(word.count)")
????????// "the number of characters in cafe is 4"
????????word += "\u{301}"? ? // COMBINING ACUTE ACCENT, U+0301
????????print("the number of characters in \(word) is \(word.count)")
????????// "the number of characters in café is 4
? ? 例如蛉顽,你先使用4個字符cafe初始化了一個新的字符串蝗砾,然后在末尾拼接上字符COMBINING ACUTE ACCENT (U+0301),結果還是4個字符,因為第4個字符從e變成了é悼粮。
NOTE:可擴展的字形群可以有多個Unicode標量組成闲勺,這就意味著不同的字符或者字符相同代表的結果卻不同,需要存儲的內存也不一樣扣猫。因此菜循,Swift中,字符串中的字符所占的內存不都是一樣的。這就導致了如果不遍歷字符串就無法確定字形群的邊界,也就無法確定字符串中字符的數(shù)量苞笨。如果你正在處理特別長的字符串债朵,注意count屬性需要遍歷整個字符串的Unicode標量以確定字符串的字符數(shù)量子眶。
擁有相同字符的NSString的length和count返回的字符的數(shù)量不總是相同的瀑凝。NSString的length是基于Utf-16的,也就是16位的代碼單元臭杰,而不是String中可擴展字形群粤咪。