Unicode

????Unicode是一套國際通用的編碼標準,用于在不同的系統(tǒng)中表示和處理文本數(shù)據(jù)泽论。它讓你可以用同一種形式表示幾乎所有國家的所有語言桐罕,并且可對外部數(shù)據(jù)源進行讀寫操作,比如文本文件或者web頁面窒升。

? ? Swift的String和Character類型是完全兼容Unicode的,之前文章中也提過慕匠。

Unicode標量

? ? 本質上饱须,Swift中的String類型是通過Unicode標量創(chuàng)建的。一個Unicode標量是一個獨一無二的21位的數(shù)字台谊,代表了一個字符或者修飾符蓉媳。比如U+0061表示了LATIN SMALL LETTER A的a譬挚,U+1F425表示FRONT-FACING BABY CHICK??。

?? ?需要注意的是不是所有的21位的Unicode編碼單元都被分配給了一個字符酪呻,有一些是保留到未來分配的减宣。已經(jīng)被分配給字符使用的標量一般都有一個名字,比如上述例子中的LATIN SMALL LETTER AFRONT-FACING BABY CHICK。

NOTE:一個Unicode標量是一個編碼空間在[U+0000,U+D7FF] 或者[U+E000 ,U+10FFFF]中的任意編碼單元玩荠。Unicode不包含代理對漆腌,也就是處于編碼空間[U+D800, U+DFFF]中的編碼單元。

可擴展的字形集群

? ? Swift中的每一個Character實例都表示了一個單獨的可擴展的字形集群阶冈。一個可擴展的字形集群由一個或者多個Unicode標量組成闷尿,并可以生成人類可讀的字符。

? ??????let eAcute: Character = "\u{E9}" // é

????????let combinedEAcute: Character = "\u{65}\u{301}"? ? ? ? ? // e followed by ?

????????// eAcute is é, combinedEAcute is é

? ? 上面是一個例子女坑,字母é可以用單獨的Unicode標量表示(LATIN SMALL LETTER E WITH ACUTE, or U+00E9)填具,然而,字母é也可以用一對標量表示出來-----字母e(LATIN SMALL LETTER)后面跟隨一個字母???(COMBINING ACUTE ACCENT) 匆骗,也就是U+0065跟隨U+0301劳景。在標量COMBINING ACUTE ACCENT被Unicode文本渲染系統(tǒng)渲染的時候,他會以圖形化的方式作用于它前面的標量绰筛。把e變成é枢泰。

? ? 上面的兩個例子中,字母é都是用一個單獨的Character值來表示出字形集群铝噩。第一個例子衡蚂,集群包含了一個標量,第二個例子骏庸,包含了2個標量毛甲。

? ? 可擴展的字符集群增加了靈活性,是我們可以使用一個單獨的字符去表示很多復雜的腳本字符具被。比如玻募,韓國字母中的音節(jié)可以表示成一組被預分解或者分解后的元素。下面兩個字符在Swift中表示同一個字形:

? ??????let precomposed: Character = "\u{D55C}" // ?

????????let decomposed: Character = "\u{1112}\u{1161}\u{11AB}"? // ?, ?, ?

????????// precomposed is ?, decomposed is ?

? ? 可擴展的字符集群使可以包圍其他的標量一姿,使其稱為字符的一部分:

? ??????let enclosedEAcute: Character = "\u{E9}\u{20DD}"

????????// enclosedEAcute is é??? ??

地區(qū)指示符的Unicode標量可以被組合在一起七咧,生成一個新的字符,比如把REGIONAL INDICATOR SYMBOL LETTER U (U+1F1FA)和 REGIONAL INDICATOR SYMBOL LETTER S (U+1F1F8)組合在一起:

? ??????let regionalIndicatorForUS: Character = "\u{1F1FA}\u{1F1F8}"

????????// regionalIndicatorForUS is ????

字符的數(shù)量

要獲取String中character的數(shù)量,可以使用String的count屬性:

? ??????let unusualMenagerie = "Koala ??, Snail ??, Penguin ??, Dromedary ??"

????????print("unusualMenagerie has \(unusualMenagerie.count) characters")

????????// 打印 "unusualMenagerie has 40 characters

值得注意的是叮叹,由于Swift中Character對可擴展自信集群的使用艾栋,使得字符串的連接或修改并不一定會改變字符串中字符的數(shù)量。

????????var word = "cafe"

????????print("the number of characters in \(word) is \(word.count)")

????????// "the number of characters in cafe is 4"

????????word += "\u{301}"? ? // COMBINING ACUTE ACCENT, U+0301

????????print("the number of characters in \(word) is \(word.count)")

????????// "the number of characters in café is 4

? ? 例如蛉顽,你先使用4個字符cafe初始化了一個新的字符串蝗砾,然后在末尾拼接上字符COMBINING ACUTE ACCENT (U+0301),結果還是4個字符,因為第4個字符從e變成了é悼粮。

NOTE:可擴展的字形群可以有多個Unicode標量組成闲勺,這就意味著不同的字符或者字符相同代表的結果卻不同,需要存儲的內存也不一樣扣猫。因此菜循,Swift中,字符串中的字符所占的內存不都是一樣的。這就導致了如果不遍歷字符串就無法確定字形群的邊界,也就無法確定字符串中字符的數(shù)量苞笨。如果你正在處理特別長的字符串债朵,注意count屬性需要遍歷整個字符串的Unicode標量以確定字符串的字符數(shù)量子眶。

擁有相同字符的NSString的length和count返回的字符的數(shù)量不總是相同的瀑凝。NSString的length是基于Utf-16的,也就是16位的代碼單元臭杰,而不是String中可擴展字形群粤咪。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市渴杆,隨后出現(xiàn)的幾起案子寥枝,更是在濱河造成了極大的恐慌,老刑警劉巖磁奖,帶你破解...
    沈念sama閱讀 210,978評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡庸毫,警方通過查閱死者的電腦和手機爹凹,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,954評論 2 384
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來身诺,“玉大人蜜托,你說我怎么就攤上這事∶股模” “怎么了橄务?”我有些...
    開封第一講書人閱讀 156,623評論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長穴亏。 經(jīng)常有香客問我蜂挪,道長,這世上最難降的妖魔是什么嗓化? 我笑而不...
    開封第一講書人閱讀 56,324評論 1 282
  • 正文 為了忘掉前任棠涮,我火速辦了婚禮,結果婚禮上蟆湖,老公的妹妹穿的比我還像新娘故爵。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 65,390評論 5 384
  • 文/花漫 我一把揭開白布诬垂。 她就那樣靜靜地躺著劲室,像睡著了一般。 火紅的嫁衣襯著肌膚如雪结窘。 梳的紋絲不亂的頭發(fā)上很洋,一...
    開封第一講書人閱讀 49,741評論 1 289
  • 那天,我揣著相機與錄音隧枫,去河邊找鬼喉磁。 笑死,一個胖子當著我的面吹牛官脓,可吹牛的內容都是我干的协怒。 我是一名探鬼主播,決...
    沈念sama閱讀 38,892評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼卑笨,長吁一口氣:“原來是場噩夢啊……” “哼孕暇!你這毒婦竟也來了?” 一聲冷哼從身側響起赤兴,我...
    開封第一講書人閱讀 37,655評論 0 266
  • 序言:老撾萬榮一對情侶失蹤妖滔,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后桶良,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體座舍,經(jīng)...
    沈念sama閱讀 44,104評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,451評論 2 325
  • 正文 我和宋清朗相戀三年陨帆,在試婚紗的時候發(fā)現(xiàn)自己被綠了曲秉。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,569評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡歧譬,死狀恐怖岸浑,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情瑰步,我是刑警寧澤矢洲,帶...
    沈念sama閱讀 34,254評論 4 328
  • 正文 年R本政府宣布,位于F島的核電站缩焦,受9級特大地震影響读虏,放射性物質發(fā)生泄漏。R本人自食惡果不足惜袁滥,卻給世界環(huán)境...
    茶點故事閱讀 39,834評論 3 312
  • 文/蒙蒙 一盖桥、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧题翻,春花似錦揩徊、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,725評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽熄赡。三九已至,卻和暖如春齿税,著一層夾襖步出監(jiān)牢的瞬間彼硫,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,950評論 1 264
  • 我被黑心中介騙來泰國打工凌箕, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留拧篮,地道東北人。 一個月前我還...
    沈念sama閱讀 46,260評論 2 360
  • 正文 我出身青樓牵舱,卻偏偏與公主長得像串绩,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子仆葡,可洞房花燭夜當晚...
    茶點故事閱讀 43,446評論 2 348

推薦閱讀更多精彩內容

  • 在當前這個時代(比如說公元2016年)赏参,如果你并不是在維護歷史遺留的文本處理代碼志笼,沒有在每個地方都使用Unicod...
    縱橫而樂閱讀 2,755評論 3 16
  • 居然不能用整數(shù)下標隨機訪問沿盅? 第一次使用Swift字符串之前,已經(jīng)習慣了C纫溃,C++直接通過下標隨機訪問字符串數(shù)組的...
    ameerkat閱讀 5,677評論 1 4
  • Unicode?標準附錄#9 UNICODE雙向算法#### 摘要#### 本附件是一份關于字符定位的規(guī)范腰涧,主要描...
    Eriice閱讀 4,682評論 0 6
  • 注:本翻譯使用符號「」來突出某些可能會產(chǎn)生歧義的名詞。目前狀態(tài):勘誤中紊浩。 Unicode?標準附錄#9 UNICO...
    Eriice閱讀 2,023評論 0 1
  • 一天天的天氣實在讓人難以消受窖铡。 已經(jīng)接近體溫了。 鹽城龍卷風的消息讓人難過坊谁。 老家徐州離鹽城不遠费彼。這次災難遇難98...
    安星閱讀 108評論 0 0