Java視角看字符

我們從一個簡單的例子開始主題:

簡單例子

輸入的結果為2可能會讓你意想不到葡幸,接下來請跟隨我尋找答案沈自。

Returns the length of this string. The length is equal to the number of?Unicode code units?in the string.

以上是String的length()接口的定義,length返回的是字符串中unicode格式的代碼單元個數(shù)。既然跟字符串有關疼蛾,我們就從Java字符串對象String作為突破入口。

1艺配、String與字符

翻開String的類說明察郁,我發(fā)現(xiàn)以下有關聯(lián)的信息

The?String?class represents character strings.

String是由一串字符(Character)組成的,翻開源碼你會發(fā)現(xiàn)String里的value類型是char[ ]转唉,印證這一點.

A?String?represents a string in the UTF-16 format in which?supplementary characters?are represented by?surrogate pairs?(see the section?Unicode Character Representations?in the?Character?class for more information). Index values refer to?char?code units, so a supplementary character uses two positions in a?String.

Java使用UTF-16的?supplementary characters 來實現(xiàn)?surrogate pairs皮钠。surrogate pairs字面是成對的意思,一個supplementary字符占用兩個代碼單元赠法,這里已經能回答開篇的結果了麦轰,具體可以參考我的淺談unicode

2砖织、字符

The?Character?class wraps a value of the primitive type?char?in an object. An object of type?Character?contains a single field whose type is?char.

In addition, this class provides several methods for determining a character's category (lowercase letter, digit, etc.) and for converting characters from uppercase to lowercase and vice versa.

Character information is based on the Unicode Standard, version 6.2.0.

Java的字符是使用了Character類表示的款侵,對應的基本類型是char。Character會提供一些便捷函數(shù)如:大小寫判斷侧纯,是否為數(shù)字新锈,大小寫轉換等等。Character的規(guī)范是基于Unicode的標準眶熬。(因為上面的注釋來源于jdk8妹笆,對應的標準版本是6.2.0,具體每個jdk版本對應的unicode版本娜氏,可以到unicode的官網(wǎng)查閱)

到這里我們得到一個很關鍵的信息拳缠,Java的字符實現(xiàn)是基于unicode標準。Java的Character也在一定程度上對surrogate pairs支持贸弥,如:isHighSurrogate窟坐、isLowSurrogate、isSupplementaryCodePoint等。

3狸涌、一個字 = 幾個字符切省?

一個字到底占幾個字符呢?或者說一個字占幾個字節(jié)帕胆?這個問題是經常被提及的朝捆。這個問題在unicode的規(guī)范里(其他的就不好說了)BMP(包括大部分漢字)下,一個字 = 一個字符(由于unicode的字符是16bit懒豹,等價于2字節(jié))芙盘,而通過surrogate pairs支持的Plane下 一個字 = 兩個字符(4個字節(jié))。

4脸秽、結束

surrogate pairs規(guī)范中儒老,是固定了區(qū)間來標識高低surrogates的,那么JavaAPI中记餐,StringBuffer, StringBuilder的reverse操作會判斷這類情況驮樊,不會對這些surrogates pairs進行倒置操作。保證了語義正確片酝。但很不幸的是:在倒置字符串的操作下囚衔,可能把非surrogates pairs的字符串變?yōu)?i>surrogates pairs。這里雖然很少遇到雕沿,但理論上是確實可能遇到的练湿。本篇到這里已經結束,如有問題請給我留言审轮,謝謝你的閱讀肥哎。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市疾渣,隨后出現(xiàn)的幾起案子篡诽,更是在濱河造成了極大的恐慌,老刑警劉巖榴捡,帶你破解...
    沈念sama閱讀 221,635評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件霞捡,死亡現(xiàn)場離奇詭異,居然都是意外死亡薄疚,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,543評論 3 399
  • 文/潘曉璐 我一進店門赊琳,熙熙樓的掌柜王于貴愁眉苦臉地迎上來街夭,“玉大人,你說我怎么就攤上這事躏筏“謇觯” “怎么了?”我有些...
    開封第一講書人閱讀 168,083評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長埃碱。 經常有香客問我猖辫,道長,這世上最難降的妖魔是什么砚殿? 我笑而不...
    開封第一講書人閱讀 59,640評論 1 296
  • 正文 為了忘掉前任啃憎,我火速辦了婚禮,結果婚禮上似炎,老公的妹妹穿的比我還像新娘辛萍。我一直安慰自己,他們只是感情好羡藐,可當我...
    茶點故事閱讀 68,640評論 6 397
  • 文/花漫 我一把揭開白布贩毕。 她就那樣靜靜地躺著,像睡著了一般仆嗦。 火紅的嫁衣襯著肌膚如雪辉阶。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,262評論 1 308
  • 那天瘩扼,我揣著相機與錄音谆甜,去河邊找鬼。 笑死邢隧,一個胖子當著我的面吹牛店印,可吹牛的內容都是我干的。 我是一名探鬼主播倒慧,決...
    沈念sama閱讀 40,833評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼按摘,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了纫谅?” 一聲冷哼從身側響起炫贤,我...
    開封第一講書人閱讀 39,736評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎付秕,沒想到半個月后兰珍,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 46,280評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡询吴,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,369評論 3 340
  • 正文 我和宋清朗相戀三年掠河,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片猛计。...
    茶點故事閱讀 40,503評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡唠摹,死狀恐怖,靈堂內的尸體忽然破棺而出奉瘤,到底是詐尸還是另有隱情勾拉,我是刑警寧澤,帶...
    沈念sama閱讀 36,185評論 5 350
  • 正文 年R本政府宣布,位于F島的核電站藕赞,受9級特大地震影響成肘,放射性物質發(fā)生泄漏。R本人自食惡果不足惜斧蜕,卻給世界環(huán)境...
    茶點故事閱讀 41,870評論 3 333
  • 文/蒙蒙 一双霍、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧惩激,春花似錦店煞、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,340評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至骡技,卻和暖如春鸣个,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背布朦。 一陣腳步聲響...
    開封第一講書人閱讀 33,460評論 1 272
  • 我被黑心中介騙來泰國打工囤萤, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人是趴。 一個月前我還...
    沈念sama閱讀 48,909評論 3 376
  • 正文 我出身青樓涛舍,卻偏偏與公主長得像,于是被迫代替她去往敵國和親唆途。 傳聞我的和親對象是個殘疾皇子富雅,可洞房花燭夜當晚...
    茶點故事閱讀 45,512評論 2 359

推薦閱讀更多精彩內容