深入剖析go中字符串的編碼問題——特殊字符的string怎么轉byte痊硕?

前言

前段時間發(fā)表了Go中的HTTP請求之——HTTP1.1請求流程分析场钉,所以這兩天本來打算研究HTTP2.0的請求源碼,結果發(fā)現(xiàn)太復雜就跑去逛知乎了敢辩,然后就發(fā)現(xiàn)了一個非常有意思的提問“golang 特殊字符的string怎么轉成[]byte?”蔽莱。為了轉換一下心情, 便有了此篇文章戚长。

問題

原問題我就不碼字了盗冷,直接上圖:

看到問題,我的第一反應是ASCII碼值范圍應該是0~127呀同廉,怎么會超過127呢仪糖?直到實際運行的時候才發(fā)現(xiàn)上圖的特殊字符是‘?’(如果無法展示,記住該特殊字符的unicode是\u0081)迫肖,并不是英文中的句號锅劝。

unicode和utf-8的恩怨糾葛

百度百科已經(jīng)把unicode和utf-8介紹的很詳細了,所以這里就不做過多的闡述蟆湖,僅摘抄部分和本文相關的定義:

  • Unicode為每個字符設定了統(tǒng)一并且唯一的二進制編碼故爵,通常用兩個字節(jié)表示一個字符
  • UTF-8是針對Unicode的一種可變長度字符編碼隅津。它可以用來表示Unicode標準中的任何字符稠集。UTF-8的特點是對不同范圍的字符使用不同長度的編碼。對于0x00-0x7F之間的字符饥瓷,UTF-8編碼與ASCII編碼完全相同剥纷。

go中的字符

眾所周知,go中能表示字符的有兩種類型呢铆,分別是byterune晦鞋,byte和rune的定義分別是:type byte = uint8type rune = int32

uint8范圍是0-255棺克,只能夠表示有限個unicode字符悠垛,超過255的范圍就會編譯報錯。根據(jù)上述關于unicode的定義娜谊,4字節(jié)的rune完全兼容兩字節(jié)的unicode确买。

我們用下面的代碼來驗證:

var (
        c1 byte = 'a'
        c2 byte = '新'
        c3 rune = '新'
    )
    fmt.Println(c1, c2, c3)

上述的程序根本無法運行,因為第二行編譯會報錯纱皆,vscode給到了十分詳細的提示:'新' (untyped rune constant 26032) overflows byte湾趾。

接下來芭商,我們通過下面的代碼來驗證字符unicode和整型的等價關系:

    fmt.Printf("0x%x, %d\n", '?', '?') //輸出:0x81, 129
    fmt.Println(0x81 == '?', '\u0081' == '?', 129 == '?') // 輸出:true true true
    //\u0081輸出到屏幕上后不展示, 所以換了大寫字母A來輸出
    fmt.Printf("%c\n", 65) // 輸出:A

根據(jù)上面的代碼輸出的3個true可以知道搀缠,字符和unicode和整形是等價铛楣,并且整型也能轉回字符的表現(xiàn)形式。

go中的字符串是utf8編碼的

根據(jù)golang官方博客https://blog.golang.org/strings的原文:


Go source code is always UTF-8.
A string holds arbitrary bytes.
A string literal, absent byte-level escapes, always holds valid UTF-8 sequences.

翻譯整理過來其實也就是兩點:

  1. go中的代碼總是用utf8編碼艺普,并且字符串能夠存儲任何字節(jié)簸州。
  2. 沒有經(jīng)過字節(jié)級別的轉義,那么字符串是一個標準的utf8序列歧譬。

有了前面的基礎知識和字符串是一個標準的utf8序列這一結論后我們接下來對字符串“?”(如果無法展示岸浑,記住該特殊字符的unicode是\u0081)手動編碼。

Unicode到UTF-8的編碼方對照表:

Unicode編碼(十六進制) UTF-8 字節(jié)流(二進制)
000000-00007F 0xxxxxxx
000080-0007FF 110xxxxx 10xxxxxx
000800-00FFFF 1110xxxx 10xxxxxx 10xxxxxx
010000-10FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

字符‘?’(如果無法展示瑰步,記住該特殊字符的unicode是\u0081)的二進制表示為10000001矢洲,16進制表示為0x81

根據(jù)unicode轉utf8的對照表面氓,0x7f < 0x81 < 0x7ff兵钮,所以此特殊字符需占兩個字節(jié)蛆橡,并且要套用的utf8模版是110xxxxx 10xxxxxx舌界。

我們按照下面的步驟對10000001轉為utf8的二進制序列:

第一步:根據(jù)x數(shù)量對特殊字符的高位補0。x的數(shù)量是11泰演,所以需要對特殊字符的高位補3個0呻拌,此時特殊字符的二進制表示為:00010000001

第二步:x有兩個部分睦焕,且長度分別是5和6藐握,所以對00010000001由底位向高位分別截取6位和5位,得到00000100010垃喊。

第三步:將00000100010由低位向高位填充至模版110xxxxx 10xxxxxx猾普,可得到utf8的二進制序列為:11000010 10000001

我們通過go對二進制轉為整型:

fmt.Printf("%d, %d\n", 0b11000010, 0b10000001)
// 輸出:194, 129

綜上:當用字符轉字節(jié)時輸出的是字符本身的整型值本谜,當用字符串轉字節(jié)切片時初家,實際上是輸出的是utf8的字節(jié)切片序列(go中的字符串存儲的就是utf8字節(jié)切片)。此時乌助,我們回顧一下最開始的問題溜在,就會發(fā)現(xiàn)輸出是完全符合預期的。

go中的rune

筆者在這里猜測提問者期望的結果是“字符串轉字節(jié)切片和字符轉字節(jié)的結果保持一致”他托,這時rune就派上用場了掖肋,我們看看使用rune的效果:

fmt.Println([]rune("?"))
// 輸出:[129]

由上可知用rune切片去轉字符串時,它是直接將每個字符轉為對應的unicode赏参。

我們通過下面的代碼模擬字符串轉為[]rune切片和[]rune切片轉為字符串的過程:

字符串轉為rune切片:

    // 字符串直接轉為[]rune切片
    for _, v := range []rune("新世界雜貨鋪") {
        fmt.Printf("%x ", v)
    }
    fmt.Println()
    bs := []byte("新世界雜貨鋪")
    for len(bs) > 0 {
        r, w := utf8.DecodeRune(bs)
        fmt.Printf("%x ", r)
        bs = bs[w:]
    }
    fmt.Println()
    // 輸出:
    // 65b0 4e16 754c 6742 8d27 94fa
    // 65b0 4e16 754c 6742 8d27 94fa

上述代碼中utf8.DecodeRune的作用是通過傳入的utf8字節(jié)序列轉為一個rune即unicode志笼。

rune切片轉為字符串:

    // rune切片轉為字符串
    rs := []rune{0x65b0, 0x4e16, 0x754c, 0x6742, 0x8d27, 0x94fa}
    fmt.Println(string(rs))
    utf8bs := make([]byte, 0)
    for _, r := range rs {
        bs := make([]byte, 4)
        w := utf8.EncodeRune(bs, r)
        utf8bs = append(utf8bs, bs[:w]...)
    }
    fmt.Println(string(utf8bs))
    // 輸出:
    // 新世界雜貨鋪
    // 新世界雜貨鋪

上述代碼中utf8.EncodeRune的作用是將一個rune轉為utf8字節(jié)序列沿盅。

綜上:對于無法確定字符串中僅有單字節(jié)的字符的情況, 請使用rune籽腕,每一個rune類型代表一個unicode字符嗡呼,并且它可以和字符串做無縫切換。

理解go中的字符串其實是字節(jié)切片

前面已經(jīng)提到了字符串能夠存儲任意字節(jié)數(shù)據(jù)皇耗,而且是一個標準的utf8格式的字節(jié)切片南窗。那么本節(jié)將會通過代碼來加深印象。

    fmt.Println([]byte("新世界雜貨鋪"))
    s := "新世界雜貨鋪"
    for i := 0; i < len(s); i++ {
        fmt.Print(s[i], " ")
    }
    fmt.Println()
    // 輸出:
    // [230 150 176 228 184 150 231 149 140 230 157 130 232 180 167 233 147 186]
    // 230 150 176 228 184 150 231 149 140 230 157 130 232 180 167 233 147 186

由上述的代碼可知郎楼,我們通過游標按字節(jié)訪問字符串得到的結果和字符串轉為字節(jié)切片是一樣的万伤,因此可以再次確認字符串和字節(jié)切片是等價的。

通常情況下我們的字符串都是標準utf8格式的字節(jié)切片呜袁,但這并不是說明字符串只能存儲utf8格式的字節(jié)切片敌买,go中的字符串可以存儲任意的字節(jié)數(shù)據(jù)


    bs := []byte{65, 73, 230, 150, 176, 255}
    fmt.Println(string(bs))         // 將隨機的字節(jié)切片轉為字符串
    fmt.Println([]byte(string(bs))) // 將字符串再次轉回字節(jié)切片

    rs := []rune(string(bs)) // 將字符串轉為字節(jié)rune切片
    fmt.Println(rs)          // 輸出rune切片
    fmt.Println(string(rs))  // 將rune切片轉為字符串

    for len(bs) > 0 {
        r, w := utf8.DecodeRune(bs)
        fmt.Printf("%d: 0x%x ", r, r) // 輸出rune的值和其對應的16進制
        bs = bs[w:]
    }
    fmt.Println()
    fmt.Println([]byte(string(rs))) // 將rune切片轉為字符串后再次轉為字節(jié)切片
    // 輸出:
    // AI新?
    // [65 73 230 150 176 255]
    // [65 73 26032 65533]
    // AI新?
    // 65: 0x41 73: 0x49 26032: 0x65b0 65533: 0xfffd 
    // [65 73 230 150 176 239 191 189]

仔細閱讀上面的代碼和輸出阶界,前5行的輸出應該是沒有疑問的虹钮。但是第6行輸出卻和預期有出入。

前面提到了字符串可以存儲任意的字節(jié)數(shù)據(jù)膘融,那如果存儲的字節(jié)數(shù)據(jù)不是標準的utf8字節(jié)切片就會出現(xiàn)上面的問題芙粱。

我們已經(jīng)知道通過utf8.DecodeRune可以將字節(jié)切片轉為rune。那如果碰到不符合utf8編碼規(guī)范的字節(jié)切片時氧映,utf8.DecodeRune會返回一個容錯的unicode\uFFFD春畔,這個unicode對應上面輸出的16進制0xfffd

問題也就出現(xiàn)在這個容錯的unicode\uFFFD上岛都,因為字節(jié)切片不符合utf8編碼規(guī)范無法得到正確的unicode律姨,既\uFFFD占據(jù)了本應該是正確的unicode所在的位置。這個時候再將已經(jīng)含有容錯字符的rune切片轉為字符串時臼疫,字符串存儲的就是合法的utf8字節(jié)切片了择份,因此第六行輸出的是含有\uFFFD的合法utf8字節(jié)切片,也就產(chǎn)生了和最初始的字節(jié)切片不一致的情況了烫堤。

??:在平時的開發(fā)中要注意rune切片和byte切片的相互轉換一定要基于沒有亂碼的字符串(內部是符合utf8編碼規(guī)則的字節(jié)切片)荣赶,否則容易出現(xiàn)上述類似的錯誤

字符串的多種表示方式

本節(jié)算是擴展了塔逃,在開發(fā)中還是盡量別用這種特殊的表示方式讯壶,雖然看起來很高級但是可讀性太差。

下面直接看代碼:

    bs := []byte([]byte("新"))
    for i := 0; i < len(bs); i++ {
        fmt.Printf("0x%x ", bs[i])
    }
    fmt.Println()
    fmt.Println("\xe6\x96\xb0")
    fmt.Println("\xe6\x96\xb0世界雜貨鋪" == "新世界雜貨鋪")
    fmt.Println('\u65b0' == '新')
    fmt.Println("\u65b0世界雜貨鋪" == "新世界雜貨鋪")
    // 輸出:
    // 0xe6 0x96 0xb0 
    // 新
    // true
    // true
    // true

目前筆者僅發(fā)現(xiàn)unicode和單字節(jié)的16進制可以直接用在字符串中湾盗, 歡迎讀者提供更多的表示方式以供交流伏蚊。

最后,祝大家讀完此篇文章后能夠有所收獲格粪。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
禁止轉載躏吊,如需轉載請通過簡信或評論聯(lián)系作者氛改。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市比伏,隨后出現(xiàn)的幾起案子胜卤,更是在濱河造成了極大的恐慌,老刑警劉巖赁项,帶你破解...
    沈念sama閱讀 217,277評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件葛躏,死亡現(xiàn)場離奇詭異,居然都是意外死亡悠菜,警方通過查閱死者的電腦和手機舰攒,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評論 3 393
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來悔醋,“玉大人摩窃,你說我怎么就攤上這事》医荆” “怎么了猾愿?”我有些...
    開封第一講書人閱讀 163,624評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長账阻。 經(jīng)常有香客問我蒂秘,道長,這世上最難降的妖魔是什么宰僧? 我笑而不...
    開封第一講書人閱讀 58,356評論 1 293
  • 正文 為了忘掉前任材彪,我火速辦了婚禮观挎,結果婚禮上琴儿,老公的妹妹穿的比我還像新娘。我一直安慰自己嘁捷,他們只是感情好造成,可當我...
    茶點故事閱讀 67,402評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著雄嚣,像睡著了一般晒屎。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上缓升,一...
    開封第一講書人閱讀 51,292評論 1 301
  • 那天鼓鲁,我揣著相機與錄音,去河邊找鬼港谊。 笑死骇吭,一個胖子當著我的面吹牛,可吹牛的內容都是我干的歧寺。 我是一名探鬼主播燥狰,決...
    沈念sama閱讀 40,135評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼棘脐,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了龙致?” 一聲冷哼從身側響起蛀缝,我...
    開封第一講書人閱讀 38,992評論 0 275
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎目代,沒想到半個月后屈梁,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,429評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡榛了,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,636評論 3 334
  • 正文 我和宋清朗相戀三年俘闯,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片忽冻。...
    茶點故事閱讀 39,785評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡真朗,死狀恐怖,靈堂內的尸體忽然破棺而出僧诚,到底是詐尸還是另有隱情遮婶,我是刑警寧澤,帶...
    沈念sama閱讀 35,492評論 5 345
  • 正文 年R本政府宣布湖笨,位于F島的核電站旗扑,受9級特大地震影響,放射性物質發(fā)生泄漏慈省。R本人自食惡果不足惜臀防,卻給世界環(huán)境...
    茶點故事閱讀 41,092評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望边败。 院中可真熱鬧袱衷,春花似錦、人聲如沸笑窜。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽排截。三九已至嫌蚤,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間断傲,已是汗流浹背脱吱。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留认罩,地道東北人箱蝠。 一個月前我還...
    沈念sama閱讀 47,891評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親抡锈。 傳聞我的和親對象是個殘疾皇子疾忍,可洞房花燭夜當晚...
    茶點故事閱讀 44,713評論 2 354