1. 美國人首先對英文字符編成ASCII碼脂新,用一個字節(jié)中的低7位表示英文128個字符,高1位統(tǒng)一為0
2. 歐洲人字母上存在注音符谒府,128位不夠用拼坎,即采用高1位,最多可表示256位
3. 不同國家字符編碼不一致完疫,雖然0--127表示的符號是一樣的泰鸡,但是128--255的含義不一致,例:135在法語趋惨,希伯來語鸟顺,俄語編碼中完全是不同的符號。
4.中國有10萬多個漢字器虾,256也不夠用讯嫂,于是產(chǎn)生了GB2312漢字編碼,用2個字節(jié)表示絕大部分的常用漢字兆沙,最多可以表示65536個漢字字符
5. 由于每個國家字符集編碼不同欧芽,為了保證全世界通用性,產(chǎn)生了Unicode編碼葛圃,它將每一個符號都給予一個獨一無二的編碼千扔,現(xiàn)在Unicode可以容納100多萬個符號,每個符號的編碼都不一樣
6. Unicode 編碼 雖然統(tǒng)一了全世界字符的二進制編碼库正,但沒有規(guī)定如何存儲曲楚,如果Unicode統(tǒng)一規(guī)定每個符號用三個或四個字節(jié)表示,那么每個英文字母前都必然有二到三個字節(jié)是0褥符,文本文件的大小會大二三倍龙誊,這對于存儲來說是極大的浪費
7. Utf-8則是Unicode最重要的實現(xiàn)方式之一,另外還有utf-16喷楣、utf-32等趟大。UTF-8是一種變長的編碼方式,它可以使用1~4個字節(jié)表示一個符號铣焊,根據(jù)不同的符號而變化字節(jié)長度逊朽。這是種比較巧妙的設(shè)計,如果一個字節(jié)的第一位是0曲伊,則這個字節(jié)單獨就是一個字符叽讳;如果第一位是1,則連續(xù)有多少個1坟募,就表示當前字符占用多少個字節(jié)绽榛。?
8. 注意unicode的字符編碼和utf-8的存儲編碼表示是不同的,例如"嚴"字的Unicode碼是4E25婿屹,UTF-8編碼是E4B8A5灭美,UTF-8編碼不僅考慮了編碼,還考慮了存儲昂利,E4B8A5是在存儲識別編碼的基礎(chǔ)上塞進了4E25届腐。?
9.UTF-8 使用一至四個字節(jié)為每個字符編碼。128 個 ASCII 字符(Unicode 范圍由 U+0000 至 U+007F)只需一個字節(jié)蜂奸,帶有變音符號的拉丁文犁苏、希臘文、西里爾字母扩所、亞美尼亞語围详、希伯來文、阿拉伯文、敘利亞文及馬爾代夫語(Unicode 范圍由 U+0080 至 U+07FF)需要二個字節(jié)助赞,其他基本多文種平面(BMP)中的字符(CJK屬于此類-Qieqie注)使用三個字節(jié)买羞,其他 Unicode 輔助平面的字符使用四字節(jié)編碼。?
10.通常中文漢字在utf-8中是3個字節(jié)雹食,最常見的編碼方式是1110xxxx 10xxxxxx 10xxxxxx畜普。
UTF-8編碼發(fā)展歷史
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
- 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來蟹瘾,“玉大人圾浅,你說我怎么就攤上這事『镀樱” “怎么了狸捕?”我有些...
- 文/不壞的土叔 我叫張陵,是天一觀的道長众雷。 經(jīng)常有香客問我灸拍,道長,這世上最難降的妖魔是什么砾省? 我笑而不...
- 正文 為了忘掉前任鸡岗,我火速辦了婚禮,結(jié)果婚禮上编兄,老公的妹妹穿的比我還像新娘轩性。我一直安慰自己,他們只是感情好狠鸳,可當我...
- 文/花漫 我一把揭開白布揣苏。 她就那樣靜靜地躺著,像睡著了一般件舵。 火紅的嫁衣襯著肌膚如雪卸察。 梳的紋絲不亂的頭發(fā)上,一...
- 文/蒼蘭香墨 我猛地睜開眼壳澳,長吁一口氣:“原來是場噩夢啊……” “哼岂贩!你這毒婦竟也來了茫经?” 一聲冷哼從身側(cè)響起巷波,我...
- 正文 年R本政府宣布芯咧,位于F島的核電站牙捉,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏敬飒。R本人自食惡果不足惜邪铲,卻給世界環(huán)境...
- 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望无拗。 院中可真熱鬧带到,春花似錦、人聲如沸英染。這莊子的主人今日做“春日...
- 文/蒼蘭香墨 我抬頭看了看天上的太陽税迷。三九已至永丝,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間箭养,已是汗流浹背慕嚷。 一陣腳步聲響...
推薦閱讀更多精彩內(nèi)容
- 背景 很久很久以前,美國人發(fā)明了計算機琐脏。計算機存儲數(shù)據(jù)的基本單位叫做字節(jié)攒砖,一個字節(jié)用8個位(0/1)來表示,每一位...
- 摘要:本文從Unicode入手,介紹由于通信問題而產(chǎn)生的字符集昂拂,以及Unicode的發(fā)展情況受神。介紹各種字符集的及其...
- 昨天電話面試的過程中被問到了可變長編碼路克,被問的有點懵逼。养交。特地來記錄一下精算。由于度娘上面沒有搜到相關(guān)的文章,所以只能...
- GB 2312 GB 2312 是 1980 年發(fā)布的中文編碼倒戏,共收錄 7445 個字符怠噪,有 6763 個漢字以及...
- 什么是Unicode字符集傍念?簡單地說矫夷,它就是把全世界人類發(fā)明和使用的現(xiàn)有的所有字符進行了集中收集和逐一編碼,這個過...