字符集和字符編碼方案

字符集

1厅克、unicode字符集

(不是編碼,只是一個對某個值的二進制定義)

unicode字符集
0000-ffff 0號平面
10000-1ffff
20000-2ffff
30000-3ffff
40000-4ffff, d0000-dffff
e0000-effff
f0000-fffff
100000-10ffff

utf8編碼規(guī)則
0xxxxxxx
110xxxxx 10xxxxxx
1110xxxx 10xxxxxx 10xxxxxx
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

7或8個字節(jié)無法達到
5或6個字節(jié)的UTF-8十六進制編碼一定是以f8,f9,fa,fb,fc,fd開頭
4個字節(jié)的UTF-8十六進制編碼一定是以F開頭的
3個字節(jié)的UTF-8十六進制編碼一定是以E開頭的
2個字節(jié)的UTF-8十六進制編碼一定是以C或D開頭的
1個字節(jié)的UTF-8十六進制編碼一定是以比8小的數字開頭的

字符集 和 字符編碼
字符集是一個容納了很多值的“字符-字節(jié)表示”對照表
字符編碼是對字符集里面的每一個字符進行編碼的一種方式
utf8 是對unicode字符集進行編碼的一種編碼方式捐腿。
utf8編碼方式缕减, 是1個字節(jié)笼痛, 2個字節(jié)士八, 3個字節(jié)容燕, 4個字節(jié) 的一種不定長編碼規(guī)則。
預先規(guī)定對應bit位婚度, 剩余bit位蘸秘,用unicode字符集的二進制原始編碼址進行由低到高的填充。 最終得到一個新的二進制值蝗茁。

2醋虏、其它字符集

ascii字符集: 0~127 26個基本拉丁字母, 阿拉伯數字哮翘, 英式標點符號
eascii字符集:擴充字符颈嚼, 128~255
gb2312 簡體中文編碼表: 6763個漢字
gb18030:當前最新的中文編碼表,對原來的漢子編碼字符集的擴充饭寺,與gb2312-1980兼容阻课, 與gbk兼容,共收錄漢字70244個佩研。最多可以定義161萬個字符柑肴, 支持少數名字的文字霞揉, 包括繁體漢字旬薯, 日韓漢字 多字節(jié)編碼
big5字符集: 收錄13060個漢字, 主要有繁體中文漢字 雙字節(jié)編碼
unicode字符集: 收錄10萬以上個字符适秩。

字符編碼

ascii編碼绊序、非ascii編碼
gbk編碼
utf8編碼
utf16編碼
utf32編碼
gb18030編碼
ucs-2編碼
ucs-4編碼
big5編碼
gb2312編碼

二進制硕舆, 1個字節(jié),8個bit位骤公, 1個bit位2中狀態(tài)抚官, 1個字節(jié)對應256中狀態(tài)。 因此可以表示256種值阶捆。

ascii
1個字節(jié)凌节,第一個bit位統(tǒng)一規(guī)定為0,還剩7個bit位洒试,表示128中狀態(tài)倍奢,表示128個值。這就是ascii編碼垒棋。

非ascii
如果第一個bit位拿來使用卒煞,有256種值,0~127表示的值相同叼架, 128~255表示的符號不相同畔裕。

gb2312
2個字節(jié)表示一個值, 256*256=65536個不同的值乖订。

編碼扮饶,解碼, 解碼時垢粮,必須知道二進制的編碼方式贴届,不然會亂碼。

unicode是所有符號的編碼蜡吧, 每一個符號毫蚓,都有唯一不同的表示,這樣就不存在不同的二進制值表示不同的值昔善。

unicode可能使用1個字節(jié)元潘,2個字節(jié),3個字節(jié)君仆,4個字節(jié)表示一個值翩概, 比如用3個字節(jié)表示一個值的時候, 計算機怎么知道返咱,這是一個unicode表示的1個值钥庇,而不是3個ascii值呢?
如果unicode統(tǒng)一使用3個字節(jié)或4個字節(jié)來表示一個值咖摹, 這樣雖然不存在是一個值還是多個值的問題评姨, 但是卻造成空間浪費。
unicode是一個字符集萤晴,沒有規(guī)定如何編碼解碼的吐句,只是人為的對每一個值定一個字節(jié)(1個字節(jié)胁后,2個字節(jié),3個字節(jié)嗦枢,4個字節(jié))的表示攀芯。
utf8 是unicode字符集的一種編碼方式的實現。1~4個字節(jié)表示一個值文虏, unicode單字節(jié)符號侣诺,字節(jié)第一位設置為0,后面7位為這個符號的unicode碼氧秘, 0~127個值紧武。這些字符集值, 就和ascii編碼相同了敏储。
0xxxxxxx
110xxxxx 10xxxxxx
1110xxxx 10xxxxxx 10xxxxxx
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
這樣做的好處看到了吧阻星, 如果隨便刪除一個字節(jié), 都不會影響其它字符集的解碼已添。
如果第一個bit位是0妥箕,這個字節(jié)就是一個字符,如果第一個bit位是1更舞,則連續(xù)有多少個1畦幢,表示當前字符值占用多少個字節(jié)
FEFF
大頭:高bit位存在前面FFFE
小頭:高bit位存放在后面FFFE
ansi, 表示gb2312編碼 D1CF
以unicode字符值二進制 “4E25” 為例缆蝉, utf編碼表示為 "E4 B8 A5"
unicode, "FF FE 25 4E" 小頭方式存儲的什么編碼
unicode big endian "FE FF 4E 25" 大頭方式存儲
utf8 "EF BB BF E4 B8 A5"存儲順序與實際的編碼順序一致

http響應頭內容協(xié)商

編碼宇葱, 解碼, 編碼規(guī)則刊头, 解碼規(guī)則 黍瞧, 字符集

accept-charset 字符集, 通常包含了編碼方案原杂, gb2312印颤, utf-8
accept-encoding 編碼方法, 是否支持壓縮穿肄, 什么壓縮方法
accept-language,語言年局, 中文是語言,中文的字符集有big5, gb2312, gbk, gb18030
content-type, 響應的對象類型咸产, 字符集矢否, text/html; charset='gb2312'
content-encoding, 響應的對象用了什么壓縮方法
content-language,響應的對象的語言

參考: http://www.cnblogs.com/skynet/archive/2011/05/03/2035105.html

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末脑溢,一起剝皮案震驚了整個濱河市僵朗,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖衣迷,帶你破解...
    沈念sama閱讀 216,692評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現場離奇詭異酱酬,居然都是意外死亡壶谒,警方通過查閱死者的電腦和手機,發(fā)現死者居然都...
    沈念sama閱讀 92,482評論 3 392
  • 文/潘曉璐 我一進店門膳沽,熙熙樓的掌柜王于貴愁眉苦臉地迎上來汗菜,“玉大人,你說我怎么就攤上這事挑社≡山纾” “怎么了?”我有些...
    開封第一講書人閱讀 162,995評論 0 353
  • 文/不壞的土叔 我叫張陵痛阻,是天一觀的道長菌瘪。 經常有香客問我,道長阱当,這世上最難降的妖魔是什么俏扩? 我笑而不...
    開封第一講書人閱讀 58,223評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮弊添,結果婚禮上录淡,老公的妹妹穿的比我還像新娘。我一直安慰自己油坝,他們只是感情好嫉戚,可當我...
    茶點故事閱讀 67,245評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著澈圈,像睡著了一般彬檀。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上瞬女,一...
    開封第一講書人閱讀 51,208評論 1 299
  • 那天凤覆,我揣著相機與錄音,去河邊找鬼拆魏。 笑死盯桦,一個胖子當著我的面吹牛,可吹牛的內容都是我干的渤刃。 我是一名探鬼主播拥峦,決...
    沈念sama閱讀 40,091評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼卖子!你這毒婦竟也來了略号?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 38,929評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎玄柠,沒想到半個月后突梦,有當地人在樹林里發(fā)現了一具尸體,經...
    沈念sama閱讀 45,346評論 1 311
  • 正文 獨居荒郊野嶺守林人離奇死亡羽利,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,570評論 2 333
  • 正文 我和宋清朗相戀三年宫患,在試婚紗的時候發(fā)現自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片这弧。...
    茶點故事閱讀 39,739評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡娃闲,死狀恐怖,靈堂內的尸體忽然破棺而出匾浪,到底是詐尸還是另有隱情皇帮,我是刑警寧澤,帶...
    沈念sama閱讀 35,437評論 5 344
  • 正文 年R本政府宣布蛋辈,位于F島的核電站属拾,受9級特大地震影響,放射性物質發(fā)生泄漏冷溶。R本人自食惡果不足惜捌年,卻給世界環(huán)境...
    茶點故事閱讀 41,037評論 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望挂洛。 院中可真熱鬧礼预,春花似錦、人聲如沸虏劲。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,677評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽柒巫。三九已至励堡,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間堡掏,已是汗流浹背应结。 一陣腳步聲響...
    開封第一講書人閱讀 32,833評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留泉唁,地道東北人鹅龄。 一個月前我還...
    沈念sama閱讀 47,760評論 2 369
  • 正文 我出身青樓,卻偏偏與公主長得像亭畜,于是被迫代替她去往敵國和親扮休。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,647評論 2 354

推薦閱讀更多精彩內容