字符集
- 字符的集合抬驴,沒有編號
編碼字符集(charset)
- 為字符集的每一個字符指定一個編號荞彼,即代碼點(code point) 尽爆。
字符集編碼(encoding)
字符的code point(碼點)不一定是該字符在電腦中存儲中使用的值谣旁。字符在電腦中存儲的值由字符集編碼決定秦陋。
code unit(代碼單元或碼元)僅僅針對字符集編碼,是字符集編碼中對一個字符編碼后的最小存儲單元导俘。在UTF-8中是一個字節(jié)峦耘,因為UTF-8在將字符編碼為1個,2個旅薄,3個辅髓,或者4個。在UTF-16中少梁,代碼單元變成了兩個字節(jié)洛口,因為在UTF-16中字符可以被編碼為2個或者4個字節(jié)(也就是java里面的1個或者2個char)。
具體的編碼字符集和字符集編碼
編碼字符集 | 字符集編碼 |
---|---|
Unicode | UTF-8,UTF-16,UTF-32 |
GB2312 | GB2312 |
GBK | GBK |
ASCII (ISO-646) | ASCII(ISO-646) |
擴展的ASCII | 擴展的ASCII(ISO-8859-*)凯沪,例如Latin-1(ISO-8859-1) |
其他
創(chuàng)建了一張xml頁面第焰,聲明encoding為UTF-8,和html中的charset一樣妨马,只是告訴程序挺举,頁面使用了什么字符集編碼(html中的charset其實是指字符集編碼)。但是這張頁面到底用了什么字符集編碼烘跺,是不一定的湘纵。所以最好要求頁面實際使用的字符集編碼和encoding聲明的一樣。
windows操作系統(tǒng)在保存頁面時滤淳,會使用默認的編碼方式ANSI梧喷。簡體中文使用字符集編碼是GBK。