字符集和字符編碼
計算機中存儲的信息都是用二進制數(shù)表示的(即0和1麸锉,逢二進一阅束,這和計算機邏輯電路中的接通和斷開兩個物理狀態(tài)對應(yīng)),而我們在屏幕上看到的英文漢字是二進制數(shù)轉(zhuǎn)換的結(jié)果驼唱。
- 字符集(Charset):是一個系統(tǒng)支持的所有抽象字符的集合彤委。字符是各種文字和符號的總稱,包括各國家文字拨脉、標(biāo)點符號哆姻、圖形符號、數(shù)字等玫膀。
- 字符編碼(Character Encoding):在符號集合與數(shù)字系統(tǒng)之間建立對應(yīng)關(guān)系矛缨,將符號轉(zhuǎn)換為計算機可以接受的數(shù)字系統(tǒng)的數(shù)。
- 常用的字符集:ASCII字符集帖旨、GB2312字符集箕昭、BIG5字符集、GB18030字符集解阅、Unicode字符集等
字符集 | 字符編碼 | |
---|---|---|
ASCII(american standard code for information interchange)美國信息交換標(biāo)準(zhǔn)代碼 | 主要顯示現(xiàn)代英語 | 7位(bits)表示一個字符落竹,共2^7,128個字符 |
EASCII | 追加擴展了一些歐洲常用字符 | 8位(bits)表示一個字符货抄,共2^8述召,256個字符 |
GB2312 | 國標(biāo)朱转,用于漢字 | 小于127的字符意義與原來相同,但兩個大于127的字符連在一起時积暖,就表示一個漢字藤为。 在ASCII里本來就有的數(shù)字、標(biāo)點夺刑、字母都統(tǒng)統(tǒng)重新編了兩個字節(jié)長的編碼缅疟,這就是常說的"全角"字符,而原來在127號以下的那些就叫"半角"字符了遍愿。 |
GB18030 | 對gb2312追加擴展存淫,支持國內(nèi)少數(shù)名族文字 | 采用多字節(jié)編碼,與utf-8相同沼填,每個字可以由1個纫雁、2個或4個字節(jié)組成 |
GBK | 微軟利用GB 2312未使用的編碼空間,收錄GB 13000.1-93全部字符制定了GBK編碼 | 字符有一字節(jié)和雙字節(jié)編碼 |
BIG5 | 繁體字 | |
Unicode | 萬國碼 | uft-32(每個字符都使用4個字節(jié)倾哺,效率低) / utf-16 / utf-8 |