編碼簡史

起源


我們都知道計算機誕生于美國评姨;起初硫眯,美國人想到了用8位作為一個字節(jié)來傳輸數(shù)據(jù),并使用0~127表示他們常用的文字與符號裹纳,其中也包括$(美元符號);并將這份編碼表作為一個標準在美國流通起來,人們把這份編碼稱之位美國標準信息交換碼American Standard Code for Information Interchange滥酥,它的縮寫我們大家可能都耳熟能詳刊头,叫做ASCII碼表污尉。

英文字母對應ASCII碼

 A-Z:65~90,a~z:97~122

發(fā)展


后來,這邊編碼流傳到了歐洲被碗,英國人發(fā)現(xiàn)當前編碼沒有辦法表示£(英鎊符號)蔼囊,正好ASCII也只用過了0 ~ 127酱酬,于是他們把128 ~ 255也應用了起來,所以128 ~ 255被稱為ASCII擴展碼挑社;信息的魅力在于傳播跟應用腮敌,這份字符集也傳入了中國斗这,中國文化博大精深啤斗,源遠流長彼水,常用漢字6000+盯桦,全部漢字有數(shù)萬個卖子;我們維持了0 ~ 127的原意,并毫不客氣的將127位之后的雜七雜八的符號全部取消掉羽利,當兩個大于127的字符在一起時就表示一個漢字泽疆;前面一個字節(jié)稱之為高位(0xA1 ~ 0xF7),后面一個字節(jié)稱之為低位(0xA1 ~ 0xFE)捌年;這份編碼便是鼎鼎有名的GB2312,其實是ASCII的中文擴展眠砾。

然而漢字實在是太多了褒颈,隨后他們干脆不再要求低位必須大于127刨疼;對GB2312又進行了一次擴展漩绵,這份擴展被稱為GBK,GBK完全兼容GB2312,并新增了2W多個漢字;再后來少數(shù)民族也開始使用計算機厌漂,我們又加入了少數(shù)民族的文字,GBK又被擴展成了GB18030斟珊;從此之后苇倡,中華大地的文明便可以在計算機的世界里流通了;由于是有兩個字節(jié)組成的,所以被稱為雙字節(jié)字符集Double Byte Charecter Set簡稱DBCS雏节,所以早年就有了一個漢字胜嗓,兩個字符的計算機口訣。

就這樣每個國家和地區(qū)都有了一套自己的擴展钩乍,各個擴展之間互不兼容辞州,所以有一個組織國際標準化組織(ISO),開始關注并著力于解決這一問題寥粹。于是变过,他們廢除各地區(qū)的編碼標準,準備自己擼起袖子涝涤,起草一份統(tǒng)一的編碼媚狰,屆時計算的存儲容量也得到了發(fā)展,他們于是直接大方的規(guī)定有兩個字節(jié)表示一個字符阔拳,并旨在統(tǒng)一表示地球上所有的文字與符號崭孤,它也有一響亮的名字,Universal Multiple-Octet Coded Character Set糊肠,簡稱 UCS, 俗稱 unicode辨宠。

升華


但是,所有的字符都需要占用兩個字節(jié)货裹,英文等需要的存儲空間較原來增加了一倍嗤形,一向精打細算的人們不愿意了。unicode在很長一段時間內(nèi)無法推廣弧圆,直到互聯(lián)網(wǎng)的出現(xiàn)赋兵,為解決unicode如何在網(wǎng)絡上傳輸?shù)膯栴},出現(xiàn)了UCS Transfer Format 簡稱UTF搔预;顧名思義UTF-8就是表示每8位傳輸數(shù)據(jù)霹期,UTF-16表示每16位傳輸數(shù)據(jù);這樣使得編碼無國界拯田,可以傳輸全世界所有文化的字符历造,從此漢字不在是兩個字符,而是一個字符勿锅。

UTF-8最大的一個特點帕膜,就是它是一種變長的編碼方式枣氧。它可以使用1 ~ 4個字節(jié)表示一個符號溢十,根據(jù)不同的符號而變化字節(jié)長度,當字符在ASCII碼的范圍時达吞,就用一個字節(jié)表示张弛,保留了ASCII字符一個字節(jié)的編碼做為它的一部分,注意的是unicode一個中文字符占2個字節(jié),而UTF-8一個中文字符占3個字節(jié))吞鸭。從unicode到uft-8并不是直接的對應寺董,而是要過一些算法和規(guī)則來轉(zhuǎn)換。

從unicode到uft-8并不是直接的對應刻剥,而是要過一些算法和規(guī)則來轉(zhuǎn)換遮咖。

Unicode符號范圍(2個字節(jié)) | UTF-8編碼方式 (1~4個字節(jié))

(十六進制) | (二進制) 
—————————————————————– 
0000 0000-0000 007F | 0xxxxxxx 
0000 0080-0000 07FF | 110xxxxx 10xxxxxx 
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx 
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市造虏,隨后出現(xiàn)的幾起案子御吞,更是在濱河造成了極大的恐慌,老刑警劉巖漓藕,帶你破解...
    沈念sama閱讀 218,755評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件陶珠,死亡現(xiàn)場離奇詭異,居然都是意外死亡享钞,警方通過查閱死者的電腦和手機揍诽,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,305評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來栗竖,“玉大人暑脆,你說我怎么就攤上這事』蹋” “怎么了饵筑?”我有些...
    開封第一講書人閱讀 165,138評論 0 355
  • 文/不壞的土叔 我叫張陵,是天一觀的道長处坪。 經(jīng)常有香客問我根资,道長,這世上最難降的妖魔是什么同窘? 我笑而不...
    開封第一講書人閱讀 58,791評論 1 295
  • 正文 為了忘掉前任玄帕,我火速辦了婚禮,結(jié)果婚禮上想邦,老公的妹妹穿的比我還像新娘裤纹。我一直安慰自己,他們只是感情好丧没,可當我...
    茶點故事閱讀 67,794評論 6 392
  • 文/花漫 我一把揭開白布鹰椒。 她就那樣靜靜地躺著,像睡著了一般呕童。 火紅的嫁衣襯著肌膚如雪漆际。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,631評論 1 305
  • 那天夺饲,我揣著相機與錄音奸汇,去河邊找鬼施符。 笑死,一個胖子當著我的面吹牛擂找,可吹牛的內(nèi)容都是我干的戳吝。 我是一名探鬼主播,決...
    沈念sama閱讀 40,362評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼贯涎,長吁一口氣:“原來是場噩夢啊……” “哼听哭!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起塘雳,我...
    開封第一講書人閱讀 39,264評論 0 276
  • 序言:老撾萬榮一對情侶失蹤欢唾,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后粉捻,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體礁遣,經(jīng)...
    沈念sama閱讀 45,724評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年肩刃,在試婚紗的時候發(fā)現(xiàn)自己被綠了祟霍。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,040評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡盈包,死狀恐怖沸呐,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情呢燥,我是刑警寧澤崭添,帶...
    沈念sama閱讀 35,742評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站叛氨,受9級特大地震影響呼渣,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜寞埠,卻給世界環(huán)境...
    茶點故事閱讀 41,364評論 3 330
  • 文/蒙蒙 一屁置、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧仁连,春花似錦蓝角、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,944評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至昌抠,卻和暖如春患朱,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背扰魂。 一陣腳步聲響...
    開封第一講書人閱讀 33,060評論 1 270
  • 我被黑心中介騙來泰國打工麦乞, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人劝评。 一個月前我還...
    沈念sama閱讀 48,247評論 3 371
  • 正文 我出身青樓姐直,卻偏偏與公主長得像,于是被迫代替她去往敵國和親蒋畜。 傳聞我的和親對象是個殘疾皇子声畏,可洞房花燭夜當晚...
    茶點故事閱讀 44,979評論 2 355

推薦閱讀更多精彩內(nèi)容

  • 1. ASCII ??我們知道科展,計算機內(nèi)部是通過二進制數(shù)據(jù)進行操作的均牢,所有的信息最終都會轉(zhuǎn)換為一個二進制值,二進制...
    騎著烏龜去看海閱讀 1,659評論 0 4
  • 騰訊大講堂——字符編碼的前世今生字符串才睹,那些你不知道的事編碼字符集標準及分類研究通信用語の基礎知識 —— ISO/...
    AItsuki閱讀 1,417評論 0 4
  • UTF-8 編碼提供了一種簡便而向后兼容的方法, 使得那種完全圍繞 ASCII 設計的操作系統(tǒng), 比如 Unix,...
    謝大見閱讀 4,701評論 0 3
  • 闊別一年徘跪,她終于回到了老家。即使就在同一個城市的不同區(qū)縣琅攘,她也排斥回去垮庐。見到爺爺奶奶的剎那,她是生疏的坞琴,...
    艾克西飯?zhí)岫?/span>閱讀 456評論 0 0
  • 寒假結(jié)束哨查,這幾個禮拜,兒子突然就反常了剧辐,睡不醒寒亥,磨時間,早晨寬裕的一個半小時荧关,愣是被他磨的緊張兮兮护盈,弄到每次把他送...
    崔世新媽媽閱讀 513評論 1 1