肯-湯普遜(Kenneth Lane Thompson)捂敌,1943年出生在美國新奧爾良,1960年就讀加州UC Berkeley并取得電子工程碩士學(xué)位艰毒,1966年加入貝爾實(shí)驗(yàn)室參與研發(fā)Multics(多使用者分時(shí)作業(yè)系統(tǒng))筐高,期間湯普遜以早期的程式語言BCPL為基礎(chǔ),設(shè)計(jì)出既簡單又更接近硬件的B語言(取BCPL的首字母)丑瞧。由于Multics系統(tǒng)過于龐大和復(fù)雜凯傲,貝爾實(shí)驗(yàn)室撤出了聯(lián)合開發(fā)計(jì)劃。1970年湯普遜找到一臺(tái)PDP-7機(jī)器嗦篱,花了一個(gè)多月用自己設(shè)計(jì)的B語言編寫出全新的操作系統(tǒng)UNICS(Uniplexed Information and Computing System)冰单,即Unix系統(tǒng)的前身。1972年貝爾實(shí)驗(yàn)室的同事D.M.Ritchie對(duì)B語言進(jìn)行改造和強(qiáng)化灸促,與湯普遜共同設(shè)計(jì)出一種新的程式語言C诫欠,取BCPL的第二個(gè)字母。1973年湯普遜用Ritchie的C語言重寫UNICS浴栽,安裝在PDP-11的機(jī)器上荒叼,即現(xiàn)在UNIX系統(tǒng)的鼻祖。
ASCII碼(American Standard Code for Information Inerchange)典鸡,是基于拉丁字母用于顯示現(xiàn)代英語和其他西歐語言的計(jì)算機(jī)編碼系統(tǒng)被廓。
計(jì)算機(jī)這個(gè)學(xué)科是從美國發(fā)展起來的,20世紀(jì)二戰(zhàn)之後萝玷,美國超越法國嫁乘、德國成為全球科技中心,美國的通用語言是英語球碉,而代表當(dāng)時(shí)最發(fā)達(dá)生產(chǎn)力的西方世界對(duì)計(jì)算機(jī)使用英語是沒有抵觸的蜓斧,因此信息交換標(biāo)準(zhǔn)代碼采用美國英語字符發(fā)表時(shí)在1967年,解決在電子計(jì)算機(jī)中數(shù)據(jù)在存儲(chǔ)和運(yùn)算時(shí)使用二進(jìn)制數(shù)表示的符號(hào)編碼一致性睁冬,避免相互通信之間造成的信息混亂挎春。
標(biāo)準(zhǔn)ASCII碼(也稱基礎(chǔ)ASCII碼)使用一個(gè)字節(jié)中的7位元,表示美式英語中使用的特殊控制符、標(biāo)點(diǎn)符號(hào)直奋、大寫字母能庆、數(shù)字和小寫字母,最高位元常用作奇偶效驗(yàn)脚线,是在代碼傳送過程中檢驗(yàn)是否出現(xiàn)錯(cuò)誤的一種方法搁胆。1986年ASCII規(guī)范最後一次更新,定義所有的128個(gè)字符(即ANSI字符集殉挽,ISO 8859-1-1987)丰涉,新規(guī)范使用全部8位元拓巧,當(dāng)最高位元為1時(shí)可增加128個(gè)字符斯碌,這些字符成為Extended ASCII,擴(kuò)展ASCII碼允許將附加的128個(gè)字符用于特殊字符肛度、外來語字符和圖形符號(hào)傻唾,譬如法語中字母上方的注音符號(hào),歐洲國家使用256個(gè)的字符擴(kuò)展ASCII碼作為編碼體系指定各自的標(biāo)準(zhǔn)承耿,但基本ASCII碼的規(guī)范保持一致冠骄。
20世紀(jì)80年代亞洲國家引進(jìn)西方計(jì)算機(jī)技術(shù),由于東亞加袋、西亞地區(qū)的文字符號(hào)遠(yuǎn)遠(yuǎn)超過256個(gè)字符凛辣,ASCII碼的字符數(shù)量局限性被暴露出來,各國首先通過增加字節(jié)數(shù)量來滿足字符數(shù)量上的要求职烧,用兩個(gè)字節(jié)表示一個(gè)符號(hào)扁誓,字節(jié)最高元置1區(qū)別于標(biāo)準(zhǔn)ASCII碼,然後跟隨第二個(gè)字節(jié)蚀之,因此理論上可表示128*256=32768個(gè)字符蝗敢,其中有中國大陸的GB2312簡化漢字碼,中國臺(tái)灣地區(qū)的BIG5繁體漢字碼足删,日本電腦的Shift_JIS碼寿谴,在整個(gè)世界范圍內(nèi)出現(xiàn)了數(shù)百中編碼方案。
在創(chuàng)建UNICODE標(biāo)準(zhǔn)前失受,對(duì)軟件開發(fā)者而言讶泰,基于一個(gè)國家編碼方案開發(fā)的程序移植到另一個(gè)國家,標(biāo)準(zhǔn)ASCII碼之外的字符轉(zhuǎn)換經(jīng)常出現(xiàn)錯(cuò)誤拂到,必須重新檢查修改峻厚,因此世界需要統(tǒng)一的編碼標(biāo)準(zhǔn)替代上百種相互沖突的字符編碼方式。1991年誕生了第一個(gè)Unicode版本谆焊,為世界上所有的字符設(shè)置一個(gè)唯一的碼點(diǎn)CodePoint惠桃,通過這個(gè)整數(shù)ID來訪問和操作字符。世界各國多個(gè)語種的字符放在UCS(Universal character Set)中形成了多語種字符集,一個(gè)平面字符集由兩個(gè)字節(jié)表示辜王,可容納256*256=65536個(gè)字符劈狐,其中0號(hào)平面為基本多語種平面,其余為輔助多語種平面呐馆。
UTF(Unicode Transformation Format)針對(duì)基本多語種平面字符可采用UTF-16編碼格式肥缔,即用兩個(gè)字節(jié)表示。對(duì)于輔助多語種平面字符則需采用UTF-32編碼格式汹来,即四個(gè)字節(jié)表示续膳。由于不同計(jì)算機(jī)體系結(jié)構(gòu)采用的字節(jié)排列順序不同,UTF-16收班、UTF-32編碼格式分別有big-endian和little-endian兩種結(jié)構(gòu)坟岔,為了避免與基本ASCII碼發(fā)生沖突,UTF-16摔桦、UTF-32編碼格式必須加上前置字符說明以示區(qū)別社付。
UTF-8(eight bit Unicode transformation format),湯普遜Thompson和羅布-派克Rob Pike一起開發(fā)基于UNIX的新操作系統(tǒng)Plan 9邻耕,作為工作的一部分他們創(chuàng)造了UTF-8這種可變長度的字符編碼鸥咖,1992年9月在新澤西州一列餐車上描繪出UTF-8設(shè)計(jì)要點(diǎn)。UTF-8可以用來表示Unicode標(biāo)準(zhǔn)中的任何字符兄世,而且其編碼中的第一個(gè)字節(jié)仍與基本ASCII碼相容啼辣,使得原來處理ASCII字符的軟件無需變動(dòng),或者進(jìn)行少部分修改後即可繼續(xù)使用御滩。
UTF-8有單字節(jié)鸥拧、雙字節(jié)、三字節(jié)和四字節(jié)四種結(jié)構(gòu)艾恼,單字節(jié)采用7位元的ASCII碼住涉,最高有效位元為0,其他三種結(jié)構(gòu)第8位最高有效元均置1钠绍,區(qū)別于標(biāo)準(zhǔn)ASCII碼舆声,使原ASCII碼成為UTF-8編碼格式的一個(gè)真子集。UTF-8多字節(jié)變長結(jié)構(gòu)可以容納除基本平面外所有輔助平面的字符數(shù)量柳爽,而且具有編碼自我同步特點(diǎn)媳握,即不必從字串的首字節(jié)讀取,也能找到字符間的分界磷脯, 同時(shí)規(guī)避不同架構(gòu)中字節(jié)排列順序的結(jié)構(gòu)問題蛾找。
UTF-8編碼已發(fā)展成為當(dāng)今計(jì)算機(jī)和網(wǎng)路世界中通用的字符編碼格式。