Ken Thompson: 從ASCII碼到UTF-8


肯-湯普遜(Kenneth Lane Thompson)捂敌,1943年出生在美國新奧爾良,1960年就讀加州UC Berkeley并取得電子工程碩士學(xué)位艰毒,1966年加入貝爾實(shí)驗(yàn)室參與研發(fā)Multics(多使用者分時(shí)作業(yè)系統(tǒng))筐高,期間湯普遜以早期的程式語言BCPL為基礎(chǔ),設(shè)計(jì)出既簡單又更接近硬件的B語言(取BCPL的首字母)丑瞧。由于Multics系統(tǒng)過于龐大和復(fù)雜凯傲,貝爾實(shí)驗(yàn)室撤出了聯(lián)合開發(fā)計(jì)劃。1970年湯普遜找到一臺(tái)PDP-7機(jī)器嗦篱,花了一個(gè)多月用自己設(shè)計(jì)的B語言編寫出全新的操作系統(tǒng)UNICS(Uniplexed Information and Computing System)冰单,即Unix系統(tǒng)的前身。1972年貝爾實(shí)驗(yàn)室的同事D.M.Ritchie對(duì)B語言進(jìn)行改造和強(qiáng)化灸促,與湯普遜共同設(shè)計(jì)出一種新的程式語言C诫欠,取BCPL的第二個(gè)字母。1973年湯普遜用Ritchie的C語言重寫UNICS浴栽,安裝在PDP-11的機(jī)器上荒叼,即現(xiàn)在UNIX系統(tǒng)的鼻祖。

Kenneth Lane Thompson

ASCII碼(American Standard Code for Information Inerchange)典鸡,是基于拉丁字母用于顯示現(xiàn)代英語和其他西歐語言的計(jì)算機(jī)編碼系統(tǒng)被廓。

ASCII碼

計(jì)算機(jī)這個(gè)學(xué)科是從美國發(fā)展起來的,20世紀(jì)二戰(zhàn)之後萝玷,美國超越法國嫁乘、德國成為全球科技中心,美國的通用語言是英語球碉,而代表當(dāng)時(shí)最發(fā)達(dá)生產(chǎn)力的西方世界對(duì)計(jì)算機(jī)使用英語是沒有抵觸的蜓斧,因此信息交換標(biāo)準(zhǔn)代碼采用美國英語字符發(fā)表時(shí)在1967年,解決在電子計(jì)算機(jī)中數(shù)據(jù)在存儲(chǔ)和運(yùn)算時(shí)使用二進(jìn)制數(shù)表示的符號(hào)編碼一致性睁冬,避免相互通信之間造成的信息混亂挎春。

標(biāo)準(zhǔn)ASCII碼(也稱基礎(chǔ)ASCII碼)使用一個(gè)字節(jié)中的7位元,表示美式英語中使用的特殊控制符、標(biāo)點(diǎn)符號(hào)直奋、大寫字母能庆、數(shù)字和小寫字母,最高位元常用作奇偶效驗(yàn)脚线,是在代碼傳送過程中檢驗(yàn)是否出現(xiàn)錯(cuò)誤的一種方法搁胆。1986年ASCII規(guī)范最後一次更新,定義所有的128個(gè)字符(即ANSI字符集殉挽,ISO 8859-1-1987)丰涉,新規(guī)范使用全部8位元拓巧,當(dāng)最高位元為1時(shí)可增加128個(gè)字符斯碌,這些字符成為Extended ASCII,擴(kuò)展ASCII碼允許將附加的128個(gè)字符用于特殊字符肛度、外來語字符和圖形符號(hào)傻唾,譬如法語中字母上方的注音符號(hào),歐洲國家使用256個(gè)的字符擴(kuò)展ASCII碼作為編碼體系指定各自的標(biāo)準(zhǔn)承耿,但基本ASCII碼的規(guī)范保持一致冠骄。

20世紀(jì)80年代亞洲國家引進(jìn)西方計(jì)算機(jī)技術(shù),由于東亞加袋、西亞地區(qū)的文字符號(hào)遠(yuǎn)遠(yuǎn)超過256個(gè)字符凛辣,ASCII碼的字符數(shù)量局限性被暴露出來,各國首先通過增加字節(jié)數(shù)量來滿足字符數(shù)量上的要求职烧,用兩個(gè)字節(jié)表示一個(gè)符號(hào)扁誓,字節(jié)最高元置1區(qū)別于標(biāo)準(zhǔn)ASCII碼,然後跟隨第二個(gè)字節(jié)蚀之,因此理論上可表示128*256=32768個(gè)字符蝗敢,其中有中國大陸的GB2312簡化漢字碼,中國臺(tái)灣地區(qū)的BIG5繁體漢字碼足删,日本電腦的Shift_JIS碼寿谴,在整個(gè)世界范圍內(nèi)出現(xiàn)了數(shù)百中編碼方案。

在創(chuàng)建UNICODE標(biāo)準(zhǔn)前失受,對(duì)軟件開發(fā)者而言讶泰,基于一個(gè)國家編碼方案開發(fā)的程序移植到另一個(gè)國家,標(biāo)準(zhǔn)ASCII碼之外的字符轉(zhuǎn)換經(jīng)常出現(xiàn)錯(cuò)誤拂到,必須重新檢查修改峻厚,因此世界需要統(tǒng)一的編碼標(biāo)準(zhǔn)替代上百種相互沖突的字符編碼方式。1991年誕生了第一個(gè)Unicode版本谆焊,為世界上所有的字符設(shè)置一個(gè)唯一的碼點(diǎn)CodePoint惠桃,通過這個(gè)整數(shù)ID來訪問和操作字符。世界各國多個(gè)語種的字符放在UCS(Universal character Set)中形成了多語種字符集,一個(gè)平面字符集由兩個(gè)字節(jié)表示辜王,可容納256*256=65536個(gè)字符劈狐,其中0號(hào)平面為基本多語種平面,其余為輔助多語種平面呐馆。

UTF(Unicode Transformation Format)針對(duì)基本多語種平面字符可采用UTF-16編碼格式肥缔,即用兩個(gè)字節(jié)表示。對(duì)于輔助多語種平面字符則需采用UTF-32編碼格式汹来,即四個(gè)字節(jié)表示续膳。由于不同計(jì)算機(jī)體系結(jié)構(gòu)采用的字節(jié)排列順序不同,UTF-16收班、UTF-32編碼格式分別有big-endian和little-endian兩種結(jié)構(gòu)坟岔,為了避免與基本ASCII碼發(fā)生沖突,UTF-16摔桦、UTF-32編碼格式必須加上前置字符說明以示區(qū)別社付。

UTF-8(eight bit Unicode transformation format),湯普遜Thompson和羅布-派克Rob Pike一起開發(fā)基于UNIX的新操作系統(tǒng)Plan 9邻耕,作為工作的一部分他們創(chuàng)造了UTF-8這種可變長度的字符編碼鸥咖,1992年9月在新澤西州一列餐車上描繪出UTF-8設(shè)計(jì)要點(diǎn)。UTF-8可以用來表示Unicode標(biāo)準(zhǔn)中的任何字符兄世,而且其編碼中的第一個(gè)字節(jié)仍與基本ASCII碼相容啼辣,使得原來處理ASCII字符的軟件無需變動(dòng),或者進(jìn)行少部分修改後即可繼續(xù)使用御滩。

UTF-8有單字節(jié)鸥拧、雙字節(jié)、三字節(jié)和四字節(jié)四種結(jié)構(gòu)艾恼,單字節(jié)采用7位元的ASCII碼住涉,最高有效位元為0,其他三種結(jié)構(gòu)第8位最高有效元均置1钠绍,區(qū)別于標(biāo)準(zhǔn)ASCII碼舆声,使原ASCII碼成為UTF-8編碼格式的一個(gè)真子集。UTF-8多字節(jié)變長結(jié)構(gòu)可以容納除基本平面外所有輔助平面的字符數(shù)量柳爽,而且具有編碼自我同步特點(diǎn)媳握,即不必從字串的首字節(jié)讀取,也能找到字符間的分界磷脯, 同時(shí)規(guī)避不同架構(gòu)中字節(jié)排列順序的結(jié)構(gòu)問題蛾找。

UTF-8編碼已發(fā)展成為當(dāng)今計(jì)算機(jī)和網(wǎng)路世界中通用的字符編碼格式。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末赵誓,一起剝皮案震驚了整個(gè)濱河市打毛,隨后出現(xiàn)的幾起案子柿赊,更是在濱河造成了極大的恐慌,老刑警劉巖幻枉,帶你破解...
    沈念sama閱讀 212,884評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件碰声,死亡現(xiàn)場離奇詭異,居然都是意外死亡熬甫,警方通過查閱死者的電腦和手機(jī)胰挑,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,755評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來椿肩,“玉大人瞻颂,你說我怎么就攤上這事≈O螅” “怎么了贡这?”我有些...
    開封第一講書人閱讀 158,369評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長扣唱。 經(jīng)常有香客問我藕坯,道長团南,這世上最難降的妖魔是什么噪沙? 我笑而不...
    開封第一講書人閱讀 56,799評(píng)論 1 285
  • 正文 為了忘掉前任,我火速辦了婚禮吐根,結(jié)果婚禮上正歼,老公的妹妹穿的比我還像新娘。我一直安慰自己拷橘,他們只是感情好局义,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,910評(píng)論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著冗疮,像睡著了一般萄唇。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上术幔,一...
    開封第一講書人閱讀 50,096評(píng)論 1 291
  • 那天另萤,我揣著相機(jī)與錄音,去河邊找鬼诅挑。 笑死四敞,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的拔妥。 我是一名探鬼主播忿危,決...
    沈念sama閱讀 39,159評(píng)論 3 411
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼没龙!你這毒婦竟也來了铺厨?” 一聲冷哼從身側(cè)響起缎玫,我...
    開封第一講書人閱讀 37,917評(píng)論 0 268
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎解滓,沒想到半個(gè)月后碘梢,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,360評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡伐蒂,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,673評(píng)論 2 327
  • 正文 我和宋清朗相戀三年煞躬,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片逸邦。...
    茶點(diǎn)故事閱讀 38,814評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡恩沛,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出缕减,到底是詐尸還是另有隱情雷客,我是刑警寧澤,帶...
    沈念sama閱讀 34,509評(píng)論 4 334
  • 正文 年R本政府宣布桥狡,位于F島的核電站搅裙,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏裹芝。R本人自食惡果不足惜部逮,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,156評(píng)論 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望嫂易。 院中可真熱鬧兄朋,春花似錦、人聲如沸怜械。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽缕允。三九已至峡扩,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間障本,已是汗流浹背教届。 一陣腳步聲響...
    開封第一講書人閱讀 32,123評(píng)論 1 267
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留彼绷,地道東北人巍佑。 一個(gè)月前我還...
    沈念sama閱讀 46,641評(píng)論 2 362
  • 正文 我出身青樓,卻偏偏與公主長得像寄悯,于是被迫代替她去往敵國和親萤衰。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,728評(píng)論 2 351

推薦閱讀更多精彩內(nèi)容