Ken Thompson: 從ASCII碼到UTF-8

肯-湯普遜(Kenneth Lane Thompson)捂敌，1943年出生在美國新奧爾良，1960年就讀加州UC Berkeley并取得電子工程碩士學(xué)位艰毒，1966年加入貝爾實(shí)驗(yàn)室參與研發(fā)Multics（多使用者分時(shí)作業(yè)系統(tǒng)）筐高，期間湯普遜以早期的程式語言BCPL為基礎(chǔ)，設(shè)計(jì)出既簡單又更接近硬件的B語言（取BCPL的首字母）丑瞧。由于Multics系統(tǒng)過于龐大和復(fù)雜凯傲，貝爾實(shí)驗(yàn)室撤出了聯(lián)合開發(fā)計(jì)劃。1970年湯普遜找到一臺(tái)PDP-7機(jī)器嗦篱，花了一個(gè)多月用自己設(shè)計(jì)的B語言編寫出全新的操作系統(tǒng)UNICS(Uniplexed Information and Computing System)冰单，即Unix系統(tǒng)的前身。1972年貝爾實(shí)驗(yàn)室的同事D.M.Ritchie對(duì)B語言進(jìn)行改造和強(qiáng)化灸促，與湯普遜共同設(shè)計(jì)出一種新的程式語言C诫欠，取BCPL的第二個(gè)字母。1973年湯普遜用Ritchie的C語言重寫UNICS浴栽，安裝在PDP-11的機(jī)器上荒叼，即現(xiàn)在UNIX系統(tǒng)的鼻祖。

Kenneth Lane Thompson

ASCII碼(American Standard Code for Information Inerchange)典鸡，是基于拉丁字母用于顯示現(xiàn)代英語和其他西歐語言的計(jì)算機(jī)編碼系統(tǒng)被廓。

ASCII碼

計(jì)算機(jī)這個(gè)學(xué)科是從美國發(fā)展起來的，20世紀(jì)二戰(zhàn)之後萝玷，美國超越法國嫁乘、德國成為全球科技中心，美國的通用語言是英語球碉，而代表當(dāng)時(shí)最發(fā)達(dá)生產(chǎn)力的西方世界對(duì)計(jì)算機(jī)使用英語是沒有抵觸的蜓斧，因此信息交換標(biāo)準(zhǔn)代碼采用美國英語字符發(fā)表時(shí)在1967年，解決在電子計(jì)算機(jī)中數(shù)據(jù)在存儲(chǔ)和運(yùn)算時(shí)使用二進(jìn)制數(shù)表示的符號(hào)編碼一致性睁冬，避免相互通信之間造成的信息混亂挎春。

標(biāo)準(zhǔn)ASCII碼（也稱基礎(chǔ)ASCII碼）使用一個(gè)字節(jié)中的7位元，表示美式英語中使用的特殊控制符、標(biāo)點(diǎn)符號(hào)直奋、大寫字母能庆、數(shù)字和小寫字母，最高位元常用作奇偶效驗(yàn)脚线，是在代碼傳送過程中檢驗(yàn)是否出現(xiàn)錯(cuò)誤的一種方法搁胆。1986年ASCII規(guī)范最後一次更新，定義所有的128個(gè)字符（即ANSI字符集殉挽，ISO 8859-1-1987）丰涉，新規(guī)范使用全部8位元拓巧，當(dāng)最高位元為1時(shí)可增加128個(gè)字符斯碌，這些字符成為Extended ASCII，擴(kuò)展ASCII碼允許將附加的128個(gè)字符用于特殊字符肛度、外來語字符和圖形符號(hào)傻唾，譬如法語中字母上方的注音符號(hào)，歐洲國家使用256個(gè)的字符擴(kuò)展ASCII碼作為編碼體系指定各自的標(biāo)準(zhǔn)承耿，但基本ASCII碼的規(guī)范保持一致冠骄。

20世紀(jì)80年代亞洲國家引進(jìn)西方計(jì)算機(jī)技術(shù)，由于東亞加袋、西亞地區(qū)的文字符號(hào)遠(yuǎn)遠(yuǎn)超過256個(gè)字符凛辣，ASCII碼的字符數(shù)量局限性被暴露出來，各國首先通過增加字節(jié)數(shù)量來滿足字符數(shù)量上的要求职烧，用兩個(gè)字節(jié)表示一個(gè)符號(hào)扁誓，字節(jié)最高元置1區(qū)別于標(biāo)準(zhǔn)ASCII碼，然後跟隨第二個(gè)字節(jié)蚀之，因此理論上可表示128*256=32768個(gè)字符蝗敢，其中有中國大陸的GB2312簡化漢字碼，中國臺(tái)灣地區(qū)的BIG5繁體漢字碼足删，日本電腦的Shift_JIS碼寿谴，在整個(gè)世界范圍內(nèi)出現(xiàn)了數(shù)百中編碼方案。

在創(chuàng)建UNICODE標(biāo)準(zhǔn)前失受，對(duì)軟件開發(fā)者而言讶泰，基于一個(gè)國家編碼方案開發(fā)的程序移植到另一個(gè)國家，標(biāo)準(zhǔn)ASCII碼之外的字符轉(zhuǎn)換經(jīng)常出現(xiàn)錯(cuò)誤拂到，必須重新檢查修改峻厚，因此世界需要統(tǒng)一的編碼標(biāo)準(zhǔn)替代上百種相互沖突的字符編碼方式。1991年誕生了第一個(gè)Unicode版本谆焊，為世界上所有的字符設(shè)置一個(gè)唯一的碼點(diǎn)CodePoint惠桃，通過這個(gè)整數(shù)ID來訪問和操作字符。世界各國多個(gè)語種的字符放在UCS(Universal character Set)中形成了多語種字符集，一個(gè)平面字符集由兩個(gè)字節(jié)表示辜王，可容納256*256=65536個(gè)字符劈狐，其中0號(hào)平面為基本多語種平面，其余為輔助多語種平面呐馆。

UTF(Unicode Transformation Format)針對(duì)基本多語種平面字符可采用UTF-16編碼格式肥缔，即用兩個(gè)字節(jié)表示。對(duì)于輔助多語種平面字符則需采用UTF-32編碼格式汹来，即四個(gè)字節(jié)表示续膳。由于不同計(jì)算機(jī)體系結(jié)構(gòu)采用的字節(jié)排列順序不同，UTF-16收班、UTF-32編碼格式分別有big-endian和little-endian兩種結(jié)構(gòu)坟岔，為了避免與基本ASCII碼發(fā)生沖突，UTF-16摔桦、UTF-32編碼格式必須加上前置字符說明以示區(qū)別社付。

UTF-8(eight bit Unicode transformation format)，湯普遜Thompson和羅布-派克Rob Pike一起開發(fā)基于UNIX的新操作系統(tǒng)Plan 9邻耕，作為工作的一部分他們創(chuàng)造了UTF-8這種可變長度的字符編碼鸥咖，1992年9月在新澤西州一列餐車上描繪出UTF-8設(shè)計(jì)要點(diǎn)。UTF-8可以用來表示Unicode標(biāo)準(zhǔn)中的任何字符兄世，而且其編碼中的第一個(gè)字節(jié)仍與基本ASCII碼相容啼辣，使得原來處理ASCII字符的軟件無需變動(dòng)，或者進(jìn)行少部分修改後即可繼續(xù)使用御滩。

UTF-8有單字節(jié)鸥拧、雙字節(jié)、三字節(jié)和四字節(jié)四種結(jié)構(gòu)艾恼，單字節(jié)采用7位元的ASCII碼住涉，最高有效位元為0，其他三種結(jié)構(gòu)第8位最高有效元均置1钠绍，區(qū)別于標(biāo)準(zhǔn)ASCII碼舆声，使原ASCII碼成為UTF-8編碼格式的一個(gè)真子集。UTF-8多字節(jié)變長結(jié)構(gòu)可以容納除基本平面外所有輔助平面的字符數(shù)量柳爽，而且具有編碼自我同步特點(diǎn)媳握，即不必從字串的首字節(jié)讀取，也能找到字符間的分界磷脯，同時(shí)規(guī)避不同架構(gòu)中字節(jié)排列順序的結(jié)構(gòu)問題蛾找。

UTF-8編碼已發(fā)展成為當(dāng)今計(jì)算機(jī)和網(wǎng)路世界中通用的字符編碼格式。

最后編輯于：2021.07.15 06:11:55

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末赵誓，一起剝皮案震驚了整個(gè)濱河市打毛，隨后出現(xiàn)的幾起案子柿赊，更是在濱河造成了極大的恐慌，老刑警劉巖幻枉，帶你破解...
沈念sama閱讀 212,884評(píng)論 6贊 492
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件碰声，死亡現(xiàn)場離奇詭異，居然都是意外死亡熬甫，警方通過查閱死者的電腦和手機(jī)胰挑，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,755評(píng)論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來椿肩，“玉大人瞻颂，你說我怎么就攤上這事≈Ｏ螅” “怎么了贡这？”我有些...
開封第一講書人閱讀 158,369評(píng)論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長扣唱。經(jīng)常有香客問我藕坯，道長团南，這世上最難降的妖魔是什么噪沙？我笑而不...
開封第一講書人閱讀 56,799評(píng)論 1贊 285
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮吐根，結(jié)果婚禮上正歼，老公的妹妹穿的比我還像新娘。我一直安慰自己拷橘，他們只是感情好局义，可當(dāng)我...
茶點(diǎn)故事閱讀 65,910評(píng)論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著冗疮，像睡著了一般萄唇。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上术幔，一...
開封第一講書人閱讀 50,096評(píng)論 1贊 291
城市分裂傳說
那天另萤，我揣著相機(jī)與錄音，去河邊找鬼诅挑。笑死四敞，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的拔妥。我是一名探鬼主播忿危，決...
沈念sama閱讀 39,159評(píng)論 3贊 411
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼没龙！你這毒婦竟也來了铺厨？” 一聲冷哼從身側(cè)響起缎玫，我...
開封第一講書人閱讀 37,917評(píng)論 0贊 268
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎解滓，沒想到半個(gè)月后碘梢，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 44,360評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡伐蒂，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,673評(píng)論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年煞躬，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片逸邦。...
茶點(diǎn)故事閱讀 38,814評(píng)論 1贊 341
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡恩沛，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出缕减，到底是詐尸還是另有隱情雷客，我是刑警寧澤，帶...
沈念sama閱讀 34,509評(píng)論 4贊 334
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布桥狡，位于F島的核電站搅裙，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏裹芝。R本人自食惡果不足惜部逮，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 40,156評(píng)論 3贊 317
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望嫂易。院中可真熱鬧兄朋，春花似錦、人聲如沸怜械。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,882評(píng)論 0贊 21
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽缕允。三九已至峡扩，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間障本，已是汗流浹背教届。一陣腳步聲響...
開封第一講書人閱讀 32,123評(píng)論 1贊 267
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留彼绷，地道東北人巍佑。一個(gè)月前我還...
沈念sama閱讀 46,641評(píng)論 2贊 362
代替公主和親
正文我出身青樓，卻偏偏與公主長得像寄悯，于是被迫代替她去往敵國和親萤衰。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,728評(píng)論 2贊 351

Ken Thompson: 從ASCII碼到UTF-8

推薦閱讀更多精彩內(nèi)容