不知道大家有沒有想過一個(gè)問題:C語言編譯器為什么能夠用C語言編寫?
所謂C語言編譯器唐断,就是把編程得到的文件选脊,比如.c,.h的文件,進(jìn)行讀取脸甘,并對(duì)內(nèi)容進(jìn)行分析恳啥,按照C語言的規(guī)則,將其轉(zhuǎn)換成cpu可以執(zhí)行的二進(jìn)制文件丹诀。
其本質(zhì)在于對(duì)文件的讀入,分析铆遭,及處理硝桩。這些操作,C語言都是可以實(shí)現(xiàn)的枚荣。
所以用C語言來做C語言的編譯器是完全可行的碗脊。
但是,歷史上的第一個(gè)C語言編譯器橄妆,肯定不是C語言寫的衙伶,因?yàn)樵跊]有編譯器時(shí),無法把C語言轉(zhuǎn)換成可執(zhí)行文件害碾。只要有了第一版其它語言的編譯器矢劲,就可以用C語言寫編譯器了。
那么世界上第一個(gè)C語言編譯器又是怎么編寫的呢卧须?
還是讓我們回顧一下C語言歷史:
1970年Tomphson和Ritchie在BCPL(一種解釋型語言)的基礎(chǔ)上開發(fā)了B語言,
1973年又在B語言的基礎(chǔ)上成功開發(fā)出了現(xiàn)在的C語言儒陨。
在C語言被用作系統(tǒng)編程語言之前花嘶,Tomphson已經(jīng)使用B語言編寫過操作系統(tǒng)”哪可見在C語言實(shí)現(xiàn)以前椭员,B語言已經(jīng)可以投使用了。
因此第一個(gè)C語言編譯器的原型完全可能是用B語言或者混合B語言與PDP匯編語言編寫的隘击。
事實(shí)上侍芝,B語言的執(zhí)行效率比較低,但是如果全部用匯編語言來編寫埋同,不僅工作量巨大州叠,而且匯編語言的可讀性極差,很容易就會(huì)出錯(cuò)凶赁!
上一張圖大家感受一下這巨大的差別_掷酢!虱肄!
為了克服這個(gè)困難,早期的C語言編譯器就采取了一個(gè)取巧的辦法:先用匯編語言編寫一個(gè)C語言的一個(gè)子集的編譯器咏窿,再通過這個(gè)子集去遞推完成完整的C語言編譯器斟或。
大致過程如下:
先創(chuàng)造一個(gè)只有C語言最基本功能的子集集嵌,記作C0語言萝挤,C0語言已經(jīng)足夠簡單了,可以直接用匯編語言編寫出C0的編譯器根欧。
依靠C0已有的功能怜珍,設(shè)計(jì)比C0復(fù)雜,但仍然不完整的C語言的又一個(gè)子集C1語言咽块,其中C0屬于C1绘面,C1屬于C欺税,用C0開發(fā)出C1語言的編譯器侈沪。
在C1的基礎(chǔ)上設(shè)計(jì)C語言的又一個(gè)子集C2語言,C2語言比C1復(fù)雜晚凿,但是仍然不是完整的C語言亭罪,開發(fā)出C2語言的編譯器……如此直到CN,CN已經(jīng)足夠強(qiáng)大了歼秽,這時(shí)候就足夠開發(fā)出完整的C語言編譯器的實(shí)現(xiàn)了应役。
至于這里的N是多少,這取決于你的目標(biāo)語言(這里是C語言)的復(fù)雜程度和程序員的編程能力燥筷。
那么這種大膽的子集簡化的方法,又有什么理論依據(jù)呢肆氓?
先介紹一個(gè)概念袍祖,“自編譯”Self-Compile。
對(duì)于某些具有明顯自舉(不知道哪個(gè)鬼才起的名字)性質(zhì)的強(qiáng)類型編程語言
可以借助它們的一個(gè)有限小子集
通過有限次數(shù)的遞推來實(shí)現(xiàn)對(duì)它們自身的表述
(所謂強(qiáng)類型就是程序中的每個(gè)變量必須聲明類型后才能使用谢揪,比如C語言蕉陋,相反有些腳本語言則根本沒有類型這一說法,比如python捐凭。)
滿足自編譯這樣的語言有C、Pascal凳鬓、Ada等等茁肠,至于為什么可以自編譯,可以參見清華大學(xué)出版社的《編譯原理》缩举,書中實(shí)現(xiàn)了一個(gè)Pascal的子集的編譯器垦梆。
總之蚁孔,已經(jīng)有計(jì)算機(jī)科學(xué)家證明了奶赔,C語言理論上是可以通過上面的方法實(shí)現(xiàn)完整的編譯器的。