GCC: GNU Compiler Collection
GCC屬于傳統(tǒng)編譯器火惊,傳統(tǒng)編譯器的工作原理基本上都是三段式的,可以分為前端(Frontend)卧抗、優(yōu)化器(Optimizer)读跷、后端(Backend)。前端負(fù)責(zé)解析源代碼唤崭,檢查語法錯誤拷恨,并將其翻譯為抽象的語法樹(Abstract Syntax Tree)。優(yōu)化器對這一中間代碼進(jìn)行優(yōu)化谢肾,試圖使代碼更高效腕侄。后端則負(fù)責(zé)將優(yōu)化器優(yōu)化后的中間代碼轉(zhuǎn)換為目標(biāo)機(jī)器的代碼,這一過程后端會最大化的利用目標(biāo)機(jī)器的特殊指令芦疏,以提高代碼的性能冕杠。
事實上,不光靜態(tài)語言如此酸茴,動態(tài)語言也符合上面這個模型分预,例如Java。Java Virtual Machine也利用上面這個模型薪捍,將Java代碼翻譯為Java bytecode笼痹。這一模型的好處是配喳,當(dāng)我們要支持多種語言時,只需要添加多個前端就可以了凳干。當(dāng)需要支持多種目標(biāo)機(jī)器時晴裹,只需要添加多個后端就可以了。對于中間的優(yōu)化器救赐,我們可以使用通用的中間代碼涧团。
這種三段式的結(jié)構(gòu)還有一個好處,開發(fā)前端的人只需要知道如何將源代碼轉(zhuǎn)換為優(yōu)化器能夠理解的中間代碼就可以了经磅,他不需要知道優(yōu)化器的工作原理泌绣,也不需要了解目標(biāo)機(jī)器的知識。這大大降低了編譯器的開發(fā)難度预厌,使更多的開發(fā)人員可以參與進(jìn)來阿迈。
雖然這種三段式的編譯器有很多有點,并且被寫到了教科書上配乓,但是在實際中這一結(jié)構(gòu)卻從來沒有被完美實現(xiàn)過仿滔。做的比較好的應(yīng)該屬Java和.NET虛擬機(jī)。虛擬機(jī)可以將目標(biāo)語言翻譯為bytecode犹芹,所以理論上講我們可以將任何語言翻譯為bytecode崎页,然后輸入虛擬機(jī)中運行。但是這一動態(tài)語言的模型并不太適合C語言腰埂,所以硬將C語言翻譯為bytecode并實現(xiàn)垃圾回收機(jī)制的效率是非常低的飒焦。
GCC也將三段式做的比較好,并且實現(xiàn)了很多前端屿笼,支持了很多語言牺荠。但是上述這些編譯器的致命缺陷是,他們是一個完整的可執(zhí)行文件驴一,沒有給其它語言的開發(fā)者提供代碼重用的接口休雌。即使GCC是開源的,但是源代碼重用的難度也比較大肝断。
LLVM: Low Level Virtual Machine
LLVM最初是[Low Level Virtual Machine]的縮寫杈曲,定位是一個虛擬機(jī),但是是比較底層的虛擬機(jī)胸懈。它的出現(xiàn)正是為了解決編譯器代碼重用的問題担扑,LLVM一上來就站在比較高的角度,制定了LLVM IR這一中間代碼表示語言趣钱。LLVM IR充分考慮了各種應(yīng)用場景涌献,例如在IDE中調(diào)用LLVM進(jìn)行實時的代碼語法檢查,對靜態(tài)語言首有、動態(tài)語言的編譯燕垃、優(yōu)化等枢劝。
LLVM與GCC在三段式架構(gòu)上并沒有本質(zhì)區(qū)別。LLVM與其它編譯器最大的差別是卜壕,它不僅僅是Compiler Collection呈野,也是Libraries Collection。舉個例子印叁,假如說我要寫一個XYZ語言的優(yōu)化器,我自己實現(xiàn)了PassXYZ算法军掂,用以處理XYZ語言與其它語言差別最大的地方轮蜕。而LLVM優(yōu)化器提供的PassA和PassB算法則提供了XYZ語言與其它語言共性的優(yōu)化算法。那么我可以選擇XYZ優(yōu)化器在鏈接的時候把LLVM提供的算法鏈接進(jìn)來蝗锥。LLVM不僅僅是編譯器跃洛,也是一個SDK。
Clang錯誤提示比GCC友好得多终议。