1 什么是Mach-O
Mach-O其實(shí)是Mach Object文件格式的縮寫醇份,是mac以及iOS上可執(zhí)行文件的格式, 類似于windows上的PE格式 (Portable Executable ), linux上的elf格式 (Executable and Linking Format)稚瘾。
如果我們想對(duì) Mach -O 文件有所了解糯耍,可以將我們打包好的 ipa 文件后綴改成 .zip,然后解壓生成 Payload 文件团赁,在其中就可以找到 exec 文件≈褂剩或者找一個(gè)動(dòng)態(tài)庫的 framework 在其中也可以找到 exec 文件这橙。
常見的MachO文件:
- 目標(biāo)文件:.o
- 庫文件:.a .dylib Framework
- 可執(zhí)行文件:dyld .dsym
如何查看文件格式
file [文件路徑/文件名]
2 MachOView
官網(wǎng)直接下載的MachOView.app打開后不停閃退,因此最好是直接去下載源碼然后編譯出來使用导披。
MachOView GitHub地址
下載后記得修改源碼:
3 MachO文件結(jié)構(gòu)
使用MachOView打開兩個(gè)Xcode編譯后生成的app可執(zhí)行文件屈扎,文件結(jié)構(gòu)分別如下:
根據(jù)圖可以看出,同時(shí)支持多種指令集的MachO文件會(huì)針對(duì)每個(gè)指令集生成一個(gè)Executable撩匕,每一個(gè)Executable里的文件結(jié)構(gòu)又是一樣的鹰晨。下面我們針對(duì)Executable文件來分析,先看一張官網(wǎng)的MachO文件結(jié)構(gòu)圖止毕,可看出MachO文件主要由三部分組成:
- Header
- Load Commons
-
Data
image.png
3.1 Mach Header
選取了Mach64 Header來分析模蜡,圖中未紅字表明的flags表示的是標(biāo)示位,主要與系統(tǒng)的加載扁凛、鏈接相關(guān):
3.2 Load Commands
Load commands是一張包含很多內(nèi)容的表忍疾,內(nèi)容包括區(qū)域的位置、符號(hào)表谨朝、動(dòng)態(tài)符號(hào)表等卤妒。這里就是二進(jìn)制文件加載進(jìn)內(nèi)存要執(zhí)行的一些指令。這里的指令主要在負(fù)責(zé)我們 APP 對(duì)應(yīng)進(jìn)程的創(chuàng)建和基本設(shè)置(分配虛擬內(nèi)存字币,創(chuàng)建主線程则披,處理代碼簽名/加密的工作),然后對(duì)動(dòng)態(tài)鏈接庫(.dylib 系統(tǒng)庫和我們自己創(chuàng)建的動(dòng)態(tài)庫)進(jìn)行庫加載和符號(hào)解析的工作洗出。
字段名稱及意義分別如下:
名稱 | 含義 |
---|---|
LC_SEGMENT_64 | 將文件中(32位或64位)的段映射到進(jìn)程地址空間中 |
LC_DYLD_INFO_ONLY | 動(dòng)態(tài)鏈接相關(guān)信息 |
LC_SYMTAB | 符號(hào)地址 |
LC_DYSYMTAB | 動(dòng)態(tài)符號(hào)表地址 |
LC_LOAD_DYLINKER | 使用誰加載士复,我們使用dyld |
LC_UUID | 文件的UUID |
LC_VERSION_MIN_MACOSX | 支持最低的操作系統(tǒng)版本 |
LC_SOURCE_VERSION | 源代碼版本 |
LC_MAIN | 設(shè)置程序主線程的入口地址和棧大小 |
LC_LOAD_DYLIB | 依賴庫的路徑,包含三方庫 |
LC_FUNCTION_STARTS | 函數(shù)起始地址表 |
LC_CODE_SIGNATURE | 代碼簽名 |
首先看下Load Commands目錄結(jié)構(gòu):
從上圖可知 Load Commands 主要包含了有多個(gè) Segment 段共苛,每個(gè)中又包含了多個(gè) Section 段判没。每一部分都是系統(tǒng)執(zhí)行指令蜓萄。其中 LC_SEGMENT 包含空指針陷阱
__TEXT段主要包含程序代碼和只讀的常量隅茎,這個(gè)段的內(nèi)容如果是系統(tǒng)動(dòng)態(tài)庫的內(nèi)容那么所有進(jìn)程公用
__DATA 段主要包含全局變量和靜態(tài)變量,這個(gè)段的內(nèi)容每個(gè)進(jìn)程單獨(dú)進(jìn)行維護(hù)
__LINKEDIT 主要包含鏈接器使用的符號(hào)和其他的表(比如函數(shù)名稱嫉沽、地址等) 這個(gè)段的內(nèi)容也是可以多進(jìn)程公用的辟犀。
此外還需介紹下和 SEGMENT 并列的一些比較重要的指令:
LC_LOAD_DYLINKER 該字段標(biāo)明我們的MachO是被誰加載進(jìn)去的。
可以理解為LC_LOAD_DYLINKER指向的地址是微信APP加載小程序的引擎绸硕,而我們的MachO是小程序堂竟。在上圖中可以看到我們的Demo1的LC_LOAD_DYLINKER指向的地址就是dyld
魂毁,dyld
確實(shí)是用來加載我們app的。LC_LOAD_DYLIB
該字段標(biāo)記了所有動(dòng)態(tài)庫的地址出嘹,只有在LC_LOAD_DYLIB中有標(biāo)記席楚,我們MachO外部的動(dòng)態(tài)庫(如:Framework)才能被dyld
正確的引用,否則dyld
不會(huì)主動(dòng)加載税稼。(因此很多通過這個(gè)知識(shí)點(diǎn)來做代碼注入)LC_MAIN 是在所有的庫都加載完成后烦秩,有其中的指令啟動(dòng)程序的主線程。我們的程序也是在這個(gè)函數(shù)之后才開始執(zhí)行 main() 函數(shù)的郎仆。
LC_CODE_SIGNATURE 我想每個(gè) iOSer 都知道代碼簽名的機(jī)制只祠,其實(shí)代碼簽名的校驗(yàn)也是在這個(gè)指令下進(jìn)行。實(shí)際上指令會(huì)把整個(gè)文件進(jìn)行 hash 化處理并簽名扰肌,在運(yùn)行時(shí)去驗(yàn)證簽名的正確性抛寝。
3.3 Data
Data 通常是對(duì)象文件中最大的部分,包含Segement的具體數(shù)據(jù)曙旭,如靜態(tài)C字符串盗舰,帶參數(shù)/不帶參數(shù)的OC方法,帶參數(shù)/不帶參數(shù)的C函數(shù)夷狰。
可以看到岭皂,全局靜態(tài)C字符,方法里面的字符串都被保存在data段的cstring里了沼头,哪怕是%d,%s等等這樣的參數(shù)類型字符串也被保存在內(nèi)爷绘,但所有同樣的字符串只會(huì)被保存一次:
同樣所有的OC方法都被保存在methname里了:
4 結(jié)語
暫時(shí)通過MachOView初步窺探了一下MachO文件的結(jié)構(gòu),理解MachO文件結(jié)構(gòu)是對(duì)后續(xù)學(xué)習(xí)MachO文件加載进倍、dyld等建立知識(shí)基礎(chǔ)土至。好多知識(shí)對(duì)于自己目前的知識(shí)水平感覺真的是看著像都懂了,但一問細(xì)節(jié)卻又什么都不懂猾昆,書讀百遍其義自見吧陶因。
參考文章:
iOS逆向(5)-不知MachO怎敢說自己懂DYLD
理解 Mach-O 并提高程序啟動(dòng)速度