iOS底層原理探索--dyld加載流程分析
前言
在平時(shí)的開(kāi)發(fā)過(guò)程中峭梳,我們經(jīng)歷過(guò)成千上萬(wàn)次的 Command + B/R 的過(guò)程页徐,但可能很少有人關(guān)注這個(gè)過(guò)程中 XCode 幫我們做了哪些些事情。
事實(shí)上媳危,這個(gè)過(guò)程分解為4個(gè)步驟络凿,分別是預(yù)處理(Prepressing)骡送、編譯(Compilation)、匯編(Assembly)和鏈接(Linking). ------ 摘自《程序員的自我修養(yǎng)-- 鏈接喷众、裝載與庫(kù)》
在以上4個(gè)步驟中各谚,IDE主要做了以下幾件事:
- 處理代碼中的 # 開(kāi)頭的預(yù)編譯指令,比如刪除#define并展開(kāi)宏定義到千,將#include包含的文件插入到該指令位置等昌渤;
- 對(duì)預(yù)編譯處理過(guò)的文件進(jìn)行詞法分析、語(yǔ)法分析和語(yǔ)義分析憔四,并進(jìn)行源代碼優(yōu)化膀息,然后生成匯編代碼;
- 通過(guò)匯編器將匯編代碼轉(zhuǎn)換為機(jī)器可以執(zhí)行的指令了赵,并生成目標(biāo)文件.o文件潜支;
- 將目標(biāo)文件鏈接成可執(zhí)行文件。這一過(guò)程中柿汛,鏈接器將不同的目標(biāo)文件鏈接起來(lái)冗酿,因?yàn)椴煌哪繕?biāo)文件之間可能有相互引用的變量或調(diào)用的函數(shù),如我們經(jīng)常調(diào)用 Foundation 框架和 UIKit 框架中的方法和變量络断,但是這些框架跟我們的代碼并不在一個(gè)目標(biāo)文件中裁替,這就需要鏈接器將它們與我們自己的代碼鏈接起來(lái)。
在蘋(píng)果的操作系統(tǒng)中貌笨,就是由dyld來(lái)完成鏈接加載程序的操作弱判。
一、dyld簡(jiǎn)介
dyld(The dynamic link editor)是蘋(píng)果的動(dòng)態(tài)鏈接器锥惋,負(fù)責(zé)程序的鏈接及加載工作昌腰,是蘋(píng)果操作系統(tǒng)的重要組成部分。dyld是開(kāi)源的膀跌,我們可以在蘋(píng)果的開(kāi)源網(wǎng)站 OpenSource 上找到其源碼遭商。
下載源碼,我們就可以分析dyld的加載過(guò)程了捅伤。
二株婴、流程分析
首先我們創(chuàng)建新的iOS工程,在ViewController的 .m 文件中實(shí)現(xiàn)一個(gè)空的 orange}{+load()}$ 方法,并在該方法打斷點(diǎn)
運(yùn)行工程到此斷點(diǎn)后,可以發(fā)現(xiàn)其函數(shù)調(diào)用棧如下:
通過(guò)這個(gè)函數(shù)調(diào)用棧,我們發(fā)現(xiàn)在 +load() 方法之前還有一系列dyld的函數(shù)調(diào)用贿肩,我們就以這些函數(shù)為線索來(lái)分析苍凛。
2.1 start函數(shù)分析
從函數(shù)調(diào)用棧我們可以看見(jiàn)第一個(gè)調(diào)用的地方在dyld的 start 函數(shù), 點(diǎn)擊可以看見(jiàn)匯編代碼如下
我們?cè)赿yld的源碼里搜索 dyldbootstrap::start ,會(huì)發(fā)現(xiàn)有四個(gè)結(jié)果都在匯編代碼里粮彤,于是我們可以猜測(cè)start會(huì)不會(huì)是C語(yǔ)言的函數(shù)根穷,搜索 (前方加空格),會(huì)發(fā)現(xiàn)如下代碼
uintptr_t start(const struct macho_header* appsMachHeader, int argc, const char* argv[],
intptr_t slide, const struct macho_header* dyldsMachHeader,
uintptr_t* startGlue)
{
// if kernel had to slide dyld, we need to fix up load sensitive locations
// we have to do this before using any global variables
slide = slideOfMainExecutable(dyldsMachHeader);
bool shouldRebase = slide != 0;
#if __has_feature(ptrauth_calls)
shouldRebase = true;
#endif
if ( shouldRebase ) {
rebaseDyld(dyldsMachHeader, slide);
}
// allow dyld to use mach messaging
mach_init();
// kernel sets up env pointer to be just past end of agv array
const char** envp = &argv[argc+1];
// kernel sets up apple pointer to be just past end of envp array
const char** apple = envp;
while(*apple != NULL) { ++apple; }
++apple;
// set up random value for stack canary
__guard_setup(apple);
#if DYLD_INITIALIZER_SUPPORT
// run all C++ initializers inside dyld
runDyldInitializers(dyldsMachHeader, slide, argc, argv, envp, apple);
#endif
// now that we are done bootstrapping dyld, call dyld's main
uintptr_t appsSlide = slideOfMainExecutable(appsMachHeader);
return dyld::_main(appsMachHeader, appsSlide, argc, argv, envp, apple, startGlue);
}
在 start() 函數(shù)中主要做了一下幾件事:
- 根據(jù)dyldsMachHeader計(jì)算出 slide, 通過(guò)slide判定是否需要重定位导坟;這里的slide是根據(jù) 計(jì)算出的一個(gè)隨機(jī)值屿良,使得程序每一次運(yùn)行的偏移值都不一樣,防止攻擊者通過(guò)固定地址發(fā)起惡意攻擊惫周;
slide = slideOfMainExecutable(dyldsMachHeader);
bool shouldRebase = slide != 0;
#if __has_feature(ptrauth_calls)
shouldRebase = true;
#endif
if ( shouldRebase ) {
rebaseDyld(dyldsMachHeader, slide);
}
- 初始化 mach_init() 尘惧,(allow dyld to use mach messaging,允許dyld使用mach消息傳遞)递递;
- 棧溢出保護(hù)
- 計(jì)算 appsMachHeader 的偏移喷橙,調(diào)用 dyld::_main() 函數(shù)。
由此我們進(jìn)入到了函數(shù)調(diào)用棧中 dyld::_main() 函數(shù)中登舞。
2.2 dyld::_main()函數(shù)分析
點(diǎn)擊進(jìn)入 dyld::_main() 函數(shù)贰逾,代碼如下
// Entry point for dyld. The kernel loads dyld and jumps to __dyld_start which
// sets up some registers and call this function.
//
// Returns address of main() in target program which __dyld_start jumps to
//
uintptr_t
_main(const macho_header* mainExecutableMH, uintptr_t mainExecutableSlide,
int argc, const char* argv[], const char* envp[], const char* apple[],
uintptr_t* startGlue)
{
}
dyld::main()函數(shù)的代碼比較多,這里只展示了方法名稱(chēng)和參數(shù)菠秒。dyld::main()主要做了以下幾件事:
- setContext:
- 加載共享緩存
- reloadAllImages
- 加載插入的庫(kù)(load any inserted libraries)
- 鏈接主程序和插入的庫(kù)
- 初始化主程序疙剑,initializeMainExecutable();
2.2.1 設(shè)置上下文及配置環(huán)境變量
CRSetCrashLogMessage("dyld: launch started");
setContext(mainExecutableMH, argc, argv, envp, apple);
在main函數(shù)的 launch started 處我們可以發(fā)現(xiàn) setContext() 方法,點(diǎn)進(jìn)方法我們我們發(fā)現(xiàn)這一步就是設(shè)置上下文 gLinkContext 践叠,點(diǎn)進(jìn) gLinkContext 我們發(fā)現(xiàn)它是一個(gè)LinkContext類(lèi)型變量
我們?cè)冱c(diǎn)進(jìn)去LinkContext可以發(fā)現(xiàn)它是一個(gè)結(jié)構(gòu)體,
這個(gè)結(jié)構(gòu)體存儲(chǔ)了 dyld 鏈接過(guò)程中的上下文信息言缤,包括加載哪個(gè)MachO文件、imageCount酵熙、環(huán)境變量等信息轧简。
configureProcessRestrictions(mainExecutableMH);
checkEnvironmentVariables(envp);
接下來(lái)要配置進(jìn)程受限以及檢測(cè)環(huán)境變量,這兩步操作會(huì)影響到有些庫(kù)是否會(huì)被加載匾二。
2.2.2 加載共享緩存
我們?yōu)槭裁匆虞d共享緩存哮独?共享緩存到底是什么呢?舉個(gè)例子察藐,我們開(kāi)發(fā)過(guò)程中會(huì)經(jīng)常用到 UIKit 和 Foundation 框架皮璧,這些框架是放在哪里呢,怎樣加載呢分飞?如果每個(gè)app在運(yùn)行時(shí)都加載一次悴务,顯然會(huì)十分影響效率,也是一種不經(jīng)濟(jì)的方式。蘋(píng)果為了解決這一問(wèn)題讯檐,使用了共享緩存機(jī)制這一方式羡疗。對(duì)于系統(tǒng)動(dòng)態(tài)庫(kù),在app用到某一動(dòng)態(tài)庫(kù)時(shí)就加載進(jìn)內(nèi)存别洪,其他app用到該動(dòng)態(tài)庫(kù)時(shí)就不必重復(fù)加載叨恨。
點(diǎn)擊 mapSharedCache() 方法中的 loadDyldCache 方法可以發(fā)現(xiàn),會(huì)有這一邏輯判斷挖垛,代碼如下痒钝。
bool loadDyldCache(const SharedCacheOptions& options, SharedCacheLoadInfo* results)
{
results->loadAddress = 0;
results->slide = 0;
results->errorMessage = nullptr;
#if TARGET_IPHONE_SIMULATOR
// simulator only supports mmap()ing cache privately into process
return mapCachePrivate(options, results);
#else
if ( options.forcePrivate ) {
// mmap cache into this process only
return mapCachePrivate(options, results);
}
else {
// fast path: when cache is already mapped into shared region
bool hasError = false;
if ( reuseExistingCache(options, results) ) {
hasError = (results->errorMessage != nullptr);
} else {
// slow path: this is first process to load cache
hasError = mapCacheSystemWide(options, results);
}
return hasError;
}
#endif
}
在進(jìn)行共享緩存的加載前,dyld會(huì)檢測(cè)是否可以禁用共享緩存痢毒,代碼如下送矩,我們可以發(fā)現(xiàn)iOS系統(tǒng)下無(wú)法禁用共享緩存。
static void checkSharedRegionDisable(const dyld3::MachOLoaded* mainExecutableMH, uintptr_t mainExecutableSlide)
{
#if __MAC_OS_X_VERSION_MIN_REQUIRED
// if main executable has segments that overlap the shared region,
// then disable using the shared region
if ( mainExecutableMH->intersectsRange(SHARED_REGION_BASE, SHARED_REGION_SIZE) ) {
gLinkContext.sharedRegionMode = ImageLoader::kDontUseSharedRegion;
if ( gLinkContext.verboseMapping )
dyld::warn("disabling shared region because main executable overlaps\n");
}
#if __i386__
if ( !gLinkContext.allowEnvVarsPath ) {
// <rdar://problem/15280847> use private or no shared region for suid processes
gLinkContext.sharedRegionMode = ImageLoader::kUsePrivateSharedRegion;
}
#endif
#endif
// iOS cannot run without shared region
2.2.3 reloadAllImages
在MachO文件的LoadCommands中的有一種類(lèi)型叫 LC_LOAD_DYLIB 哪替,這一類(lèi)型標(biāo)識(shí)的是程序所依賴(lài)的動(dòng)態(tài)庫(kù)栋荸,如圖所示:
程序運(yùn)行時(shí)可以通過(guò)LC_LOAD_DYLIB來(lái)加載動(dòng)態(tài)庫(kù),dyld中通過(guò) instantiateFromLoadedImage() 函數(shù)來(lái)讀取相關(guān)信息夷家,進(jìn)行動(dòng)態(tài)庫(kù)的加載
// The kernel maps in main executable before dyld gets control. We need to
// make an ImageLoader* for the already mapped in main executable.
static ImageLoaderMachO* instantiateFromLoadedImage(const macho_header* mh, uintptr_t slide, const char* path)
{
// try mach-o loader
if ( isCompatibleMachO((const uint8_t*)mh, path) ) {
ImageLoader* image = ImageLoaderMachO::instantiateMainExecutable(mh, slide, path, gLinkContext);
addImage(image);
return (ImageLoaderMachO*)image;
}
throw "main executable not a known format";
}
首先調(diào)用 isCompatibleMachO() 判斷是否兼容此MachO文件, 主要是判斷MachO文件的Magic number蒸其、cputype、cpusubtype等字段是否正確库快。
如果MachO文件格式不正確則拋出異常摸袁,否則執(zhí)行 instantiateMainExecutable() 方法實(shí)例化主程序,并添加image到sAllImages數(shù)組中义屏。我們來(lái)看一下 instantiateMainExecutable() 函數(shù)
// create image for main executable
ImageLoader* ImageLoaderMachO::instantiateMainExecutable(const macho_header* mh, uintptr_t slide, const char* path, const LinkContext& context)
{
//dyld::log("ImageLoader=%ld, ImageLoaderMachO=%ld, ImageLoaderMachOClassic=%ld, ImageLoaderMachOCompressed=%ld\n",
// sizeof(ImageLoader), sizeof(ImageLoaderMachO), sizeof(ImageLoaderMachOClassic), sizeof(ImageLoaderMachOCompressed));
bool compressed;
unsigned int segCount;
unsigned int libCount;
const linkedit_data_command* codeSigCmd;
const encryption_info_command* encryptCmd;
sniffLoadCommands(mh, path, false, &compressed, &segCount, &libCount, context, &codeSigCmd, &encryptCmd);
// instantiate concrete class based on content of load commands
if ( compressed )
return ImageLoaderMachOCompressed::instantiateMainExecutable(mh, slide, path, segCount, libCount, context);
else
#if SUPPORT_CLASSIC_MACHO
return ImageLoaderMachOClassic::instantiateMainExecutable(mh, slide, path, segCount, libCount, context);
#else
throw "missing LC_DYLD_INFO load command";
#endif
}
在該函數(shù)中有幾個(gè)未初始化的變量,這幾個(gè)變量的地址作為參數(shù)兄墅,在 sniffLoadCommands() 調(diào)用后發(fā)生改變踢星。
sniffLoadCommands() 函數(shù)的實(shí)現(xiàn)如下:
// determine if this mach-o file has classic or compressed LINKEDIT and number of segments it has
void ImageLoaderMachO::sniffLoadCommands(const macho_header* mh, const char* path, bool inCache, bool* compressed,
unsigned int* segCount, unsigned int* libCount, const LinkContext& context,
const linkedit_data_command** codeSigCmd,
const encryption_info_command** encryptCmd)
{
*compressed = false;
*segCount = 0;
*libCount = 0;
*codeSigCmd = NULL;
*encryptCmd = NULL;
......省略部分代碼
switch (cmd->cmd) {
case LC_DYLD_INFO:
case LC_DYLD_INFO_ONLY:
if ( cmd->cmdsize != sizeof(dyld_info_command) )
throw "malformed mach-o image: LC_DYLD_INFO size wrong";
dyldInfoCmd = (struct dyld_info_command*)cmd;
*compressed = true;
break;
case LC_SEGMENT_COMMAND:
segCmd = (struct macho_segment_command*)cmd;
case LC_SEGMENT_COMMAND:
// ignore zero-sized segments
if ( segCmd->vmsize != 0 ) *segCount += 1;
case LC_LOAD_DYLIB:
case LC_LOAD_WEAK_DYLIB:
case LC_REEXPORT_DYLIB:
case LC_LOAD_UPWARD_DYLIB:
*libCount += 1;
// fall thru
case LC_CODE_SIGNATURE:
......
if ( *codeSigCmd != NULL )
throw "malformed mach-o image: multiple LC_CODE_SIGNATURE load commands";
*codeSigCmd = (struct linkedit_data_command*)cmd;
break;
case LC_ENCRYPTION_INFO:
......
if ( *encryptCmd != NULL )
throw "malformed mach-o image: multiple LC_ENCRYPTION_INFO load commands";
*encryptCmd = (encryption_info_command*)cmd;
break;
介于代碼比較長(zhǎng),這里只展示了部分代碼隙咸,不過(guò)我們也可以看見(jiàn)該函數(shù)主要是讀取了MachO文件的LoadCommands信息沐悦,并賦值給之前定義的變量。
這幾個(gè)變量的含義如下:
- compressed:
- segCount: MachO文件中segment數(shù)量
- libCount: MachO文件中依賴(lài)的動(dòng)態(tài)庫(kù)的數(shù)量
- codeSigCmd: 簽名信息
- encryptCmd: 加密信息五督,如cryptid等
2.2.4 加載插入的庫(kù)
if ( sEnv.DYLD_INSERT_LIBRARIES != NULL ) {
for (const char* const* lib = sEnv.DYLD_INSERT_LIBRARIES; *lib != NULL; ++lib)
loadInsertedDylib(*lib);
}
// record count of inserted libraries so that a flat search will look at
// inserted libraries, then main, then others.
sInsertedDylibCount = sAllImages.size()-1;
根據(jù) DYLD_INSERT_LIBRARIES 來(lái)判定是否加載插入的庫(kù)藏否,如果允許加載插入的庫(kù)且有插入的庫(kù),則for循環(huán)執(zhí)行 loadInsertedDylib() 函數(shù)加載動(dòng)態(tài)庫(kù)充包,如果不允許加載插入的庫(kù)副签,則執(zhí)行下面的操作。
2.2.5 鏈接主程序和插入的庫(kù)
// link main executable
gLinkContext.linkingMainExecutable = true;
#if SUPPORT_ACCELERATE_TABLES
if ( mainExcutableAlreadyRebased ) {
// previous link() on main executable has already adjusted its internal pointers for ASLR
// work around that by rebasing by inverse amount
sMainExecutable->rebase(gLinkContext, -mainExecutableSlide);
}--nExecutable, sEnv.DYLD_BIND_AT_LAUNCH, true, ImageLoader::RPathChain(NULL, NULL), -1);
sMainExecutable->setNeverUnloadRecursive();
if ( sMainExecutable->forceFlat() ) {
gLinkContext.bindFlat = true;
gLinkContext.prebindUsage = ImageLoader::kUseNoPrebinding;
}
// link any inserted libraries
// do this after linking main executable so that any dylibs pulled in by inserted
// dylibs (e.g. libSystem) will not be in front of dylibs the program uses
if ( sInsertedDylibCount > 0 ) {
for(unsigned int i=0; i < sInsertedDylibCount; ++i) {
ImageLoader* image = sAllImages[i+1];
link(image, sEnv.DYLD_BIND_AT_LAUNCH, true, ImageLoader::RPathChain(NULL, NULL), -1);
image->setNeverUnloadRecursive();
}
// only INSERTED libraries can interpose
// register interposing info after all inserted libraries are bound so chaining works
for(unsigned int i=0; i < sInsertedDylibCount; ++i) {
ImageLoader* image = sAllImages[i+1];
image->registerInterposing(gLinkContext);
}
}
通過(guò) link() 函數(shù)鏈接主程序和插入的庫(kù),鏈接完畢后還會(huì)進(jìn)行 recursiveBind() 淆储、弱綁定 weakBind() 冠场。至此,dyld進(jìn)行setContext遏考、加載共享緩存慈鸠、reloadAllImages、加載插入的庫(kù)灌具、鏈接主程序和插入的庫(kù)已完成,加下來(lái)會(huì)進(jìn)行初始化主程序的操作譬巫。
2.2.6 initializeMainExecutable()
進(jìn)行到這一步咖楣,我們會(huì)發(fā)現(xiàn)正好對(duì)應(yīng)文章開(kāi)頭的函數(shù)調(diào)用棧中第6步的 initializeMainExecutable() 函數(shù)。
void initializeMainExecutable()
{
// record that we've reached this step
gLinkContext.startedInitializingMainExecutable = true;
// run initialzers for any inserted dylibs
ImageLoader::InitializerTimingList initializerTimes[allImagesCount()];
initializerTimes[0].count = 0;
const size_t rootCount = sImageRoots.size();
if ( rootCount > 1 ) {
for(size_t i=1; i < rootCount; ++i) {
sImageRoots[i]->runInitializers(gLinkContext, initializerTimes[0]);
}
}
// run initializers for main executable and everything it brings up
sMainExecutable->runInitializers(gLinkContext, initializerTimes[0]);
// register cxa_atexit() handler to run static terminators in all loaded images when this process exits
if ( gLibSystemHelpers != NULL )
(*gLibSystemHelpers->cxa_atexit)(&runAllStaticTerminators, NULL, NULL);
// dump info if requested
if ( sEnv.DYLD_PRINT_STATISTICS )
ImageLoader::printStatistics((unsigned int)allImagesCount(), initializerTimes[0]);
if ( sEnv.DYLD_PRINT_STATISTICS_DETAILS )
ImageLoaderMachO::printStatisticsDetails((unsigned int)allImagesCount(), initializerTimes[0]);
}
從代碼中我們可以看到 runInitializers() 函數(shù)芦昔,由注釋可以看到該函數(shù)是用來(lái)運(yùn)行主程序初始化器的诱贿,而且該函數(shù)正對(duì)應(yīng)函數(shù)調(diào)用棧中的第5步,從這一步開(kāi)始方法的所在的類(lèi)由dyld變成了ImageLoader咕缎。我們進(jìn)入函數(shù)中看一下代碼:
void ImageLoader::runInitializers(const LinkContext& context, InitializerTimingList& timingInfo)
{
uint64_t t1 = mach_absolute_time();
mach_port_t thisThread = mach_thread_self();
ImageLoader::UninitedUpwards up;
up.count = 1;
up.images[0] = this;
processInitializers(context, thisThread, timingInfo, up);
context.notifyBatch(dyld_image_state_initialized, false);
mach_port_deallocate(mach_task_self(), thisThread);
uint64_t t2 = mach_absolute_time();
fgTotalInitTime += (t2 - t1);
}
在該函數(shù)中我們進(jìn)一步可以看到函數(shù)調(diào)用棧第4步的 processInitializers() 函數(shù)珠十,繼續(xù)點(diǎn)進(jìn)該函數(shù)我們會(huì)發(fā)現(xiàn),函數(shù)調(diào)用棧的第3步 recursiveInitialization() 函數(shù)凭豪,此時(shí)我們無(wú)法再點(diǎn)進(jìn)函數(shù)焙蹭,但是可以通過(guò)在本文件中搜索的方式找到該函數(shù)。
在該函數(shù)中調(diào)用 doInitialization() 函數(shù)進(jìn)行初始化后嫂伞,會(huì)調(diào)用 LinkContext 的 notifySingle() 函數(shù)孔厉,到這里我們發(fā)現(xiàn)該函數(shù)與函數(shù)調(diào)用棧的第2步的正好對(duì)應(yīng)。接著函數(shù)調(diào)用棧的 load_images 函數(shù)帖努,我們?cè)?notifySingle() 并沒(méi)有找到撰豺,而且在函數(shù)調(diào)用棧中也沒(méi)有看到該函數(shù)在哪個(gè)類(lèi)中,我的理解是 notifySingle() 是一個(gè)通知回調(diào)函數(shù)拼余,因此并不在dyld加載過(guò)程中污桦。其實(shí)這一部分屬于objc調(diào)用流程中也會(huì)有,我將在探索類(lèi)的加載時(shí)繼續(xù)探索該部分內(nèi)容匙监。
三凡橱、總結(jié)
本篇文章主要總結(jié)了dyld的加載流程。將源代碼轉(zhuǎn)換為目標(biāo)文件一般會(huì)經(jīng)歷 預(yù)編譯舅柜、編譯梭纹、匯編、鏈接的過(guò)程致份,dyld就是蘋(píng)果的鏈接器变抽,用于將可執(zhí)行文件鏈接成目標(biāo)文件,其主要流程有:
- 1??、設(shè)置上下文及配置環(huán)境變量
- 2??绍载、加載共享緩存
- 3??诡宗、reloadAllImages
- 4??、加載插入的庫(kù)
- 5??击儡、鏈接主程序和插入的庫(kù)
- 6??塔沃、初始化主程序
本文是第一次進(jìn)行dyld底層探索,還有許多細(xì)節(jié)沒(méi)有探索阳谍,歡迎大家批評(píng)指正蛀柴,我會(huì)不斷進(jìn)行完善,后續(xù)也會(huì)繼續(xù)進(jìn)行底層的探索矫夯。