窺探字符串的內(nèi)存
- 首先 塘秦,我們定義一個(gè)短的字符串筷狼,如下所示,通過
MemoryLayout
打印恃鞋,我們知道了str1變量
占用了16個(gè)字節(jié)崖媚,那么這16個(gè)字節(jié)究竟存儲(chǔ)了什么呢 ,我們通過匯編來看一下
- 首先 塘秦,我們定義一個(gè)短的字符串筷狼,如下所示,通過
var str1 = "0123456789"
print(MemoryLayout.stride(ofValue: str1)) 打印出來是16個(gè)字節(jié)恤浪,也就是說str1占用了16字節(jié)
- 為了防止干擾畅哑,我們把打印的代碼注釋掉,只留下
var str1 = "0123456789"
资锰,以下就是這句代碼的匯編代碼
- 為了防止干擾畅哑,我們把打印的代碼注釋掉,只留下
TestSwift`main:
0x100001390 <+0>: pushq %rbp
0x100001391 <+1>: movq %rsp, %rbp
0x100001394 <+4>: subq $0x10, %rsp
-> 0x100001398 <+8>: leaq 0x4361(%rip), %rax ; "0123456789"
0x10000139f <+15>: movl %edi, -0x4(%rbp)
0x1000013a2 <+18>: movq %rax, %rdi
0x1000013a5 <+21>: movl $0xa, %eax
0x1000013aa <+26>: movq %rsi, -0x10(%rbp)
0x1000013ae <+30>: movq %rax, %rsi
0x1000013b1 <+33>: movl $0x1, %edx
0x1000013b6 <+38>: callq 0x100005402 ; symbol stub for: Swift.String.init(_builtinStringLiteral: Builtin.RawPointer, utf8CodeUnitCount: Builtin.Word, isASCII: Builtin.Int1) -> Swift.String
0x1000013bb <+43>: xorl %ecx, %ecx
0x1000013bd <+45>: movq %rax, 0x5e24(%rip) ; TestSwift.str1 : Swift.String
0x1000013c4 <+52>: movq %rdx, 0x5e25(%rip) ; TestSwift.str1 : Swift.String + 8
0x1000013cb <+59>: movl %ecx, %eax
0x1000013cd <+61>: addq $0x10, %rsp
0x1000013d1 <+65>: popq %rbp
0x1000013d2 <+66>: retq
- 我們重點(diǎn)觀察一下下面兩句匯編敢课,通過注釋和操作數(shù)
q
(q代表操作8個(gè)字節(jié)的空間),就可以看出來第一句是操作了str1變量
的前8個(gè)字節(jié)绷杜,第二句操作了str1變量
的后8個(gè)字節(jié)
- 我們重點(diǎn)觀察一下下面兩句匯編敢课,通過注釋和操作數(shù)
0x1000013bd <+45>: movq %rax, 0x5e24(%rip) ; TestSwift.str1 : Swift.String
0x1000013c4 <+52>: movq %rdx, 0x5e25(%rip) ; TestSwift.str1 : Swift.String + 8
-
0x5e24(%rip)
的意思就是將rip寄存器
的值與0x5e24
相加 直秆,我們知道rip寄存器
存儲(chǔ)著下一條指令的地址,也就是0x1000013c4
鞭盟,與0x5e24
相加圾结,就是0x1000071E8
,通過LLDB命令x/2xg
齿诉,打印出從0x1000071E8
地址開始的16個(gè)字節(jié)的數(shù)據(jù)筝野,來進(jìn)行觀察晌姚,如下所示
-
(lldb) x/2xg 0x1000071E8
0x1000071e8: 0x3736353433323130 0xea00000000003938
上面是小端模式讀取的,不好看歇竟,現(xiàn)在用另一種模式讀取挥唠,就很容易看出來
(lldb) x 0x1000071E8
0x1000071e8: 30 31 32 33 34 35 36 37 38 39 00 00 00 00 00 ea 0123456789......
0x1000071f8: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
- 我們發(fā)現(xiàn)
str1變量
中存儲(chǔ)的數(shù)據(jù)就是字符串"0123456789"
的ASCII值的十六進(jìn)制,也就是說短的字符串焕议,數(shù)據(jù)直接會(huì)存放在變量的內(nèi)存里面(非常類似OC中的tagger pointer)宝磨。
- 我們發(fā)現(xiàn)
- 我們逐漸加長(zhǎng)字符串并且一一查看內(nèi)存,如下所示盅安,就可以看出來唤锉,當(dāng)字符串的長(zhǎng)度
小于16
時(shí),隨著字符串長(zhǎng)度的逐漸增加别瞭,最后一個(gè)字節(jié)存放著0xe
不變窿祥,0xa
逐漸增大到了0xf
,也就說0xe
很有可能代表字符串的類型蝙寨,而0xa
肯定就是字符串的長(zhǎng)度晒衩;當(dāng)字符串的長(zhǎng)度大于等于16
時(shí),str1變量
的內(nèi)存突然就發(fā)生了變化籽慢,那么此時(shí)字符串是怎么存儲(chǔ)的呢浸遗?
- 我們逐漸加長(zhǎng)字符串并且一一查看內(nèi)存,如下所示盅安,就可以看出來唤锉,當(dāng)字符串的長(zhǎng)度
var str1 = "0123456789"時(shí), str1的內(nèi)存是:0x3736353433323130 0xea00000000003938
var str1 = "0123456789A"時(shí)箱亿, str1的內(nèi)存是:0x3736353433323130 0xeb00000000413938
var str1 = "0123456789AB"時(shí), str1的內(nèi)存是:0x3736353433323130 0xec00000042413938
var str1 = "0123456789ABC"時(shí)弃秆, str1的內(nèi)存是:0x3736353433323130 0xed00004342413938
var str1 = "0123456789ABCD"時(shí)届惋, str1的內(nèi)存是:0x3736353433323130 0xee00444342413938
var str1 = "0123456789ABCDE"時(shí), str1的內(nèi)存是:0x3736353433323130 0xef45444342413938
var str1 = "0123456789ABCDEF"時(shí)菠赚,str1的內(nèi)存是:0xd000000000000010 0x80000001000056d0
- 我們來分析一下
var str1 = "0123456789ABCDEF"
的匯編代碼脑豹,窺探一下字符串是怎么存儲(chǔ)的,下面就是這句代碼的匯編代碼
- 我們來分析一下
TestSwift`main:
0x100001380 <+0>: pushq %rbp
0x100001381 <+1>: movq %rsp, %rbp
0x100001384 <+4>: subq $0x10, %rsp
-> 0x100001388 <+8>: leaq 0x4361(%rip), %rax ; "0123456789ABCDEF"
0x10000138f <+15>: movl %edi, -0x4(%rbp)
0x100001392 <+18>: movq %rax, %rdi
0x100001395 <+21>: movl $0x10, %eax
0x10000139a <+26>: movq %rsi, -0x10(%rbp)
0x10000139e <+30>: movq %rax, %rsi
0x1000013a1 <+33>: movl $0x1, %edx
0x1000013a6 <+38>: callq 0x1000053f2 ; symbol stub for: Swift.String.init(_builtinStringLiteral: Builtin.RawPointer, utf8CodeUnitCount: Builtin.Word, isASCII: Builtin.Int1) -> Swift.String
0x1000013ab <+43>: xorl %ecx, %ecx
0x1000013ad <+45>: movq %rax, 0x5e34(%rip) ; TestSwift.str1 : Swift.String
0x1000013b4 <+52>: movq %rdx, 0x5e35(%rip) ; TestSwift.str1 : Swift.String + 8
0x1000013bb <+59>: movl %ecx, %eax
0x1000013bd <+61>: addq $0x10, %rsp
0x1000013c1 <+65>: popq %rbp
0x1000013c2 <+66>: retq
- 重點(diǎn)觀察這幾句匯編衡查,我們來一句一句分析一下瘩欺,如下所示
leaq指令是直接賦值地址,從注釋可以看出來是把"0123456789ABCDEF"的真實(shí)地址給了rax寄存器
通過rip+0x4361拌牲,可以算出字符串的真實(shí)地址是:0x1000056F0
0x100001388 <+8>: leaq 0x4361(%rip), %rax ; "0123456789ABCDEF"
又把rax寄存器的值給了rdi寄存器俱饿,也就是說rdi寄存器里存放著字符串的真實(shí)地址
0x100001392 <+18>: movq %rax, %rdi
把0x10給了eax寄存器,eax寄存器就是rax寄存器塌忽,也就是說rax寄存器里存儲(chǔ)著字符串的長(zhǎng)度(十六進(jìn)制0x10就是十進(jìn)制的16)
0x100001395 <+21>: movl $0x10, %eax
又把rax寄存器的值給了rsi寄存器拍埠,也就是說rsi寄存器里的值就是字符串的長(zhǎng)度
0x10000139e <+30>: movq %rax, %rsi
調(diào)用了函數(shù)String.init(),把rdi寄存器和rsi寄存器作為了參數(shù)土居,也就說把字符串的真實(shí)地址和字符串長(zhǎng)度作為參數(shù)枣购,調(diào)用了String.init()
0x1000013a6 <+38>: callq 0x1000053f2 ; symbol stub for: Swift.String.init(_builtinStringLiteral: Builtin.RawPointer, utf8CodeUnitCount: Builtin.Word, isASCII: Builtin.Int1) -> Swift.String
把rax寄存器的值給了str1變量的前8個(gè)字節(jié)
0x1000013ad <+45>: movq %rax, 0x5e34(%rip) ; TestSwift.str1 : Swift.String
把rdx寄存器的值給了str1變量的后8個(gè)字節(jié)
0x1000013b4 <+52>: movq %rdx, 0x5e35(%rip) ; TestSwift.str1 : Swift.String + 8
- 從上面分析可以看出來嬉探,
rdi寄存器
存放著字符串的真實(shí)地址,rsi寄存器
存放著字符串的長(zhǎng)度棉圈,然后又把這兩個(gè)作為參數(shù)涩堤,調(diào)用了String.init()函數(shù)
,最后函數(shù)的把返回值存在了rax寄存器
和rdx寄存器
中分瘾,又分別放到了str1變量
的前8個(gè)字節(jié)和后8個(gè)字節(jié)中胎围,那么我們?cè)賮矸治鲆幌?code>String.init()函數(shù)內(nèi)部究竟做了什么,我們來看一下String.init()函數(shù)
的匯編代碼:
- 從上面分析可以看出來嬉探,
libswiftCore.dylib`Swift.String.init(_builtinStringLiteral: Builtin.RawPointer, utf8CodeUnitCount: Builtin.Word, isASCII: Builtin.Int1) -> Swift.String:
-> 0x7fff722e9c40 <+0>: pushq %rbp
0x7fff722e9c41 <+1>: movq %rsp, %rbp
0x7fff722e9c44 <+4>: pushq %r14
0x7fff722e9c46 <+6>: pushq %rbx
0x7fff722e9c47 <+7>: subq $0x10, %rsp
0x7fff722e9c4b <+11>: testq %rsi, %rsi
0x7fff722e9c4e <+14>: js 0x7fff722e9e31 ; <+497>
0x7fff722e9c54 <+20>: movl %edx, %eax
0x7fff722e9c56 <+22>: movabsq $-0x2000000000000000, %rdx ; imm = 0xE000000000000000
0x7fff722e9c60 <+32>: testq %rsi, %rsi
0x7fff722e9c63 <+35>: je 0x7fff722e9ca4 ; <+100>
0x7fff722e9c65 <+37>: cmpq $0xf, %rsi
0x7fff722e9c69 <+41>: jle 0x7fff722e9cab ; <+107>
0x7fff722e9c6b <+43>: movabsq $-0x4000000000000000, %rcx ; imm = 0xC000000000000000
0x7fff722e9c75 <+53>: orq %rsi, %rcx
0x7fff722e9c78 <+56>: testb $0x1, %al
0x7fff722e9c7a <+58>: cmoveq %rsi, %rcx
0x7fff722e9c7e <+62>: movabsq $0x1000000000000000, %rax ; imm = 0x1000000000000000
0x7fff722e9c88 <+72>: orq %rcx, %rax
0x7fff722e9c8b <+75>: movabsq $0x7fffffffffffffe0, %rdx ; imm = 0x7FFFFFFFFFFFFFE0
0x7fff722e9c95 <+85>: addq %rdx, %rdi
0x7fff722e9c98 <+88>: addq $0x20, %rdx
- 我們重點(diǎn)看下面三句匯編芹敌,在
String.init()函數(shù)
內(nèi)部痊远,它比較了0xf
與rsi寄存器
值的大小,前面說過rsi寄存器
中存放著字符串的長(zhǎng)度氏捞,也就是比較了0xf
與字符串的長(zhǎng)度碧聪;又把rdx寄存器
的值變成了字符串的真實(shí)地址+$0x7fffffffffffffe0
,從上面的分析我們知道rdx寄存器
的值最后又給了str1變量
的后8個(gè)字節(jié)液茎,也就是說現(xiàn)在str1變量
的后8個(gè)字節(jié)存放的是字符串的真實(shí)地址+$0x7fffffffffffffe0
- 我們重點(diǎn)看下面三句匯編芹敌,在
比較0xf與rsi寄存器值的大小逞姿,前面說過rsi寄存器中存放著字符串的長(zhǎng)度
0x7fff722e9c65 <+37>: cmpq $0xf, %rsi
將立即數(shù)$0x7fffffffffffffe0放到rdx寄存器中
0x7fff722e9c8b <+75>: movabsq $0x7fffffffffffffe0, %rdx ; imm = 0x7FFFFFFFFFFFFFE0
將rdx寄存器中的值與rdi寄存器相加,并且放到rdx寄存器中捆等,前面說過rdi寄存器放著字符串的真實(shí)地址
所以現(xiàn)在rdx寄存器中放著字符串的真實(shí)地址+$0x7fffffffffffffe0
0x7fff722e9c95 <+85>: addq %rdx, %rdi
- 通過以下兩種方式都可以算出來字符串的真實(shí)地址是
0x1000056F0
滞造,那么這個(gè)地址究竟指向內(nèi)存空間的哪里呢,我們通過MacOView工具來查看一下這個(gè)地址
- 通過以下兩種方式都可以算出來字符串的真實(shí)地址是
通過rip+0x4361栋烤,可以算出字符串的真實(shí)地址是:0x1000056F0
0x100001388 <+8>: leaq 0x4361(%rip), %rax ; "0123456789ABCDEF"
也可以通過str1后8個(gè)字節(jié)的數(shù)據(jù) - 0x7fffffffffffffe0 算出來谒养,字符串的真實(shí)地址是0x1000056F0
var str1 = "0123456789ABCDEF"時(shí),str1的內(nèi)存是:0xd000000000000010 0x80000001000056d0
- MacOView中的地址是虛擬地址明郭,需要加上
0x1000000
才是內(nèi)存中的真實(shí)地址买窟,也就是字符串的真實(shí)地址0x1000056F0
,減去0x1000000
薯定,算出來的0x56F0
才是在MacOView中的虛擬地址始绍,從這個(gè)0x56F0
地址存放的位置,從下圖可以看出话侄,字符串在_TEXT,_cstring
中亏推,也就是常量區(qū),所以得出結(jié)論:當(dāng)字符串的長(zhǎng)度大于等于16
時(shí)年堆,字符串會(huì)存儲(chǔ)在常量區(qū)
吞杭。
- MacOView中的地址是虛擬地址明郭,需要加上
- 其實(shí)無論字符串長(zhǎng)短,
初始化時(shí)的字符串都會(huì)在常量區(qū)
嘀韧,當(dāng)字符串長(zhǎng)度小于16時(shí)篇亭,會(huì)把常量區(qū)的字符串直接放到變量的內(nèi)存中;當(dāng)字符串長(zhǎng)度大于等于16時(shí)锄贷,會(huì)把常量區(qū)的地址加上某個(gè)立即數(shù)译蒂,然后放在變量的后8個(gè)字節(jié)中曼月。
- 其實(shí)無論字符串長(zhǎng)短,
- 我們知道
當(dāng)程序運(yùn)行時(shí),常量區(qū)的值就不能更改了
柔昼,那么當(dāng)我們拼接字符串時(shí)哑芹,字符串又是如何存儲(chǔ)的呢?來看看下面的代碼
- 我們知道
var str1 = "0123456789ABCDEF"
str1.append("G")
- 這兩句代碼的匯編是這樣的 :
TestSwift`main:
0x100001300 <+0>: pushq %rbp
0x100001301 <+1>: movq %rsp, %rbp
0x100001304 <+4>: pushq %r13
0x100001306 <+6>: subq $0x38, %rsp
-> 0x10000130a <+10>: leaq 0x43df(%rip), %rax ; "0123456789ABCDEF"
0x100001311 <+17>: movl %edi, -0x24(%rbp)
0x100001314 <+20>: movq %rax, %rdi
0x100001317 <+23>: movl $0x10, %eax
0x10000131c <+28>: movq %rsi, -0x30(%rbp)
0x100001320 <+32>: movq %rax, %rsi
0x100001323 <+35>: movl $0x1, %edx
0x100001328 <+40>: callq 0x1000053d2 ; symbol stub for: Swift.String.init(_builtinStringLiteral: Builtin.RawPointer, utf8CodeUnitCount: Builtin.Word, isASCII: Builtin.Int1) -> Swift.String
0x10000132d <+45>: movq %rax, 0x5ec4(%rip) ; TestSwift.str1 : Swift.String
0x100001334 <+52>: movq %rdx, 0x5ec5(%rip) ; TestSwift.str1 : Swift.String + 8
0x10000133b <+59>: leaq 0x43bf(%rip), %rdi ; "'G'"
0x100001342 <+66>: movl $0x1, %esi
0x100001347 <+71>: movl $0x1, %edx
0x10000134c <+76>: callq 0x1000053d2 ; symbol stub for: Swift.String.init(_builtinStringLiteral: Builtin.RawPointer, utf8CodeUnitCount: Builtin.Word, isASCII: Builtin.Int1) -> Swift.String
0x100001351 <+81>: leaq 0x5ea0(%rip), %rsi ; TestEnumMemory.str1 : Swift.String
0x100001358 <+88>: xorl %ecx, %ecx
0x10000135a <+90>: movq %rsi, %rdi
0x10000135d <+93>: leaq -0x20(%rbp), %rsi
0x100001361 <+97>: movl $0x21, %r8d
0x100001367 <+103>: movq %rdx, -0x38(%rbp)
0x10000136b <+107>: movq %r8, %rdx
0x10000136e <+110>: movq %rax, -0x40(%rbp)
0x100001372 <+114>: callq 0x10000547a ; symbol stub for: swift_beginAccess
0x100001377 <+119>: movq -0x40(%rbp), %rdi
0x10000137b <+123>: movq -0x38(%rbp), %rsi
0x10000137f <+127>: leaq 0x5e72(%rip), %r13 ; TestSwift.str1 : Swift.String
0x100001386 <+134>: callq 0x1000053d8 ; symbol stub for: Swift.String.append(Swift.String) -> ()
0x10000138b <+139>: leaq -0x20(%rbp), %rdi
0x10000138f <+143>: callq 0x100005498 ; symbol stub for: swift_endAccess
0x100001394 <+148>: movq -0x38(%rbp), %rdi
0x100001398 <+152>: callq 0x100005480 ; symbol stub for: swift_bridgeObjectRelease
0x10000139d <+157>: xorl %eax, %eax
0x10000139f <+159>: addq $0x38, %rsp
0x1000013a3 <+163>: popq %r13
0x1000013a5 <+165>: popq %rbp
0x1000013a6 <+166>: retq
- 重點(diǎn)觀察這一句
0x10000137f <+127>: leaq 0x5e72(%rip), %r13 ; TestEnumMemory.str1 : Swift.String
捕透,str1變量
的地址時(shí)在r13寄存器
中的聪姿,我們打印r13寄存器
中的值,就可以得出str1變量
的地址乙嘀,讀取str1變量
的后 8個(gè)字節(jié)末购,我們發(fā)現(xiàn)從第33個(gè)字節(jié)開始,就是我們存儲(chǔ)的字符串了虎谢,有經(jīng)驗(yàn)的話盟榴,一眼就可以看出,str1變量的后8個(gè)字節(jié)
婴噩,存放的是堆空間的地址
擎场。
- 重點(diǎn)觀察這一句
str1變量的地址從0x00000001000071f8開始的
(lldb) register read r13
r13 = 0x00000001000071f8 TestEnumMemory`TestEnumMemory.str1 : Swift.String
從0x00000001000071f8開始,讀取16個(gè)字節(jié)
(lldb) x/2xg 0x00000001000071f8
0x1000071f8: 0xf000000000000011 0x000000010070ac40
讀取 str1變量的后8個(gè)字節(jié)
(lldb) x/10xg 0x000000010070ac40
0x10070ac40: 0x00007fff9cc0fca8 0x0000000000000002
0x10070ac50: 0x0000000000000018 0xf000000000000011
0x10070ac60: 0x3736353433323130 0x4645444342413938
0x10070ac70: 0x00007fff93e30047 0x0000000000000000
0x10070ac80: 0x0000000000000000 0x0000000000000000
- 這里總結(jié)一下字符串的內(nèi)存
如果一開始初始化時(shí)几莽,字符串長(zhǎng)度
小于16時(shí)
迅办,會(huì)直接把常量區(qū)字符串的內(nèi)容 ,拷貝到str1變量的內(nèi)存中章蚣,例如:var str1 = "0123456789"
站欺,字符串的內(nèi)容就以ASCII的形式存儲(chǔ)在str1變量的內(nèi)存中如果一開始初始化時(shí),字符串長(zhǎng)度
大于等于16時(shí)
纤垂,字符串內(nèi)容會(huì)存放在常量區(qū)(__TEXT.cstring)镊绪,變量的前8個(gè)字節(jié)存放標(biāo)識(shí)符和字符串長(zhǎng)度
,會(huì)把字符串的常量區(qū)的真實(shí)地址加上某個(gè)立即數(shù)
洒忧,存放在變量的后8個(gè)字節(jié)中,例如:var str1 = "0123456789ABCDEF"
够颠,str1變量的前8個(gè)字節(jié)存放標(biāo)識(shí)符和字符串長(zhǎng)度熙侍,后8個(gè)字節(jié)就存放著字符串的常量區(qū)地址+某個(gè)立即數(shù)
如果字符串拼接之后如果仍然
小于16時(shí)
,字符串的內(nèi)容還是存放在str1變量的內(nèi)存中履磨,例如:var str1 = "012345"; str1.append("ABCDE")
蛉抓,拼接后字符串的內(nèi)容仍然在str1變量的內(nèi)存中如果字符串拼接之后長(zhǎng)度
大于等于16
,會(huì)開辟堆空間
剃诅,變量的后8個(gè)字節(jié)存放著這個(gè)堆空間的地址信息
巷送,堆空間的前32個(gè)字節(jié)存放描述信息,后面才是真正的字符串內(nèi)容矛辕,例如:var str1 = "012345678"; str1.append("ABCDEFGHEFSJ")
笑跛,拼接之后付魔,就會(huì)開辟堆空間,str1變量的 后8個(gè)字節(jié)就是這個(gè)堆空間的地址飞蹂,堆空間里的前32個(gè)字節(jié)存放描述信息几苍,往后就是字符串的內(nèi)容