目錄:
編譯器和靜態(tài)分析的關(guān)系
AST vs IR
IR:3-地址代碼(3AC)
實際靜態(tài)分析器的3AC—Soot(Java)
SSA-靜態(tài)單賦值
基本塊(BB)
控制流圖(CFG)
1.編譯器和靜態(tài)分析的關(guān)系
源碼->(Scanner - 詞法Lexical分析-Regular Expression)->(Parser- 語法Syntax分析-Context-Free Grammar)细疚, 生成AST ->(Type Checker - 語義Semantic分析 - Attribute Grammar),生成 Decorated AST -> Translator,生成IR疯兼,進行靜態(tài)分析 -> Code Generator
2.AST vs IR
AST :高級余掖,更接近于語法結(jié)構(gòu),依賴于語言種類绢淀,適用于快速類型檢查出刷,缺少控制流信息
IR:低級,更接近于機器碼姨裸,不依賴語言種類秧倾,壓縮且簡潔,包含控制流信息傀缩。是靜態(tài)分析的基礎
3.IR:3-地址代碼(3AC)
// 最多1個操作符
a+b+3 -> t1 = a+b
t2 = t1+3
Address:
Name:a那先、b
Constant: 3
編譯器的臨時變量:t1、t2
4.實際靜態(tài)分析器的3AC—Soot(Java)
Soot-常用的Java靜態(tài)分析框架
// java IR(Jimple)基本知識
invokespecial:call constructor, call superclass methods, call private methods
invokevirtual: instance methods call (virtual dispatch)
invokeinterface: cannot optimization, checking interface implementation
invokestation:call static methods
Java 7: invokedynamic -> Java static typing, dynamic language runs on JVM
method signature: class name, return type, method name(parameter1 type, parameter2 type)
5.SSA-靜態(tài)單賦值
定義:給每一個定義變量一個新的名字赡艰,傳遞到接下來的使用當中售淡,每個變量有1個定義(賦值的目標變量)。
優(yōu)點:唯一的變量名可以間接體現(xiàn)程序流信息慷垮,簡化分析過程揖闸;清楚的Define-Use信息。
缺點:引入很多變量和phi-function料身;轉(zhuǎn)換為機器碼時效率變低(引入很多拷貝操作)汤纸。
6.基本塊(BB)
定義:只有1個開頭入口和1個結(jié)尾出口的最長3-地址指令序列。
識別基本塊的算法:首先確定入口指令芹血,第一條指令是入口贮泞;任何跳轉(zhuǎn)指令的目標地址是入口;任何跟在跳轉(zhuǎn)指令之后的指令是入口祟牲。然后構(gòu)造基本塊隙畜,任何基本塊包含1個入口指令和其接下來的指令。
我的想法:對于下1條指令说贝,若該指令不是入口议惰,則可以加入;若該指令有多個出口乡恕,則停止加入言询,否則繼續(xù)判斷下一條指令。
7.控制流圖(CFG)
控制流邊:基本塊A的結(jié)尾有跳轉(zhuǎn)指令跳轉(zhuǎn)到基本塊B傲宜;原始指令序列中运杭,B緊跟著A,且A的結(jié)尾不是無條件跳轉(zhuǎn)函卒。
添加Entry / Exit:沒有塊跳轉(zhuǎn)到該塊 / 沒有跳轉(zhuǎn)到其他塊辆憔。