HQL的解析過程主要在Driver中的compile方法,這一些主要看這個(gè)方法中的代碼。
1. compile中的主要內(nèi)容
public int compile(String command, boolean resetTaskIds, boolean deferClose) {
..........
// 對sql語句進(jìn)行處理(敏感信息注服、變量替換等)
String queryStr = command;
queryStr = HookUtils.redactLogString(conf, command); // 處理敏感信息(這里應(yīng)該是可以自定義擴(kuò)展的)
............
// Step1. 獲取抽象語法樹
ASTNode tree = ParseUtils.parse(command, ctx);
.............
// Step2. 進(jìn)行語義分析
BaseSemanticAnalyzer sem = SemanticAnalyzerFactory.get(queryState, tree);
sem.analyze(tree, ctx);
sem.validate();
// Step3. 生成執(zhí)行計(jì)劃
schema = getSchema(sem, conf);
plan = new QueryPlan(queryStr, sem, perfLogger.getStartTime(PerfLogger.DRIVER_RUN), queryId, queryState.getHiveOperation(), schema);
.............
return 0;
}
compile中主要有三大部分內(nèi)容:
- 根據(jù)SQL生成抽象語法樹
- 進(jìn)行語義分析
- 執(zhí)行計(jì)劃的生成
2. 獲取抽象語法樹
主要是通過ParseUtils中的parse方法來生成語法樹捡硅,最后轉(zhuǎn)向ParseDriver中的parse方法吏口,代碼如下:
public ASTNode parse(String command, Context ctx, String viewFullyQualifiedName) {
.............
// 創(chuàng)建詞法規(guī)則
HiveLexerX lexer = new HiveLexerX(new ANTLRNoCaseStringStream(command));
TokenRewriteStream tokens = new TokenRewriteStream(lexer);
// 創(chuàng)建語法分析器
HiveParser parser = new HiveParser(tokens);
r = parser.statement();
ASTNode tree = (ASTNode) r.getTree();
.............
return tree;
}
Hive主要是通過用ANTLR語法定義的詞法和文法文件來進(jìn)行解析术瓮,最后生成抽象語法樹。
3. 進(jìn)行語義分析
語義分析主要通過 BaseSemanticAnalyzer 實(shí)現(xiàn)類中的 analyze 方法進(jìn)行踊东。
不同的sql語句會(huì)用不同的 BaseSemanticAnalyzer實(shí)現(xiàn)類來進(jìn)行分析北滥,主要有以下語義分析器:
3.1 語義分析器
語法 | 語義分析器 |
---|---|
explain ....... | ExplainSemanticAnalyzer |
rewirte ..... ?闸翅? | ExplainSQRewriteSemanticAnalyzer |
load ... | LoadSemanticAnalyzer |
export ... | ExportSemanticAnalyzer |
import ... | ImportSemanticAnalyzer |
repl dump ... / repl load ... / repl status ... 碑韵?? | ReplicationSemanticAnalyzer |
alter table .../ alter view ... | DDLSemanticAnalyzer |
create database .../ drop database .../ use databaseName / drop table .../ drop view .../ drop materialized view .../ desc database .../ desc table .../ desc function .../ msck ...??/ rebuild ...??/show databases... / show tables.../ show columns.../ show create .... / show functions .../ show partitions .../ show ....../ abort transcations .../ lock .../ grant ... / revoke ... / set role ... | DDLSemanticAnalyzer |
create function ... / drop function ... / reload function ... | FunctionSemanticAnalyzer |
analyze ... | ColumnStatsSemanticAnalyzer |
create macro.../ drop macro... (宏) | MacroSemanticAnalyzer |
update table.../ delete from ... / merge ... | UpdateDeleteSemanticAnalyzer |
其他語句 | 如果參數(shù) hive.cbo.enable 被置為 true(默認(rèn)情況下是true)缎脾,則創(chuàng)建 CalcitePlanner對象,否則創(chuàng)建SemanticAnalyzer對象占卧。CalcitePlanner繼承了SemanticAnalyzer |
從上面對應(yīng)關(guān)系看來遗菠,我們常寫的查詢語句主要是通過 SemanticAnalyzer 中的 analyze 方法解析的。
3.2 SemanticAnalyzer語義分析器中的analyze方法
主要看其中的analyze方法华蜒,anlyze最終轉(zhuǎn)向的是各個(gè)語義分析器中的 analyzeInternal 方法辙纬,SemanticAnalyzer中的analyzeInternal 代碼如下:
// PlannerContext 是SemanticAnalyzer中的一個(gè)靜態(tài)類,
// 如果參數(shù)hive.cbo.enable為false叭喜,這里 plannerCtx 是新建的 PlannerContext 的對象
// 如果參數(shù)hive.cbo.enable為true贺拣,這里 plannerCtx 是 PreCboCtx 對象,PreCboCtx繼承了PlannerContext
void analyzeInternal(ASTNode ast, PlannerContext plannerCtx) throws SemanticException {
...........
// step1. 從抽象語法樹生成 resolved parse tree
genResolvedParseTree(ast, plannerCtx)
...........
// step2. 從 resolved parse tree 生成 op tree
Operator sinkOp = genOPTree(ast, plannerCtx);
...........
// step3. 推斷結(jié)果集表結(jié)構(gòu)
resultSchema = convertRowSchemaToViewSchema(opParseCtx.get(sinkOp).getRowResolver());
或者
resultSchema = convertRowSchemaToResultSetSchema(opParseCtx.get(sinkOp).getRowResolver(), HiveConf.getBoolVar(conf, HiveConf.ConfVars.HIVE_RESULTSET_USE_UNIQUE_COLUMN_NAMES));
............
// step4. 為優(yōu)化器和物理編譯器生成上下文
ParseContext pCtx = new ParseContext(queryState, opToPartPruner, opToPartList, topOps,
new HashSet<JoinOperator>(joinContext.keySet()),
new HashSet<SMBMapJoinOperator>(smbMapJoinContext.keySet()),
loadTableWork, loadFileWork, columnStatsAutoGatherContexts, ctx, idToTableNameMap, destTableId, uCtx,
listMapJoinOpsNoReducer, prunedPartitions, tabNameToTabObject, opToSamplePruner,
globalLimitCtx, nameToSplitSample, inputs, rootTasks, opToPartToSkewedPruner,
viewAliasToInput, reduceSinkOperatorsAddedByEnforceBucketingSorting,
analyzeRewrite, tableDesc, createVwDesc, queryProperties, viewProjectToTableSchema, acidFileSinks);
...........
// step5. 執(zhí)行邏輯優(yōu)化
Optimizer optm = new Optimizer();
optm.setPctx(pCtx);
optm.initialize(conf);
pCtx = optm.optimize();
FetchTask origFetchTask = pCtx.getFetchTask();
.............
// step6.優(yōu)化物理執(zhí)行樹 & 翻譯成目標(biāo)執(zhí)行引擎
TaskCompiler compiler = TaskCompilerFactory.getCompiler(conf, pCtx);
compiler.init(queryState, console, db);
compiler.compile(pCtx, rootTasks, inputs, outputs);
fetchTask = pCtx.getFetchTask();
...............
return;
}
從以上代碼中可以看出語義分析中主要包括以下幾部分:
- 從抽象語法樹生成 resolved parse tree
- 從 resolved parse tree 生成 op tree
- 推斷結(jié)果集表結(jié)構(gòu)
- 為優(yōu)化器和物理編譯器生成上下文
- 執(zhí)行邏輯優(yōu)化
- 優(yōu)化物理執(zhí)行樹 & 翻譯成目標(biāo)執(zhí)行引擎
4. 小結(jié)
這一節(jié)主要看了一下HQL解析中抽象語法樹的生成和語義分析器中的analyze方法都做了什么,后面開始分析從抽象語法樹 到 執(zhí)行計(jì)劃的過程中都做了什么譬涡。