04. Hive源碼 — HQL解析(抽象語法樹的生成和語義分析)

HQL的解析過程主要在Driver中的compile方法,這一些主要看這個(gè)方法中的代碼。

1. compile中的主要內(nèi)容

public int compile(String command, boolean resetTaskIds, boolean deferClose) {
  ..........
  // 對sql語句進(jìn)行處理(敏感信息注服、變量替換等)
  String queryStr = command;
  queryStr = HookUtils.redactLogString(conf, command); // 處理敏感信息(這里應(yīng)該是可以自定義擴(kuò)展的)

  ............
  // Step1. 獲取抽象語法樹 
  ASTNode tree = ParseUtils.parse(command, ctx);

  .............
  // Step2. 進(jìn)行語義分析
  BaseSemanticAnalyzer sem = SemanticAnalyzerFactory.get(queryState, tree);
  sem.analyze(tree, ctx);
  sem.validate();

  // Step3. 生成執(zhí)行計(jì)劃
  schema = getSchema(sem, conf);
  plan = new QueryPlan(queryStr, sem, perfLogger.getStartTime(PerfLogger.DRIVER_RUN), queryId, queryState.getHiveOperation(), schema);
  ............. 
  return 0;
}

compile中主要有三大部分內(nèi)容:

  • 根據(jù)SQL生成抽象語法樹
  • 進(jìn)行語義分析
  • 執(zhí)行計(jì)劃的生成

2. 獲取抽象語法樹

主要是通過ParseUtils中的parse方法來生成語法樹捡硅,最后轉(zhuǎn)向ParseDriver中的parse方法吏口,代碼如下:

public ASTNode parse(String command, Context ctx, String viewFullyQualifiedName) {
  .............
  // 創(chuàng)建詞法規(guī)則
  HiveLexerX lexer = new HiveLexerX(new ANTLRNoCaseStringStream(command));
  TokenRewriteStream tokens = new TokenRewriteStream(lexer);
  // 創(chuàng)建語法分析器
  HiveParser parser = new HiveParser(tokens);
  r = parser.statement();
  ASTNode tree = (ASTNode) r.getTree();
  .............
  return tree;
}

Hive主要是通過用ANTLR語法定義的詞法和文法文件來進(jìn)行解析术瓮,最后生成抽象語法樹。

3. 進(jìn)行語義分析

語義分析主要通過 BaseSemanticAnalyzer 實(shí)現(xiàn)類中的 analyze 方法進(jìn)行踊东。
不同的sql語句會(huì)用不同的 BaseSemanticAnalyzer實(shí)現(xiàn)類來進(jìn)行分析北滥,主要有以下語義分析器:

3.1 語義分析器
語法 語義分析器
explain ....... ExplainSemanticAnalyzer
rewirte ..... ?闸翅? ExplainSQRewriteSemanticAnalyzer
load ... LoadSemanticAnalyzer
export ... ExportSemanticAnalyzer
import ... ImportSemanticAnalyzer
repl dump ... / repl load ... / repl status ... 碑韵?? ReplicationSemanticAnalyzer
alter table .../ alter view ... DDLSemanticAnalyzer
create database .../ drop database .../ use databaseName / drop table .../ drop view .../ drop materialized view .../ desc database .../ desc table .../ desc function .../ msck ...??/ rebuild ...??/show databases... / show tables.../ show columns.../ show create .... / show functions .../ show partitions .../ show ....../ abort transcations .../ lock .../ grant ... / revoke ... / set role ... DDLSemanticAnalyzer
create function ... / drop function ... / reload function ... FunctionSemanticAnalyzer
analyze ... ColumnStatsSemanticAnalyzer
create macro.../ drop macro... (宏) MacroSemanticAnalyzer
update table.../ delete from ... / merge ... UpdateDeleteSemanticAnalyzer
其他語句 如果參數(shù) hive.cbo.enable 被置為 true(默認(rèn)情況下是true)缎脾,則創(chuàng)建 CalcitePlanner對象,否則創(chuàng)建SemanticAnalyzer對象占卧。CalcitePlanner繼承了SemanticAnalyzer

從上面對應(yīng)關(guān)系看來遗菠,我們常寫的查詢語句主要是通過 SemanticAnalyzer 中的 analyze 方法解析的。

3.2 SemanticAnalyzer語義分析器中的analyze方法

主要看其中的analyze方法华蜒,anlyze最終轉(zhuǎn)向的是各個(gè)語義分析器中的 analyzeInternal 方法辙纬,SemanticAnalyzer中的analyzeInternal 代碼如下:

// PlannerContext 是SemanticAnalyzer中的一個(gè)靜態(tài)類,
// 如果參數(shù)hive.cbo.enable為false叭喜,這里 plannerCtx 是新建的 PlannerContext 的對象
// 如果參數(shù)hive.cbo.enable為true贺拣,這里 plannerCtx 是 PreCboCtx 對象,PreCboCtx繼承了PlannerContext 
void analyzeInternal(ASTNode ast, PlannerContext plannerCtx) throws SemanticException {
  ...........
  // step1. 從抽象語法樹生成 resolved parse tree
  genResolvedParseTree(ast, plannerCtx)
  
  ...........
  // step2. 從 resolved parse tree 生成 op tree
  Operator sinkOp = genOPTree(ast, plannerCtx);
  ...........

  // step3. 推斷結(jié)果集表結(jié)構(gòu)
  resultSchema = convertRowSchemaToViewSchema(opParseCtx.get(sinkOp).getRowResolver());
  或者
  resultSchema = convertRowSchemaToResultSetSchema(opParseCtx.get(sinkOp).getRowResolver(), HiveConf.getBoolVar(conf, HiveConf.ConfVars.HIVE_RESULTSET_USE_UNIQUE_COLUMN_NAMES));
  ............

  // step4. 為優(yōu)化器和物理編譯器生成上下文
  ParseContext pCtx = new ParseContext(queryState, opToPartPruner, opToPartList, topOps,
      new HashSet<JoinOperator>(joinContext.keySet()),
      new HashSet<SMBMapJoinOperator>(smbMapJoinContext.keySet()),
      loadTableWork, loadFileWork, columnStatsAutoGatherContexts, ctx, idToTableNameMap, destTableId, uCtx,
      listMapJoinOpsNoReducer, prunedPartitions, tabNameToTabObject, opToSamplePruner,
      globalLimitCtx, nameToSplitSample, inputs, rootTasks, opToPartToSkewedPruner,
      viewAliasToInput, reduceSinkOperatorsAddedByEnforceBucketingSorting,
      analyzeRewrite, tableDesc, createVwDesc, queryProperties, viewProjectToTableSchema, acidFileSinks);
   
  ...........

  // step5. 執(zhí)行邏輯優(yōu)化
  Optimizer optm = new Optimizer();
  optm.setPctx(pCtx);
  optm.initialize(conf);
  pCtx = optm.optimize();
  FetchTask origFetchTask = pCtx.getFetchTask();
  
  .............

  // step6.優(yōu)化物理執(zhí)行樹 & 翻譯成目標(biāo)執(zhí)行引擎
  TaskCompiler compiler = TaskCompilerFactory.getCompiler(conf, pCtx);
  compiler.init(queryState, console, db);
  compiler.compile(pCtx, rootTasks, inputs, outputs);
  fetchTask = pCtx.getFetchTask();
  ...............
  return;
}

從以上代碼中可以看出語義分析中主要包括以下幾部分:

  • 從抽象語法樹生成 resolved parse tree
  • 從 resolved parse tree 生成 op tree
  • 推斷結(jié)果集表結(jié)構(gòu)
  • 為優(yōu)化器和物理編譯器生成上下文
  • 執(zhí)行邏輯優(yōu)化
  • 優(yōu)化物理執(zhí)行樹 & 翻譯成目標(biāo)執(zhí)行引擎

4. 小結(jié)

這一節(jié)主要看了一下HQL解析中抽象語法樹的生成和語義分析器中的analyze方法都做了什么,后面開始分析從抽象語法樹 到 執(zhí)行計(jì)劃的過程中都做了什么譬涡。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末闪幽,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子涡匀,更是在濱河造成了極大的恐慌盯腌,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件陨瘩,死亡現(xiàn)場離奇詭異腕够,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)舌劳,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進(jìn)店門帚湘,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人甚淡,你說我怎么就攤上這事大诸。” “怎么了材诽?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵底挫,是天一觀的道長。 經(jīng)常有香客問我脸侥,道長建邓,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任睁枕,我火速辦了婚禮官边,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘外遇。我一直安慰自己注簿,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布跳仿。 她就那樣靜靜地躺著诡渴,像睡著了一般。 火紅的嫁衣襯著肌膚如雪菲语。 梳的紋絲不亂的頭發(fā)上妄辩,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天,我揣著相機(jī)與錄音山上,去河邊找鬼眼耀。 笑死,一個(gè)胖子當(dāng)著我的面吹牛佩憾,可吹牛的內(nèi)容都是我干的哮伟。 我是一名探鬼主播干花,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼楞黄!你這毒婦竟也來了池凄?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤谅辣,失蹤者是張志新(化名)和其女友劉穎修赞,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體桑阶,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡柏副,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了蚣录。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片割择。...
    茶點(diǎn)故事閱讀 37,997評論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖萎河,靈堂內(nèi)的尸體忽然破棺而出荔泳,到底是詐尸還是另有隱情,我是刑警寧澤虐杯,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布玛歌,位于F島的核電站,受9級特大地震影響擎椰,放射性物質(zhì)發(fā)生泄漏支子。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一达舒、第九天 我趴在偏房一處隱蔽的房頂上張望值朋。 院中可真熱鬧,春花似錦巩搏、人聲如沸昨登。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽丰辣。三九已至,卻和暖如春禽捆,著一層夾襖步出監(jiān)牢的瞬間笙什,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工睦擂, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人杖玲。 一個(gè)月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓顿仇,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子臼闻,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評論 2 345