MLSQL智能補全功能現(xiàn)階段是作為MLSQL的一個插件的形式提供的吸占。在發(fā)布第一個版本后,我們會將其獨立出來,作為一個通用的SQL提示引擎來進(jìn)行后續(xù)的發(fā)展。為了方便對該項目指代将硝,我們后續(xù)使用 【MLSQL Code Intelligence】
項目地址: mlsql-autosuggest
當(dāng)前狀態(tài)
【積極開發(fā)中,還未發(fā)布穩(wěn)定版本】
目標(biāo)
【MLSQL Code Intelligence】目標(biāo)分成兩個屏镊,第一個是標(biāo)準(zhǔn)SQL補全:
- SQL關(guān)鍵字補全
- 表/字段屬性/函數(shù)補全
- 可二次開發(fā)自定義對接任何Schema Provider
第二個是MLSQL語法補全:
- 支持各種數(shù)據(jù)源提示
- 支持臨時表提示
- 支持各種ET組件參數(shù)提示以及名稱提示
對于表和字段補依疼,函數(shù)補全,相比其他一些SQL代碼提示工具闸衫,該插件可根據(jù)當(dāng)前已有的信息精確推斷涛贯。比如:
select no_result_type, keywords, search_num, rank
from(
select [CURSOR is HERE] row_number() over (PARTITION BY no_result_type order by search_num desc) as rank
from(
select jack1.*,no_result_type, keywords, sum(search_num) AS search_num
from jack.drugs_bad_case_di as jack1,jack.abc jack2
where hp_stat_date >= date_sub(current_date,30)
and action_dt >= date_sub(current_date,30)
and action_type = 'search'
and length(keywords) > 1
and (split(av, '\\.')[0] >= 11 OR (split(av, '\\.')[0] = 10 AND split(av, '\\.')[1] = 9))
--and no_result_type = 'indication'
group by no_result_type, keywords
)a
)b
where rank <=
鼠標(biāo)在第三行第十列,此時系統(tǒng)會自動提示:
- a [表名]
- jack1展開的所有列
- no_result_type
- keywords
- search_num
如果有接口提供schema信息蔚出,會自動展開*弟翘,并且獲取相關(guān)層級的信息從而非常精準(zhǔn)的進(jìn)行提示。同時骄酗,如果有shcema信息稀余,對每個字段也支持類型提示。插件提供了非常友好和簡單的接口方便用戶接入自己的元數(shù)據(jù)趋翻。
用戶指南
部署
參考部署文檔 MLSQL部署
該插件作為MLSQ默認(rèn)插件睛琳,所以開箱即用
接口使用
訪問接口: http://127.0.0.1:9003/run/script?executeMode=autoSuggest
參數(shù)1: sql SQL腳本
參數(shù)2: lineNum 光標(biāo)所在的行號 從1開始計數(shù)
參數(shù)3: columnNum 光標(biāo)所在的列號,從1開始計數(shù)
比如我用Scala寫一個client:
object Test {
def main(args: Array[String]): Unit = {
val time = System.currentTimeMillis()
val response = Request.Post("http://127.0.0.1:9003/run/script").bodyForm(
Form.form().add("executeMode", "autoSuggest").add("sql",
"""
|select spl from jack.drugs_bad_case_di as a
|""".stripMargin).add("lineNum", "2").add("columnNum", "10").build()
).execute().returnContent().asString()
println(System.currentTimeMillis() - time)
println(response)
}
}
最后結(jié)果如下:
[{"name":"split",
"metaTable":{"key":{"db":"__FUNC__","table":"split"},
"columns":[
{"name":null,"dataType":"array","isNull":true,"extra":{"zhDoc":"\nsplit函數(shù)踏烙。用于切割字符串师骗,返回字符串?dāng)?shù)組\n"}},{"name":"str","dataType":"string","isNull":false,"extra":{"zhDoc":"待切割字符"}},
{"name":"pattern","dataType":"string","isNull":false,"extra":{"zhDoc":"分隔符"}}]},
"extra":{}}]
可以知道提示了split,并且這是一個函數(shù),函數(shù)的參數(shù)以及返回值都有定義讨惩。
編程開發(fā)
首先初始化兩個此法分析器:
object AutoSuggestController {
val lexerAndParserfactory = new ReflectionLexerAndParserFactory(classOf[DSLSQLLexer], classOf[DSLSQLParser]);
val mlsqlLexer = new LexerWrapper(lexerAndParserfactory, new DefaultToCharStream)
val lexerAndParserfactory2 = new ReflectionLexerAndParserFactory(classOf[SqlBaseLexer], classOf[SqlBaseParser]);
val sqlLexer = new LexerWrapper(lexerAndParserfactory2, new RawSQLToCharStream)
}
接著創(chuàng)建AutoSuggestContext,然后用此法分析器解析sql,最后傳遞給context,同時傳遞行號和列好辟癌,即可。
val sql = params("sql")
val lineNum = params("lineNum").toInt
val columnNum = params("columnNum").toInt
val context = new AutoSuggestContext(ScriptSQLExec.context().execListener.sparkSession,
AutoSuggestController.mlsqlLexer,
AutoSuggestController.sqlLexer)
val sqlTokens = context.lexer.tokenizeNonDefaultChannel(sql).tokens.asScala.toList
val tokenPos = LexerUtils.toTokenPos(sqlTokens, lineNum, columnNum)
JSONTool.toJsonStr(context.build(sqlTokens).suggest(tokenPos))
開發(fā)者指南
解析流程
【MLSQL Code Intelligence】復(fù)用了MLSQL/Spark SQL的lexer荐捻,重寫了parser部分黍少。因為代碼提示有其自身特點,就是句法在書寫過程中处面,大部分情況下都是錯誤的厂置,無法使用嚴(yán)格的parser來進(jìn)行解析。
使用兩個Lexer的原因是因為魂角,MLSQL Lexer主要用來解析整個MLSQL腳本昵济,Spark SQL Lexer主要用來解決標(biāo)準(zhǔn)SQL中的select語句。但是因為該項目高度可擴展野揪,用戶也可以自行擴展到其他標(biāo)準(zhǔn)SQL的語句中访忿。
以select語句里的代碼提示為例,整個解析流程為:
- 使用MLSQL Lexer 將腳本切分成多個statement
- 每個statement 會使用不同的Suggester進(jìn)行下一步解析
- 使用SelectSuggester 對select statement進(jìn)行解析
- 首先對select語句構(gòu)建一個非常粗粒度的AST,節(jié)點為每個子查詢囱挑,同時構(gòu)建一個表結(jié)構(gòu)層級緩存信息TABLE_INFO
- 將光標(biāo)位置轉(zhuǎn)化為全局TokenPos
- 將全局TokenPos轉(zhuǎn)化select語句相對TokenPos
- 根據(jù)TokenPos遍歷Select AST樹醉顽,定位到簡單子語句
- 使用project/where/groupby/on/having子suggester進(jìn)行匹配,匹配的suggester最后完成提示邏輯
在AST樹種平挑,每個子語句都可以是不完整的游添。由上面流程可知,我們會以statement為粗粒度工作context,然后對于復(fù)雜的select語句通熄,最后我們會進(jìn)一步細(xì)化到每個子查詢?yōu)楣ぷ鱟ontext唆涝。這樣為我們編碼帶來了非常大的便利。
TokenMatcher工具類
在【MLSQL Code Intelligence】中唇辨,最主要的工作是做token匹配廊酣。我們提供了TokenMatcher來完成token的匹配。TokenMatcher支持前向和后向匹配赏枚。如下token序列:
select a , b , c from jack
假設(shè)我想以token index 3(b) 為起始點亡驰,前向匹配一個逗號晓猛,identify 可以使用如下語法:
val tokenMatcher = TokenMatcher(tokens,4).forward.eat(Food(None, TokenTypeWrapper.DOT), Food(None, SqlBaseLexer.IDENTIFIER)).build
接著你可以調(diào)用 tokenMatcher.isSuccess來判斷是否匹配成功,可以調(diào)用tokenMatcher.get 獲取匹配得到匹配成功后的index,通過tokenMatcher.getMatchTokens 獲取匹配成功的token集合凡辱。
注意戒职,TokenMatcher起始位置是包含的,也就是他會將起始位置的token也加入到匹配token里去透乾。所以在上面的例子中洪燥,start 是4而不是3. 更多例子可以查看源碼。
快速參與貢獻(xiàn)該項目
【MLSQL Code Intelligence】 需要大量函數(shù)的定義乳乌,方便在用戶使用時給予提示捧韵。下面是我實現(xiàn)的split
函數(shù)的代碼:
class Splitter extends FuncReg {
override def register = {
val func = MLSQLSQLFunction.apply("split").
funcParam.
param("str", DataType.STRING, false, Map("zhDoc" -> "待切割字符")).
param("pattern", DataType.STRING, false, Map("zhDoc" -> "分隔符")).
func.
returnParam(DataType.ARRAY, true, Map(
"zhDoc" ->
"""
|split函數(shù)。用于切割字符串汉操,返回字符串?dāng)?shù)組
|""".stripMargin
)).
build
func
}
}
用戶只要用FunctionBuilder去構(gòu)建函數(shù)簽名即可再来。這樣用戶在使用該函數(shù)的時候就能得到非常詳盡的使用說明和參數(shù)說明。同時客情,我們也可以通過該函數(shù)簽名獲取嵌套函數(shù)處理后的字段的類型信息其弊。
用戶只要按上面的方式添加更多函數(shù)到tech.mlsql.autosuggest.funcs包下即可。系統(tǒng)會自動掃描該包里的實現(xiàn)并且注冊膀斋。
子查詢層級結(jié)構(gòu)
對于語句:
select no_result_type, keywords, search_num, rank
from(
select keywords, search_num, row_number() over (PARTITION BY no_result_type order by search_num desc) as rank
from(
select *,no_result_type, keywords, sum(search_num) AS search_num
from jack.drugs_bad_case_di,jack.abc jack
where hp_stat_date >= date_sub(current_date,30)
and action_dt >= date_sub(current_date,30)
and action_type = 'search'
and length(keywords) > 1
and (split(av, '\\.')[0] >= 11 OR (split(av, '\\.')[0] = 10 AND split(av, '\\.')[1] = 9))
--and no_result_type = 'indication'
group by no_result_type, keywords
)a
)b
where rank <=
形成的AST結(jié)構(gòu)樹如下:
select no_result_type , keywords , search_num , rank from ( select keywords , search_num , row_number ( ) over
( PARTITION BY no_result_type order by search_num desc ) as rank from ( select * , no_result_type , keywords ,
sum ( search_num ) AS search_num from jack . drugs_bad_case_di , jack . abc jack where hp_stat_date >= date_sub (
current_date , 30 ) and action_dt >= date_sub ( current_date , 30 ) and action_type = 'search' and length (
keywords ) > 1 and ( split ( av , '\\.' ) [ 0 ] >= 11 OR ( split
( av , '\\.' ) [ 0 ] = 10 AND split ( av , '\\.' ) [ 1 ]
= 9 ) ) group by no_result_type , keywords ) a ) b where rank <=
=>select keywords , search_num , row_number ( ) over ( PARTITION BY no_result_type order by search_num desc ) as
rank from ( select * , no_result_type , keywords , sum ( search_num ) AS search_num from jack . drugs_bad_case_di
, jack . abc jack where hp_stat_date >= date_sub ( current_date , 30 ) and action_dt >= date_sub ( current_date
, 30 ) and action_type = 'search' and length ( keywords ) > 1 and ( split ( av ,
'\\.' ) [ 0 ] >= 11 OR ( split ( av , '\\.' ) [ 0 ] = 10
AND split ( av , '\\.' ) [ 1 ] = 9 ) ) group by no_result_type , keywords )
a ) b
==>select * , no_result_type , keywords , sum ( search_num ) AS search_num from jack . drugs_bad_case_di , jack
. abc jack where hp_stat_date >= date_sub ( current_date , 30 ) and action_dt >= date_sub ( current_date , 30
) and action_type = 'search' and length ( keywords ) > 1 and ( split ( av , '\\.' )
[ 0 ] >= 11 OR ( split ( av , '\\.' ) [ 0 ] = 10 AND split
( av , '\\.' ) [ 1 ] = 9 ) ) group by no_result_type , keywords ) a
我們可以看到一共嵌套了兩層梭伐,每層都有一個子查詢。
對此形成的TABLE_INFO結(jié)構(gòu)如下:
2:
List(
MetaTableKeyWrapper(MetaTableKey(None,Some(jack),drugs_bad_case_di),None),
MetaTableKeyWrapper(MetaTableKey(None,None,null),Some(a)),
MetaTableKeyWrapper(MetaTableKey(None,Some(jack),abc),Some(jack)))
1:
List(MetaTableKeyWrapper(MetaTableKey(None,None,null),Some(b)))
0:
List()
0層級為最外層語句仰担;1層級為第一個子查詢糊识;2層級為第二個子查詢,他包含了子查詢別名以及該子查詢里所有的實體表信息摔蓝。
上面只是為了顯示赂苗,實際上還包含了所有列的信息。這意味著贮尉,如果我要補全0層記得 project,那我只需要獲取1層級的信息拌滋,可以補全b表名稱或者b表對應(yīng)的字段。同理類推猜谚。