[ES]搜索match_phrase和wildcard的區(qū)別

match_phrase

句子中包含helloworld的都會(huì)被搜索出:

GET /my_index/address/_search
{
    query: {match:"hello world"}
}

句子中包含hello world的會(huì)被搜索出:

GET /my_index/address/_search
{
    query: {match_phrase:"hello world"}
}

也就是說hello world 必須相鄰鸣个。

再看一個(gè)例子:

GET /my_index/address/_search
{
    query: {match_phrase:{content:"hello world", slop: 2}}
}

這個(gè)搜索hello es world也會(huì)被搜索出來灾杰,因?yàn)橹虚g間隔的詞數(shù)為1 < 2∫ス猓可以通過指定slot來控制移動(dòng)詞數(shù)罩锐。

執(zhí)行過程:
match_phrase執(zhí)行過程:
1.如match搜索一樣進(jìn)行分詞侦高,
2.對分詞后的單詞到field中去進(jìn)行搜索(多個(gè)term匹配)停巷。這一步返回每個(gè)單詞對應(yīng)的doc,并返回這些單詞在對應(yīng)的doc中的位置恕酸,
3.對返回的doc進(jìn)行第一步的篩選堪滨,找到每個(gè)單詞都在同一個(gè)field的doc。
4.對第3步進(jìn)行篩選后的doc進(jìn)行再一次的篩選蕊温,選回位置符合要求的doc。比如,對于match_phrase囚枪,就是找到后一個(gè)單詞的位置比前一個(gè)單詞的位置大1∶巳或者移動(dòng)次數(shù)<slot的文檔。
5.proximity match(使用slot)原理一樣了讨,只是第四位對位置進(jìn)行篩選時(shí)的方法不同捻激。

比如要搜索“hello world”

  1. 分詞為 hello 和 world
  2. 分別對term hello和world去搜索。返回兩者匹配到的文檔量蕊。
  3. 第一次篩選铺罢,取兩個(gè)的交集艇挨。
  4. 繼續(xù)篩選残炮,對于match_phrase,就是找到后一個(gè)單詞world的位置比前一個(gè)單詞hello的位置大1的文檔

prefix

  • 在搜索之前它不會(huì)分析查詢字符串缩滨,它認(rèn)為傳入的前綴就是想要查找的前綴
  • 默認(rèn)狀態(tài)下势就,前綴查詢不做相關(guān)度分?jǐn)?shù)計(jì)算,它只是將所有匹配的文檔返回脉漏,然后賦予所有相關(guān)分?jǐn)?shù)值為1苞冯。它的行為更像是一個(gè)過濾器而不是查詢。兩者實(shí)際的區(qū)別就是過濾器是可以被緩存的侧巨,而前綴查詢不行舅锄。
  • 只能找到反向索引中存在的術(shù)語

prefix的原理:
需要遍歷所有倒排索引,并比較每個(gè)term是否已所指定的前綴開頭司忱。
比如皇忿,

Term:          Doc IDs:
-------------------------
"SW5 0BE"    |  5
"W1F 7HW"    |  3
"W1V 3DG"    |  1
"W2F 8HW"    |  2
"WC1N 1LZ"   |  4
-------------------------

GET /my_index/address/_search
{
    "query": {
        "prefix": {
            "postcode": "W1"
        }
    }
}

搜索過程:
為了支持前綴匹配,查詢會(huì)做以下事情:

  1. 掃描術(shù)語列表并查找到第一個(gè)以 W1 開始的術(shù)語坦仍。
  2. 搜集關(guān)聯(lián)的ID
  3. 移動(dòng)到下一個(gè)術(shù)語
  4. 如果這個(gè)術(shù)語也是以 W1 開頭鳍烁,查詢跳回到第二步再重復(fù)執(zhí)行,直到下一個(gè)術(shù)語不以 W1 為止繁扎。

如果以w1開頭的term很多幔荒,那么會(huì)有嚴(yán)重的性能問題。但是如果term比較小集合梳玫,可以放心使用爹梁。

wildcard

  • 工作原理和prefix相同,只不過它在1不是只比較開頭提澎,它能支持更為復(fù)雜的匹配模式姚垃。
  • 它使用標(biāo)準(zhǔn)的 shell 模糊查詢:? 匹配任意字符,* 匹配0個(gè)或多個(gè)字符虱朵。
GET /my_index/address/_search
{
    "query": {
        "regexp": {
            "postcode": "W[0-9].+" #1
        }
    }
}

這也意味著我們需要注意與前綴查詢中相同的性能問題莉炉,執(zhí)行這些查詢可能會(huì)消耗非常多的資源钓账,所以我們需要避免使用左模糊這樣的模式匹配(如,foo 或 .foo 這樣的正則式)

注意:
prefix絮宁、wildcard 和 regrep 查詢是基于術(shù)語操作的梆暮,如果我們用它們來查詢分析過的字段(analyzed field),他們會(huì)檢查字段里面的每個(gè)術(shù)語绍昂,而不是將字段作為整體進(jìn)行處理啦粹。

match_phrase_prefix

這種查詢的行為與 match_phrase 查詢一致,不同的是它將查詢字符串的最后一個(gè)詞作為前綴使用窘游。
比如:

{
    "match_phrase_prefix" : {
        "brand" : "johnnie walker bl"
    }
} 
  • johnnie
  • 跟著 walker
  • 跟著 一個(gè)以 bl 開始的詞(prefix)

與 match_phrase 一樣唠椭,它也可以接受 slop 參數(shù)讓相對詞序位置不那么嚴(yán)格:

{
    "match_phrase_prefix" : {
        "brand" : {
            "query": "walker johnnie bl", #1
            "slop":  10
        }
    }
}

我們可以通過設(shè)置 max_expansions 參數(shù)來限制前綴擴(kuò)展的影響,一個(gè)合理的值是可能是50:

{
    "match_phrase_prefix" : {
        "brand" : {
            "query":          "johnnie walker bl",
            "max_expansions": 50
        }
    }
}

參數(shù)max_expansions控制著可以與前綴匹配的術(shù)語的數(shù)量

另一個(gè)即時(shí)搜索的方法是忍饰,使用 Ngram部分匹配, 這種方法會(huì)增加索引的開銷贪嫂,但是會(huì)加快查詢速度。具體可以自行查閱艾蓝。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末力崇,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子赢织,更是在濱河造成了極大的恐慌亮靴,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,858評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件于置,死亡現(xiàn)場離奇詭異茧吊,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)八毯,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,372評論 3 395
  • 文/潘曉璐 我一進(jìn)店門搓侄,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人宪彩,你說我怎么就攤上這事休讳。” “怎么了尿孔?”我有些...
    開封第一講書人閱讀 165,282評論 0 356
  • 文/不壞的土叔 我叫張陵俊柔,是天一觀的道長。 經(jīng)常有香客問我活合,道長雏婶,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,842評論 1 295
  • 正文 為了忘掉前任白指,我火速辦了婚禮留晚,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘告嘲。我一直安慰自己错维,他們只是感情好奖地,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,857評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著赋焕,像睡著了一般参歹。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上隆判,一...
    開封第一講書人閱讀 51,679評論 1 305
  • 那天犬庇,我揣著相機(jī)與錄音,去河邊找鬼侨嘀。 笑死臭挽,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的咬腕。 我是一名探鬼主播欢峰,決...
    沈念sama閱讀 40,406評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼郎汪!你這毒婦竟也來了赤赊?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,311評論 0 276
  • 序言:老撾萬榮一對情侶失蹤煞赢,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后哄孤,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體照筑,經(jīng)...
    沈念sama閱讀 45,767評論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年瘦陈,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了凝危。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,090評論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡晨逝,死狀恐怖蛾默,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情捉貌,我是刑警寧澤支鸡,帶...
    沈念sama閱讀 35,785評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站趁窃,受9級(jí)特大地震影響牧挣,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜醒陆,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,420評論 3 331
  • 文/蒙蒙 一瀑构、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧刨摩,春花似錦寺晌、人聲如沸世吨。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,988評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽另假。三九已至,卻和暖如春怕犁,著一層夾襖步出監(jiān)牢的瞬間边篮,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,101評論 1 271
  • 我被黑心中介騙來泰國打工奏甫, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留戈轿,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,298評論 3 372
  • 正文 我出身青樓阵子,卻偏偏與公主長得像思杯,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子挠进,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,033評論 2 355

推薦閱讀更多精彩內(nèi)容