[ES]搜索match_phrase和wildcard的區(qū)別

match_phrase

句子中包含hello或world的都會(huì)被搜索出:

GET /my_index/address/_search
{
    query: {match:"hello world"}
}

句子中包含hello world的會(huì)被搜索出:

GET /my_index/address/_search
{
    query: {match_phrase:"hello world"}
}

也就是說hello world 必須相鄰鸣个。

再看一個(gè)例子：

GET /my_index/address/_search
{
    query: {match_phrase:{content:"hello world", slop: 2}}
}

這個(gè)搜索hello es world也會(huì)被搜索出來灾杰，因?yàn)橹虚g間隔的詞數(shù)為1 < 2∫ス猓可以通過指定slot來控制移動(dòng)詞數(shù)罩锐。

執(zhí)行過程：
match_phrase執(zhí)行過程：
１.如match搜索一樣進(jìn)行分詞侦高，
２.對分詞后的單詞到field中去進(jìn)行搜索(多個(gè)term匹配)停巷。這一步返回每個(gè)單詞對應(yīng)的doc，并返回這些單詞在對應(yīng)的doc中的位置恕酸，
３.對返回的doc進(jìn)行第一步的篩選堪滨，找到每個(gè)單詞都在同一個(gè)field的doc。
４.對第３步進(jìn)行篩選后的doc進(jìn)行再一次的篩選蕊温，選回位置符合要求的doc。比如，對于match_phrase囚枪，就是找到后一個(gè)單詞的位置比前一個(gè)單詞的位置大１∶巳或者移動(dòng)次數(shù)<slot的文檔。
５．proximity match（使用slot）原理一樣了讨，只是第四位對位置進(jìn)行篩選時(shí)的方法不同捻激。

比如要搜索“hello world”

分詞為 hello 和 world
分別對term hello和world去搜索。返回兩者匹配到的文檔量蕊。
第一次篩選铺罢，取兩個(gè)的交集艇挨。
繼續(xù)篩選残炮，對于match_phrase，就是找到后一個(gè)單詞world的位置比前一個(gè)單詞hello的位置大１的文檔

prefix

在搜索之前它不會(huì)分析查詢字符串缩滨，它認(rèn)為傳入的前綴就是想要查找的前綴
默認(rèn)狀態(tài)下势就，前綴查詢不做相關(guān)度分?jǐn)?shù)計(jì)算，它只是將所有匹配的文檔返回脉漏，然后賦予所有相關(guān)分?jǐn)?shù)值為1苞冯。它的行為更像是一個(gè)過濾器而不是查詢。兩者實(shí)際的區(qū)別就是過濾器是可以被緩存的侧巨，而前綴查詢不行舅锄。
只能找到反向索引中存在的術(shù)語

prefix的原理：
需要遍歷所有倒排索引，并比較每個(gè)term是否已所指定的前綴開頭司忱。
比如皇忿，

Term:          Doc IDs:
-------------------------
"SW5 0BE"    |  5
"W1F 7HW"    |  3
"W1V 3DG"    |  1
"W2F 8HW"    |  2
"WC1N 1LZ"   |  4
-------------------------

GET /my_index/address/_search
{
    "query": {
        "prefix": {
            "postcode": "W1"
        }
    }
}

搜索過程：
為了支持前綴匹配，查詢會(huì)做以下事情：

掃描術(shù)語列表并查找到第一個(gè)以 W1 開始的術(shù)語坦仍。
搜集關(guān)聯(lián)的ID
移動(dòng)到下一個(gè)術(shù)語
如果這個(gè)術(shù)語也是以 W1 開頭鳍烁，查詢跳回到第二步再重復(fù)執(zhí)行，直到下一個(gè)術(shù)語不以 W1 為止繁扎。

如果以w1開頭的term很多幔荒，那么會(huì)有嚴(yán)重的性能問題。但是如果term比較小集合梳玫，可以放心使用爹梁。

wildcard

工作原理和prefix相同，只不過它在1不是只比較開頭提澎，它能支持更為復(fù)雜的匹配模式姚垃。
它使用標(biāo)準(zhǔn)的 shell 模糊查詢：? 匹配任意字符，* 匹配0個(gè)或多個(gè)字符虱朵。

GET /my_index/address/_search
{
    "query": {
        "regexp": {
            "postcode": "W[0-9].+" #1
        }
    }
}

這也意味著我們需要注意與前綴查詢中相同的性能問題莉炉，執(zhí)行這些查詢可能會(huì)消耗非常多的資源钓账，所以我們需要避免使用左模糊這樣的模式匹配（如，foo 或 .foo 這樣的正則式）

注意：
prefix絮宁、wildcard 和 regrep 查詢是基于術(shù)語操作的梆暮，如果我們用它們來查詢分析過的字段（analyzed field），他們會(huì)檢查字段里面的每個(gè)術(shù)語绍昂，而不是將字段作為整體進(jìn)行處理啦粹。

match_phrase_prefix

這種查詢的行為與 match_phrase 查詢一致，不同的是它將查詢字符串的最后一個(gè)詞作為前綴使用窘游。
比如：

{
    "match_phrase_prefix" : {
        "brand" : "johnnie walker bl"
    }
}

johnnie
跟著 walker
跟著一個(gè)以 bl 開始的詞(prefix)

與 match_phrase 一樣唠椭，它也可以接受 slop 參數(shù)讓相對詞序位置不那么嚴(yán)格：

{
    "match_phrase_prefix" : {
        "brand" : {
            "query": "walker johnnie bl", #1
            "slop":  10
        }
    }
}

我們可以通過設(shè)置 max_expansions 參數(shù)來限制前綴擴(kuò)展的影響，一個(gè)合理的值是可能是50：

{
    "match_phrase_prefix" : {
        "brand" : {
            "query":          "johnnie walker bl",
            "max_expansions": 50
        }
    }
}

參數(shù)max_expansions控制著可以與前綴匹配的術(shù)語的數(shù)量

另一個(gè)即時(shí)搜索的方法是忍饰，使用 Ngram部分匹配, 這種方法會(huì)增加索引的開銷贪嫂，但是會(huì)加快查詢速度。具體可以自行查閱艾蓝。

最后編輯于：2019.07.02 23:05:10

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末力崇，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子赢织，更是在濱河造成了極大的恐慌亮靴，老刑警劉巖，帶你破解...
沈念sama閱讀 218,858評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件于置，死亡現(xiàn)場離奇詭異茧吊，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)八毯，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,372評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門搓侄，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人宪彩，你說我怎么就攤上這事休讳。” “怎么了尿孔？”我有些...
開封第一講書人閱讀 165,282評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵俊柔，是天一觀的道長。經(jīng)常有香客問我活合，道長雏婶，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,842評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任白指，我火速辦了婚禮留晚，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘告嘲。我一直安慰自己错维，他們只是感情好奖地，可當(dāng)我...
茶點(diǎn)故事閱讀 67,857評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著赋焕，像睡著了一般参歹。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上隆判，一...
開封第一講書人閱讀 51,679評論 1贊 305
城市分裂傳說
那天犬庇，我揣著相機(jī)與錄音，去河邊找鬼侨嘀。笑死臭挽，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的咬腕。我是一名探鬼主播欢峰，決...
沈念sama閱讀 40,406評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼郎汪！你這毒婦竟也來了赤赊？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,311評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤煞赢，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后哄孤，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體照筑，經(jīng)...
沈念sama閱讀 45,767評論 1贊 315
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,945評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年瘦陈，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了凝危。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,090評論 1贊 350
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡晨逝，死狀恐怖蛾默，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情捉貌，我是刑警寧澤支鸡，帶...
沈念sama閱讀 35,785評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站趁窃，受9級(jí)特大地震影響牧挣，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜醒陆，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,420評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一瀑构、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧刨摩，春花似錦寺晌、人聲如沸世吨。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,988評論 0贊 22
一樁弒父案呻征，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽另假。三九已至，卻和暖如春怕犁，著一層夾襖步出監(jiān)牢的瞬間边篮，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,101評論 1贊 271
情欲美人皮
我被黑心中介騙來泰國打工奏甫，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留戈轿，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,298評論 3贊 372
代替公主和親
正文我出身青樓阵子，卻偏偏與公主長得像思杯，于是被迫代替她去往敵國和親。傳聞我的和親對象是個(gè)殘疾皇子挠进，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,033評論 2贊 355

[ES]搜索match_phrase和wildcard的區(qū)別

match_phrase

prefix

wildcard

match_phrase_prefix

推薦閱讀更多精彩內(nèi)容