es深入搜索之多字段搜索

1. 最佳字段

?假設(shè)有個(gè)網(wǎng)站允許用戶搜索博客的內(nèi)容丽惶,以下面兩篇博客內(nèi)容文檔為例:

PUT /my_index/my_type/1
{
    "title": "Quick brown rabbits",
    "body":  "Brown rabbits are commonly seen."
}

PUT /my_index/my_type/2
{
    "title": "Keeping pets healthy",
    "body":  "My quick brown fox eats rabbits on a regular basis."
}

?此時(shí)用戶搜索 " brown fox ",用肉眼判斷文檔二更匹配炫七。 由于不知道該搜索詞出現(xiàn)的字段,所以我們用 bool 查詢進(jìn)行查詢钾唬。

{
    "query": {
        "bool": {
            "should": [
                { "match": { "title": "Brown fox" }},
                { "match": { "body":  "Brown fox" }}
            ]
        }
    }
}

??但在返回的結(jié)果中文檔 1 比 文檔 2 的相關(guān)度高万哪,因?yàn)樗阉鲿r(shí),會(huì)將每個(gè)字段的相關(guān)度相加然后計(jì)算總評分抡秆,文檔一的 title 和 body 中都包含 Brown, 所以評分較高奕巍,如果不是將每個(gè)字段的評分想加,而是將最佳匹配字段的評分作為查詢的整體評分儒士,返回的結(jié)果將是同時(shí)包含 brown 和 fox 的字段所在文檔相關(guān)度比較高的止。

??此時(shí)應(yīng)該使用 dis_max 查詢,而不是 bool 查詢着撩。最大化查詢(Disjunction Max Query)指的是: 將任何與查詢匹配的文檔作為結(jié)果返回诅福,但是每個(gè)文檔的評分都是以最佳匹配的評分作為結(jié)果 ,而不是再進(jìn)行計(jì)算拖叙。意思是該文檔的評分是dis_max下所有查詢的評分的最大值氓润,不再進(jìn)行求和平均計(jì)算。

{
    "query": {
        "dis_max": {
            "queries": [
                { "match": { "title": "Brown fox" }},
                { "match": { "body":  "Brown fox" }}
            ]
        }
    }
}

??由于dis_max會(huì)忽略其他匹配查詢的分?jǐn)?shù)薯鳍,可以通過 tie_breaker進(jìn)行使得其他匹配的分?jǐn)?shù)也參與到計(jì)算該文檔的評分中咖气。和權(quán)重boost不同,權(quán)重是字段所占的權(quán)重挖滤,而tie_breaker是查詢所占的權(quán)重崩溪。

  表示除了最佳匹配,次匹配所占總分比例的 30 %
{
    "query": {
        "dis_max": {
            "queries": [
                { "match": { "title": "Quick pets" }},
                { "match": { "body":  "Quick pets" }}
            ],
            "tie_breaker": 0.3
        }
    }
}

2. 多數(shù)字段

??全文搜索被稱作是 召回率(Recall) 與 精確率(Precision) 的戰(zhàn)場: 召回率 ——返回所有的相關(guān)文檔斩松; 精確率 ——不返回?zé)o關(guān)文檔伶唯。目的是在結(jié)果的第一頁中為用戶呈現(xiàn)最為相關(guān)的文檔。

??為了提高召回率的效果惧盹,我們擴(kuò)大搜索范圍——不僅返回與用戶搜索詞精確匹配的文檔抵怎,還會(huì)返回我們認(rèn)為與查詢相關(guān)的所有文檔奋救。如果一個(gè)用戶搜索 “quick brown box” ,一個(gè)包含詞語 fast foxes 的文檔被認(rèn)為是非常合理的返回結(jié)果反惕。如果有多個(gè)文檔比該文檔更匹配,則該文檔出現(xiàn)的位置應(yīng)該在這些文檔之后演侯。

??提高全文相關(guān)性精度的常用方式是為同一文本建立多種方式的索引姿染,每種方式都提供了一個(gè)不同的相關(guān)度信號(hào) signal 。主字段會(huì)以盡可能多的形式的去匹配盡可能多的文檔秒际。比如我們搜索華為手機(jī)悬赏,在手機(jī)的 desc 字段使用默認(rèn)分詞器,而他的詞根 ' 華為手機(jī) ' 不分詞娄徊。在搜索華為手機(jī)時(shí)闽颇,會(huì)將該文檔作為結(jié)果返回,而他的詞根用來提高該文檔的相關(guān)度寄锐。

??對我們的字段索引兩次:一次使用詞干模式以及一次非詞干模式兵多。為了做到這點(diǎn),采用 multifields 來實(shí)現(xiàn)橄仆。

PUT /my_index
{
    "settings": { "number_of_shards": 1 }, 
    "mappings": {
        "my_type": {
            "properties": {
                "title": { 
                    "type":     "string",
                    "analyzer": "english",
                    "fields": {
                        "std":   { 
                            "type":     "string",
                            "analyzer": "standard"
                        }
                    }
                }
            }
        }
    }
}

??上例中剩膘,給某個(gè)字段索引了兩次,分別使用了不同的分詞器盆顾,可以使用廣度匹配字段用來匹配更多的數(shù)據(jù)怠褐,用來提升召回率,然后用該字段的詞根來將相關(guān)度更高的文檔置于頂部您宪。

GET /index/_search
{
   "query": {
        "multi_match": {
            "query":       "jumping rabbits",
            "type":        "most_fields",
            "fields":      [ "title", "title.std^10" ] 
        }
    }
}

??跨字段實(shí)體搜索奈懒,比如人、地址等實(shí)體宪巨,需要用多個(gè)字段來唯一表示一個(gè)實(shí)體磷杏,(last_name、first_name)揖铜,使用bool查詢將會(huì)使代碼過長茴丰,而是用多字段查詢又不能完全符合題意。因?yàn)槎嘧侄嗡阉魇菫槎鄶?shù)字段是否滿足查詢條件天吓,不能在所有字段中找到最匹配的贿肩、搜索詞在多個(gè)字段值的出現(xiàn)的頻率不一樣,會(huì)導(dǎo)致結(jié)果有誤差龄寞。

??一種解決方案是增加一個(gè)新的字段汰规,比如full_name, 可以使用該字段進(jìn)行對復(fù)雜實(shí)體的搜索,但是又會(huì)出現(xiàn)冗余數(shù)據(jù)物邑。es給我們提供了兩種解決方案溜哮,一個(gè)是在索引時(shí)滔金,一個(gè)是在搜索時(shí)。

3. 混合字段

在之前說過, all_filed字段包括了該文檔所有值的結(jié)合茂嗓,但是這樣并不靈活餐茵,我們可以通過copy_to參數(shù)人為增加一個(gè)all字段,比如下列增加一個(gè)full_name字段述吸。

PUT /my_index
{
    "mappings": {
        "person": {
            "properties": {
                "first_name": {
                    "type":     "string",
                    "copy_to":  "full_name" 
                },
                "last_name": {
                    "type":     "string",
                    "copy_to":  "full_name" 
                },
                "full_name": {
                    "type":     "string"
                }
            }
        }
    }
}

??在索引時(shí)創(chuàng)建_all字段是一個(gè)方案忿族,而es還在搜索時(shí)提供了另一種方案,使用 cross_fields 類型進(jìn)行 multi_match 查詢蝌矛。 cross_fields 使用詞中心式(term-centric)的查詢方式道批,這與 best_fields 和 most_fields 使用字段中心式(field-centric)的查詢方式非常不同。
??字段中心式:搜索詞必須同時(shí)出現(xiàn)在同一個(gè)字段中入撒。
??詞中心式:搜索詞必須同時(shí)出現(xiàn)隆豹,但可以在任意一個(gè)字段中。

GET /books/_search
{
    "query": {
        "multi_match": {
            "query":       "peter smith",
            "type":        "cross_fields", 
            "operator":    "and",
            "fields":      [ "first_name", "last_name" ]
        }
    }
}
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末茅逮,一起剝皮案震驚了整個(gè)濱河市璃赡,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌氮唯,老刑警劉巖鉴吹,帶你破解...
    沈念sama閱讀 207,113評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異惩琉,居然都是意外死亡豆励,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評論 2 381
  • 文/潘曉璐 我一進(jìn)店門瞒渠,熙熙樓的掌柜王于貴愁眉苦臉地迎上來良蒸,“玉大人,你說我怎么就攤上這事伍玖∧厶担” “怎么了?”我有些...
    開封第一講書人閱讀 153,340評論 0 344
  • 文/不壞的土叔 我叫張陵窍箍,是天一觀的道長串纺。 經(jīng)常有香客問我,道長椰棘,這世上最難降的妖魔是什么纺棺? 我笑而不...
    開封第一講書人閱讀 55,449評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮邪狞,結(jié)果婚禮上祷蝌,老公的妹妹穿的比我還像新娘。我一直安慰自己帆卓,他們只是感情好巨朦,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,445評論 5 374
  • 文/花漫 我一把揭開白布米丘。 她就那樣靜靜地躺著,像睡著了一般糊啡。 火紅的嫁衣襯著肌膚如雪拄查。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,166評論 1 284
  • 那天悔橄,我揣著相機(jī)與錄音靶累,去河邊找鬼。 笑死癣疟,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的潮酒。 我是一名探鬼主播睛挚,決...
    沈念sama閱讀 38,442評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼急黎!你這毒婦竟也來了扎狱?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,105評論 0 261
  • 序言:老撾萬榮一對情侶失蹤勃教,失蹤者是張志新(化名)和其女友劉穎淤击,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體故源,經(jīng)...
    沈念sama閱讀 43,601評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡污抬,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,066評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了绳军。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片印机。...
    茶點(diǎn)故事閱讀 38,161評論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖门驾,靈堂內(nèi)的尸體忽然破棺而出射赛,到底是詐尸還是另有隱情,我是刑警寧澤奶是,帶...
    沈念sama閱讀 33,792評論 4 323
  • 正文 年R本政府宣布楣责,位于F島的核電站,受9級特大地震影響聂沙,放射性物質(zhì)發(fā)生泄漏秆麸。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,351評論 3 307
  • 文/蒙蒙 一逐纬、第九天 我趴在偏房一處隱蔽的房頂上張望蛔屹。 院中可真熱鬧,春花似錦豁生、人聲如沸兔毒。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,352評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽育叁。三九已至迅脐,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間豪嗽,已是汗流浹背谴蔑。 一陣腳步聲響...
    開封第一講書人閱讀 31,584評論 1 261
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留龟梦,地道東北人隐锭。 一個(gè)月前我還...
    沈念sama閱讀 45,618評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像计贰,于是被迫代替她去往敵國和親钦睡。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,916評論 2 344

推薦閱讀更多精彩內(nèi)容