1. 最佳字段
?假設(shè)有個(gè)網(wǎng)站允許用戶搜索博客的內(nèi)容丽惶,以下面兩篇博客內(nèi)容文檔為例:
PUT /my_index/my_type/1
{
"title": "Quick brown rabbits",
"body": "Brown rabbits are commonly seen."
}
PUT /my_index/my_type/2
{
"title": "Keeping pets healthy",
"body": "My quick brown fox eats rabbits on a regular basis."
}
?此時(shí)用戶搜索 " brown fox ",用肉眼判斷文檔二更匹配炫七。 由于不知道該搜索詞出現(xiàn)的字段,所以我們用 bool 查詢進(jìn)行查詢钾唬。
{
"query": {
"bool": {
"should": [
{ "match": { "title": "Brown fox" }},
{ "match": { "body": "Brown fox" }}
]
}
}
}
??但在返回的結(jié)果中文檔 1 比 文檔 2 的相關(guān)度高万哪,因?yàn)樗阉鲿r(shí),會(huì)將每個(gè)字段的相關(guān)度相加然后計(jì)算總評分抡秆,文檔一的 title 和 body 中都包含 Brown, 所以評分較高奕巍,如果不是將每個(gè)字段的評分想加,而是將最佳匹配字段的評分作為查詢的整體評分儒士,返回的結(jié)果將是同時(shí)包含 brown 和 fox 的字段所在文檔相關(guān)度比較高的止。
??此時(shí)應(yīng)該使用 dis_max 查詢,而不是 bool 查詢着撩。最大化查詢(Disjunction Max Query)指的是: 將任何與查詢匹配的文檔作為結(jié)果返回诅福,但是每個(gè)文檔的評分都是以最佳匹配的評分作為結(jié)果 ,而不是再進(jìn)行計(jì)算拖叙。意思是該文檔的評分是dis_max下所有查詢的評分的最大值氓润,不再進(jìn)行求和平均計(jì)算。
{
"query": {
"dis_max": {
"queries": [
{ "match": { "title": "Brown fox" }},
{ "match": { "body": "Brown fox" }}
]
}
}
}
??由于dis_max會(huì)忽略其他匹配查詢的分?jǐn)?shù)薯鳍,可以通過 tie_breaker
進(jìn)行使得其他匹配的分?jǐn)?shù)也參與到計(jì)算該文檔的評分中咖气。和權(quán)重boost
不同,權(quán)重是字段所占的權(quán)重挖滤,而tie_breaker
是查詢所占的權(quán)重崩溪。
表示除了最佳匹配,次匹配所占總分比例的 30 %
{
"query": {
"dis_max": {
"queries": [
{ "match": { "title": "Quick pets" }},
{ "match": { "body": "Quick pets" }}
],
"tie_breaker": 0.3
}
}
}
2. 多數(shù)字段
??全文搜索被稱作是 召回率(Recall) 與 精確率(Precision) 的戰(zhàn)場: 召回率 ——返回所有的相關(guān)文檔斩松; 精確率 ——不返回?zé)o關(guān)文檔伶唯。目的是在結(jié)果的第一頁中為用戶呈現(xiàn)最為相關(guān)的文檔。
??為了提高召回率的效果惧盹,我們擴(kuò)大搜索范圍——不僅返回與用戶搜索詞精確匹配的文檔抵怎,還會(huì)返回我們認(rèn)為與查詢相關(guān)的所有文檔奋救。如果一個(gè)用戶搜索 “quick brown box” ,一個(gè)包含詞語 fast foxes 的文檔被認(rèn)為是非常合理的返回結(jié)果反惕。如果有多個(gè)文檔比該文檔更匹配,則該文檔出現(xiàn)的位置應(yīng)該在這些文檔之后演侯。
??提高全文相關(guān)性精度的常用方式是為同一文本建立多種方式的索引姿染,每種方式都提供了一個(gè)不同的相關(guān)度信號(hào) signal 。主字段會(huì)以盡可能多的形式的去匹配盡可能多的文檔秒际。比如我們搜索華為手機(jī)悬赏,在手機(jī)的 desc 字段使用默認(rèn)分詞器,而他的詞根 ' 華為手機(jī) ' 不分詞娄徊。在搜索華為手機(jī)時(shí)闽颇,會(huì)將該文檔作為結(jié)果返回,而他的詞根用來提高該文檔的相關(guān)度寄锐。
??對我們的字段索引兩次:一次使用詞干模式以及一次非詞干模式兵多。為了做到這點(diǎn),采用 multifields 來實(shí)現(xiàn)橄仆。
PUT /my_index
{
"settings": { "number_of_shards": 1 },
"mappings": {
"my_type": {
"properties": {
"title": {
"type": "string",
"analyzer": "english",
"fields": {
"std": {
"type": "string",
"analyzer": "standard"
}
}
}
}
}
}
}
??上例中剩膘,給某個(gè)字段索引了兩次,分別使用了不同的分詞器盆顾,可以使用廣度匹配字段用來匹配更多的數(shù)據(jù)怠褐,用來提升召回率,然后用該字段的詞根來將相關(guān)度更高的文檔置于頂部您宪。
GET /index/_search
{
"query": {
"multi_match": {
"query": "jumping rabbits",
"type": "most_fields",
"fields": [ "title", "title.std^10" ]
}
}
}
??跨字段實(shí)體搜索奈懒,比如人、地址等實(shí)體宪巨,需要用多個(gè)字段來唯一表示一個(gè)實(shí)體磷杏,(last_name、first_name)揖铜,使用bool查詢將會(huì)使代碼過長茴丰,而是用多字段查詢又不能完全符合題意。因?yàn)槎嘧侄嗡阉魇菫槎鄶?shù)字段是否滿足查詢條件天吓,不能在所有字段中找到最匹配的贿肩、搜索詞在多個(gè)字段值的出現(xiàn)的頻率不一樣,會(huì)導(dǎo)致結(jié)果有誤差龄寞。
??一種解決方案是增加一個(gè)新的字段汰规,比如full_name, 可以使用該字段進(jìn)行對復(fù)雜實(shí)體的搜索,但是又會(huì)出現(xiàn)冗余數(shù)據(jù)物邑。es給我們提供了兩種解決方案溜哮,一個(gè)是在索引時(shí)滔金,一個(gè)是在搜索時(shí)。
3. 混合字段
在之前說過, all_filed字段包括了該文檔所有值的結(jié)合茂嗓,但是這樣并不靈活餐茵,我們可以通過copy_to
參數(shù)人為增加一個(gè)all字段,比如下列增加一個(gè)full_name
字段述吸。
PUT /my_index
{
"mappings": {
"person": {
"properties": {
"first_name": {
"type": "string",
"copy_to": "full_name"
},
"last_name": {
"type": "string",
"copy_to": "full_name"
},
"full_name": {
"type": "string"
}
}
}
}
}
??在索引時(shí)創(chuàng)建_all字段是一個(gè)方案忿族,而es還在搜索時(shí)提供了另一種方案,使用 cross_fields 類型進(jìn)行 multi_match 查詢蝌矛。 cross_fields 使用詞中心式(term-centric)的查詢方式道批,這與 best_fields 和 most_fields 使用字段中心式(field-centric)的查詢方式非常不同。
??字段中心式:搜索詞必須同時(shí)出現(xiàn)在同一個(gè)字段中入撒。
??詞中心式:搜索詞必須同時(shí)出現(xiàn)隆豹,但可以在任意一個(gè)字段中。
GET /books/_search
{
"query": {
"multi_match": {
"query": "peter smith",
"type": "cross_fields",
"operator": "and",
"fields": [ "first_name", "last_name" ]
}
}
}