elasticsearch5.2搜索建議(自動(dòng)補(bǔ)全)

問題描述

電商網(wǎng)站的搜索是最基礎(chǔ)最重要的功能之一,搜索框上面的良好體驗(yàn)?zāi)転殡娚處砀叩氖找娣梗覀兿葋砜纯刺詫氁鲵尽⒕〇|宋梧、亞馬遜網(wǎng)站的搜索建議。
在淘寶的搜索框輸入【衛(wèi)衣】時(shí)狰挡,下方的搜索建議包括建議詞以及相關(guān)的標(biāo)簽:

Paste_Image.png

在京東的搜索框輸入【衛(wèi)衣】時(shí)捂龄,下方搜索建議右方顯示建議詞關(guān)聯(lián)的商品數(shù)量:

Paste_Image.png

在亞馬遜的搜索框輸入【衛(wèi)衣】時(shí),搜索建議上部分能支持在特定的分類下進(jìn)行搜索:

Paste_Image.png
通過上述對(duì)比可以看出加叁,不同的電商對(duì)于搜索建議的側(cè)重點(diǎn)略有不同倦沧,但核心的問題包括:
  1. 建議詞的來源可以是商品的分類名稱、品牌名稱它匕、商品屬性展融、商品名稱的高頻詞、熱搜詞豫柬,也可以是一些組合詞告希,比如“分類 + 性別”和“分類 + 屬性”扑浸,還可以是一些自定義添加的詞;
  2. 建議詞維護(hù)的時(shí)候需要考慮去重暂雹,比如“Nike”和“nike”應(yīng)該是相同的首装;
關(guān)鍵詞索引映射:
curl -XPUT http://192.168.138.210:9200/keyword/ -d'
{
    "settings" : {
        "analysis" : {
            "analyzer" : {
                "first_py_letter_analyzer" : {
                    "tokenizer" : "first_py_letter",
                    "filter":"edgeNGram_filter"
                },
                "full_pinyin_letter_analyzer" : {
                    "tokenizer" : "full_pinyin_letter",
                    "filter":"edgeNGram_filter"
                },
                "edgeNGram_analyzer":{
                    "tokenizer" : "edgeNGram_tokenizer"
                }
            },
            "tokenizer" : {
                "first_py_letter" : {
                    "type" : "pinyin",
                    "keep_first_letter" : true,
                    "keep_full_pinyin" : false,
                    "keep_original" : false,
                    "limit_first_letter_length" : 16,
                    "lowercase" : true,
                    "trim_whitespace" : true,
                    "keep_none_chinese_in_first_letter": false,
                    "none_chinese_pinyin_tokenize": false,
                    "keep_none_chinese": true,
                    "keep_none_chinese_in_joined_full_pinyin": true
                },
                "full_pinyin_letter" : {
                    "type": "pinyin",
                    "keep_separate_first_letter": false,
                    "keep_full_pinyin": false,
                    "keep_original": false,
                    "limit_first_letter_length": 16,
                    "lowercase": true,
                    "keep_first_letter": false,
                    "keep_none_chinese_in_first_letter": false,
                    "none_chinese_pinyin_tokenize": false,
                    "keep_none_chinese": true,
                    "keep_joined_full_pinyin": true,
                    "keep_none_chinese_in_joined_full_pinyin": true
                },
                "edgeNGram_tokenizer":{
                    "type": "edgeNGram",
                    "min_gram": 1,
                    "max_gram": 15,
                    "token_chars": ["letter", "digit"]
                }
            },
            "filter":{
                "edgeNGram_filter":{
                    "type": "edgeNGram",
                    "min_gram": 1,
                    "max_gram": 50,
                    "token_chars": ["letter", "digit"]
                }               
            }
        },
        "number_of_shards": 5,
        "number_of_replicas": 1
    },
    "mappings":{
        "suggestion":{
            "properties": {
                "keyword": {
                    "type": "keyword",
                    "fields": {
                        "keyword_ik": {
                            "type": "text",
                            "analyzer": "edgeNGram_analyzer"
                        },
                        "keyword_pinyin": {
                            "type": "text",
                            "analyzer": "full_pinyin_letter_analyzer"
                        },
                        "keyword_first_py": {
                            "type": "text",
                            "analyzer": "first_py_letter_analyzer"
                        }
                    }
                },              
                "count": {
                    "type": "long",
                    "index": "not_analyzed"
                },
                "weight": {
                    "type": "integer",
                    "index": "not_analyzed"
                }
            }
        }        
    }
}'

搜索語句:

{
    "sort": [
        {
            "weight": "desc"
        },
        {
            "count": "desc"
        },
        {
            "_score": "desc"
        }
    ],
    "query": {
        "dis_max": {
            "queries": [
                {
                    "match_phrase": {
                        "keyword.keyword_ik": {
                            "query": "衛(wèi)衣"
                        }
                    }
                },
                {
                    "match_phrase": {
                        "keyword.keyword_pinyin": {
                            "query": "衛(wèi)衣",
                            "boost": 2
                        }
                    }
                }
            ],
            "tie_breaker": 1
        }
    }
}

如果Elasticsearch返回的是空結(jié)果,此時(shí)應(yīng)該需要增加拼寫糾錯(cuò)的處理(拼寫糾錯(cuò)也可以在調(diào)用Elasticsearch搜索的時(shí)候帶上杭跪,但是通常情況下用戶并沒有拼寫錯(cuò)誤仙逻,所以建議還是在后面單獨(dú)調(diào)用suggester);如果返回的suggest不為空涧尿,則根據(jù)新的詞調(diào)用建議詞服務(wù)系奉;比如用戶輸入了【adidss】,調(diào)用Elasticsearch的suggester獲取到的結(jié)果是【adidas】姑廉,則再根據(jù)adidas進(jìn)行搜索建議詞處理缺亮。

{
    "suggest": {
        "keyword_suggestion": {
            "text": "adidss",
            "phrase": {
                "field": "keyword.keyword_pinyin",
                "size": 1,
                "analyzer":"standard"
            }
        }
    }
}

關(guān)于排序:在我們的實(shí)現(xiàn)里面是通過weight和count進(jìn)行排序的,weight目前只考慮了建議詞的類型(比如分類 > 品牌 > 屬性)桥言;

下面為測(cè)試數(shù)據(jù):


Paste_Image.png

下面輸入錯(cuò)誤的關(guān)鍵詞“adidss”萌踱,獲得的結(jié)果是:


Paste_Image.png

到此搜索建議基本上完成,但我估計(jì)大家會(huì)有個(gè)疑惑号阿,因?yàn)獒槍?duì)自動(dòng)補(bǔ)全并鸵,elasticsearch 提供了 completion suggestion 來解決,但為什么我沒用呢扔涧?主要是 completion suggestion 不支持按字段來排序园担,比如我這需求就是要按關(guān)鍵詞權(quán)重(weight)和搜索次數(shù)(count)來排序的

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市枯夜,隨后出現(xiàn)的幾起案子弯汰,更是在濱河造成了極大的恐慌,老刑警劉巖湖雹,帶你破解...
    沈念sama閱讀 206,723評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件咏闪,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡摔吏,警方通過查閱死者的電腦和手機(jī)汤踏,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來舔腾,“玉大人溪胶,你說我怎么就攤上這事∥瘸希” “怎么了哗脖?”我有些...
    開封第一講書人閱讀 152,998評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我才避,道長(zhǎng)橱夭,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,323評(píng)論 1 279
  • 正文 為了忘掉前任桑逝,我火速辦了婚禮棘劣,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘楞遏。我一直安慰自己茬暇,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,355評(píng)論 5 374
  • 文/花漫 我一把揭開白布寡喝。 她就那樣靜靜地躺著糙俗,像睡著了一般。 火紅的嫁衣襯著肌膚如雪预鬓。 梳的紋絲不亂的頭發(fā)上巧骚,一...
    開封第一講書人閱讀 49,079評(píng)論 1 285
  • 那天,我揣著相機(jī)與錄音格二,去河邊找鬼劈彪。 笑死,一個(gè)胖子當(dāng)著我的面吹牛顶猜,可吹牛的內(nèi)容都是我干的沧奴。 我是一名探鬼主播,決...
    沈念sama閱讀 38,389評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼驶兜,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼扼仲!你這毒婦竟也來了远寸?” 一聲冷哼從身側(cè)響起抄淑,我...
    開封第一講書人閱讀 37,019評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎驰后,沒想到半個(gè)月后肆资,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,519評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡灶芝,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,971評(píng)論 2 325
  • 正文 我和宋清朗相戀三年郑原,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片夜涕。...
    茶點(diǎn)故事閱讀 38,100評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡犯犁,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出女器,到底是詐尸還是另有隱情酸役,我是刑警寧澤,帶...
    沈念sama閱讀 33,738評(píng)論 4 324
  • 正文 年R本政府宣布,位于F島的核電站涣澡,受9級(jí)特大地震影響贱呐,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜入桂,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,293評(píng)論 3 307
  • 文/蒙蒙 一奄薇、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧抗愁,春花似錦馁蒂、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,289評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至逢捺,卻和暖如春谁鳍,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背劫瞳。 一陣腳步聲響...
    開封第一講書人閱讀 31,517評(píng)論 1 262
  • 我被黑心中介騙來泰國(guó)打工倘潜, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人志于。 一個(gè)月前我還...
    沈念sama閱讀 45,547評(píng)論 2 354
  • 正文 我出身青樓涮因,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親伺绽。 傳聞我的和親對(duì)象是個(gè)殘疾皇子养泡,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,834評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢(shì)1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 171,515評(píng)論 25 707
  • 在基于Elasticsearch實(shí)現(xiàn)搜索建議一文中我們?cè)?jīng)介紹過如何基于Elasticsearch來實(shí)現(xiàn)搜索建議,...
    ginobefun閱讀 17,168評(píng)論 2 48
  • 經(jīng)衬斡Γ看到有人在討論澜掩,婚姻是愛情的墳?zāi)梗M(jìn)來的人想出去杖挣〖玳牛可我進(jìn)來了,就不想走了惩妇。 那是12年大學(xué)開始實(shí)...
    分必久何閱讀 485評(píng)論 4 3
  • 有很多時(shí)候當(dāng)我們遇到窘境或難題都會(huì)感覺困惑和焦慮株汉。假如我們把它當(dāng)做一個(gè)有型物體,處于困局的時(shí)候應(yīng)該僅僅是看到這個(gè)物...
    泡泡里的魚閱讀 265評(píng)論 0 0
  • "我也不想說出那些讓人難受的話歌殃,可是我控制不住我自己" 一直以來我都很關(guān)注一個(gè)話題乔妈,就是語言暴力∶ブ澹可能很多人不知道...
    林深見鹿723閱讀 1,331評(píng)論 0 1