Elastic日報(bào)第2期

地址:https://elasticsearch.cn/article/202

1. 在Elasticsearch中應(yīng)用機(jī)器學(xué)習(xí)排序LTR

將機(jī)器學(xué)習(xí)集成到搜索排名;使用簡單的神經(jīng)網(wǎng)絡(luò)共虑,最優(yōu)化文檔特征的權(quán)重值,最終達(dá)到一個最優(yōu)解盲链。

核心概念

使用不同的特征得到TopN的結(jié)果并進(jìn)行評價,根據(jù)評價信息訓(xùn)練模型迟杂。

  1. 通過分析來衡量用戶所反饋的相關(guān)度刽沾,并構(gòu)建一個評價列表,將文檔分級為精確相關(guān)的逢慌、模糊相關(guān)的和無關(guān)的悠轩,并用于查詢;
  2. 猜想哪些特征可能有助于相關(guān)度預(yù)測攻泼,比如特定屬性匹配程度的TF-IDF相關(guān)度、新穎性鉴象,以及搜索用戶的個性化特征等忙菠;
  3. 訓(xùn)練一個模型,將這些特征準(zhǔn)確無誤地映射到一個相關(guān)性得分上纺弊;
  4. 部署該模型到你的搜索基礎(chǔ)設(shè)施中牛欢,在線上環(huán)境中使用它來對搜索結(jié)果排序。

基本原理

LTR插件集成了RankLib和Elasticsearch淆游。RankLib有一個輸入文件作為評價依據(jù)傍睹,并輸出一個模型,該模型是內(nèi)置的可閱讀格式犹菱。接下來RankLib可通過編程或命令行來訓(xùn)練模型拾稳。一旦有了模型,Elasticsearch插件就會包含以下內(nèi)容:

  • 一個自定義的Elasticsearch腳本語言腊脱,叫做ranklib访得,它把RankLib生成的模型作為一個Elasticsearch腳本;
  • 一個自定義的LTR查詢陕凹,它輸入一個包含Query DSL查詢(那些特征)悍抑、一個模型名稱(就是第一步中上傳的模型)和打分結(jié)果的列表鳄炉。

由于LTR模型的實(shí)現(xiàn)成本很高,人們幾乎不會直接使用LTR查詢搜骡,而是對結(jié)果的Top N重新打分拂盯,比如:

{
    "query": {/*a simple base query goes here*/},
    "rescore": {
        "window_size": 100,
        "query": {
           "rescore_query": {
              "ltr": {
                  "model": {
                     "stored": "dummy"
                  },
                  "features": [{
                       "match": {
                           "title": <users keyword search>
                       }
                   }
               ...

實(shí)踐步驟

  1. 安裝依賴準(zhǔn)備數(shù)據(jù);
  2. 下載TMDB數(shù)據(jù)记靡,下載RankLib.jar谈竿;
  3. 啟動ES并安裝LTR插件
  4. 索引數(shù)據(jù)到ES簸呈;
  5. 新建并且上傳特征榕订,特征使用1~n.json文件,每個特征可以包含一個簡單查詢或者復(fù)雜查詢蜕便;
  6. 收集評價信息劫恒,每一個特征會生成一個三元組的評價信息文件;
  7. 將全部特征的評價信息文件進(jìn)行合并轿腺;
  8. 使用合并后的文件進(jìn)行訓(xùn)練两嘴;
  9. 使用訓(xùn)練結(jié)果進(jìn)行搜索。
# 評價信息文件 <grade>,<docId>,<keywords>
# qid:1: rambo
#
#
# grade (0-4)   queryid  # docId    title
4   qid:1 # 7555    Rambo

# 評價文件合并結(jié)果
4   qid:1   1:12.318446 2:9.8376875 # 7555  rambo

項(xiàng)目文檔

地址:http://elasticsearch-learning-to-rank.readthedocs.io/en/latest/index.html

2. 用ElasticSearch搭建自己的搜索和分析引擎

地址:http://wetest.qq.com/lab/view/300.html

一篇入門加實(shí)踐的文章族壳,文章主要介紹了ES的核心概念憔辫、關(guān)鍵配置項(xiàng)、Mapping基本用法仿荆、聚合的用法贰您,并結(jié)合實(shí)例對ES的性能進(jìn)行了分析。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末拢操,一起剝皮案震驚了整個濱河市锦亦,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌令境,老刑警劉巖杠园,帶你破解...
    沈念sama閱讀 206,968評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異舔庶,居然都是意外死亡抛蚁,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評論 2 382
  • 文/潘曉璐 我一進(jìn)店門惕橙,熙熙樓的掌柜王于貴愁眉苦臉地迎上來瞧甩,“玉大人,你說我怎么就攤上這事吕漂∏着洌” “怎么了?”我有些...
    開封第一講書人閱讀 153,220評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長吼虎。 經(jīng)常有香客問我犬钢,道長,這世上最難降的妖魔是什么思灰? 我笑而不...
    開封第一講書人閱讀 55,416評論 1 279
  • 正文 為了忘掉前任玷犹,我火速辦了婚禮,結(jié)果婚禮上洒疚,老公的妹妹穿的比我還像新娘歹颓。我一直安慰自己,他們只是感情好油湖,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,425評論 5 374
  • 文/花漫 我一把揭開白布巍扛。 她就那樣靜靜地躺著,像睡著了一般乏德。 火紅的嫁衣襯著肌膚如雪撤奸。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,144評論 1 285
  • 那天喊括,我揣著相機(jī)與錄音胧瓜,去河邊找鬼。 笑死郑什,一個胖子當(dāng)著我的面吹牛府喳,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播蘑拯,決...
    沈念sama閱讀 38,432評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼钝满,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了申窘?” 一聲冷哼從身側(cè)響起舱沧,我...
    開封第一講書人閱讀 37,088評論 0 261
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎偶洋,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體距糖,經(jīng)...
    沈念sama閱讀 43,586評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡玄窝,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,028評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了悍引。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片恩脂。...
    茶點(diǎn)故事閱讀 38,137評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖趣斤,靈堂內(nèi)的尸體忽然破棺而出俩块,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 33,783評論 4 324
  • 正文 年R本政府宣布玉凯,位于F島的核電站势腮,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏漫仆。R本人自食惡果不足惜捎拯,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,343評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望盲厌。 院中可真熱鬧署照,春花似錦、人聲如沸吗浩。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,333評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽懂扼。三九已至禁荸,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間微王,已是汗流浹背屡限。 一陣腳步聲響...
    開封第一講書人閱讀 31,559評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留炕倘,地道東北人钧大。 一個月前我還...
    沈念sama閱讀 45,595評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像罩旋,于是被迫代替她去往敵國和親啊央。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,901評論 2 345