phrase matching搜索技術

近似匹配

1、什么是近似匹配

兩個句子

java is my favourite programming language, and I also think spark is a very good big data system.
java spark are very related, because scala is spark's programming language and scala is also based on jvm like java.

match query儿奶，搜索java spark

{
    "match": {
        "content": "java spark"
    }
}

match query，只能搜索到包含java和spark的document梗醇，但是不知道java和spark是不是離的很近

包含java或包含spark知允，或包含java和spark的doc，都會被返回回來叙谨。我們其實并不知道哪個doc温鸽，java和spark距離的比較近。如果我們就是希望搜索java spark手负，中間不能插入任何其他的字符涤垫，那這個時候match去做全文檢索，能搞定我們的需求嗎竟终？答案是蝠猬，搞不定。

如果我們要盡量讓java和spark離的很近的document優(yōu)先返回统捶，要給它一個更高的relevance score榆芦，這就涉及到了proximity match，近似匹配

如果說喘鸟，要實現(xiàn)兩個需求：

1匆绣、java spark，就靠在一起什黑，中間不能插入任何其他字符崎淳，就要搜索出來這種doc
2、java spark兑凿，但是要求凯力，java和spark兩個單詞靠的越近茵瘾，doc的分數(shù)越高礼华，排名越靠前

要實現(xiàn)上述兩個需求，用match做全文檢索拗秘，是搞不定的圣絮，必須得用proximity match，近似匹配

phrase match雕旨，proximity match：短語匹配扮匠，近似匹配

這一講，要學習的是phrase match凡涩，就是僅僅搜索出java和spark靠在一起的那些doc棒搜，比如有個doc，是java use'd spark活箕，不行力麸。必須是比如java spark are very good friends，是可以搜索出來的。

phrase match克蚂，就是要去將多個term作為一個短語闺鲸，一起去搜索，只有包含這個短語的doc才會作為結果返回埃叭。不像是match摸恍，java spark，java的doc也會返回赤屋，spark的doc也會返回立镶。

2、match_phrase

GET /forum/article/_search
{
  "query": {
    "match": {
      "content": "java spark"
    }
  }
}

單單包含java的doc也返回了益缎，不是我們想要的結果

POST /forum/article/5/_update
{
  "doc": {
    "content": "spark is best big data solution based on scala ,an programming language similar to java spark"
  }
}

將一個doc的content設置為恰巧包含java spark這個短語

match_phrase語法

GET /forum/article/_search
{
    "query": {
        "match_phrase": {
            "content": "java spark"
        }
    }
}

成功了谜慌，只有包含java spark這個短語的doc才返回了，只包含java的doc不會返回

3莺奔、term position

hello world, java spark doc1
hi, spark java doc2

hello doc1(0)
wolrd doc1(1)
java doc1(2) doc2(2)
spark doc1(3) doc2(1)

了解什么是分詞后的position

GET _analyze
{
  "text": "hello world, java spark",
  "analyzer": "standard"
}

4欣范、match_phrase的基本原理

索引中的position，match_phrase

hello world, java spark doc1
hi, spark java doc2

hello doc1(0)
wolrd doc1(1)
java doc1(2) doc2(2)
spark doc1(3) doc2(1)

java spark --> match phrase

java spark --> java和spark

java --> doc1(2) doc2(2)
spark --> doc1(3) doc2(1)

要找到每個term都在的一個共有的那些doc令哟，就是要求一個doc恼琼，必須包含每個term，才能拿出來繼續(xù)計算

doc1 --> java和spark --> spark position恰巧比java大1 --> java的position是2屏富，spark的position是3晴竞，恰好滿足條件

doc1符合條件

doc2 --> java和spark --> java position是2，spark position是1狠半，spark position比java position小1噩死，而不是大1 --> 光是position就不滿足，那么doc2不匹配

必須理解這塊原理Ｉ衲辍Ｒ盐！已日！

因為后面的proximity match就是原理跟這個一模一樣６舛！飘千！

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末堂鲜，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子护奈，更是在濱河造成了極大的恐慌缔莲，老刑警劉巖，帶你破解...
沈念sama閱讀 222,729評論 6贊 517
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件霉旗，死亡現(xiàn)場離奇詭異痴奏，居然都是意外死亡磺箕，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,226評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門抛虫，熙熙樓的掌柜王于貴愁眉苦臉地迎上來松靡，“玉大人，你說我怎么就攤上這事建椰〉衿郏” “怎么了？”我有些...
開封第一講書人閱讀 169,461評論 0贊 362
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵棉姐，是天一觀的道長屠列。經(jīng)常有香客問我，道長伞矩，這世上最難降的妖魔是什么笛洛？我笑而不...
開封第一講書人閱讀 60,135評論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮乃坤，結果婚禮上苛让，老公的妹妹穿的比我還像新娘。我一直安慰自己湿诊，他們只是感情好狱杰，可當我...
茶點故事閱讀 69,130評論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著厅须，像睡著了一般仿畸。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上朗和，一...
開封第一講書人閱讀 52,736評論 1贊 312
城市分裂傳說
那天错沽，我揣著相機與錄音，去河邊找鬼眶拉。笑死千埃，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的镀层。我是一名探鬼主播镰禾，決...
沈念sama閱讀 41,179評論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼皿曲，長吁一口氣：“原來是場噩夢啊……” “哼唱逢！你這毒婦竟也來了？” 一聲冷哼從身側響起屋休，我...
開封第一講書人閱讀 40,124評論 0贊 277
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤坞古，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后劫樟，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體痪枫，經(jīng)...
沈念sama閱讀 46,657評論 1贊 320
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡织堂，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,723評論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了奶陈。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片易阳。...
茶點故事閱讀 40,872評論 1贊 353
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖吃粒，靈堂內(nèi)的尸體忽然破棺而出潦俺，到底是詐尸還是另有隱情，我是刑警寧澤徐勃，帶...
沈念sama閱讀 36,533評論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布事示，位于F島的核電站，受9級特大地震影響僻肖，放射性物質(zhì)發(fā)生泄漏肖爵。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 42,213評論 3贊 336
男人毒藥：我在死后第九天來索命
文/蒙蒙一臀脏、第九天我趴在偏房一處隱蔽的房頂上張望劝堪。院中可真熱鬧，春花似錦揉稚、人聲如沸幅聘。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,700評論 0贊 25
一樁弒父案窃植，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽帝蒿。三九已至，卻和暖如春巷怜，著一層夾襖步出監(jiān)牢的瞬間葛超，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,819評論 1贊 274
情欲美人皮
我被黑心中介騙來泰國打工延塑，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留绣张，地道東北人。一個月前我還...
沈念sama閱讀 49,304評論 3贊 379
代替公主和親
正文我出身青樓关带，卻偏偏與公主長得像侥涵，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子宋雏，可洞房花燭夜當晚...
茶點故事閱讀 45,876評論 2贊 361

phrase matching搜索技術

推薦閱讀更多精彩內(nèi)容