phrase matching搜索技術

近似匹配

1、什么是近似匹配

兩個句子

java is my favourite programming language, and I also think spark is a very good big data system.
java spark are very related, because scala is spark's programming language and scala is also based on jvm like java.

match query儿奶,搜索java spark

{
    "match": {
        "content": "java spark"
    }
}

match query,只能搜索到包含java和spark的document梗醇,但是不知道java和spark是不是離的很近

包含java或包含spark知允,或包含java和spark的doc,都會被返回回來叙谨。我們其實并不知道哪個doc温鸽,java和spark距離的比較近。如果我們就是希望搜索java spark手负,中間不能插入任何其他的字符涤垫,那這個時候match去做全文檢索,能搞定我們的需求嗎竟终?答案是蝠猬,搞不定。

如果我們要盡量讓java和spark離的很近的document優(yōu)先返回统捶,要給它一個更高的relevance score榆芦,這就涉及到了proximity match,近似匹配

如果說喘鸟,要實現(xiàn)兩個需求:

1匆绣、java spark,就靠在一起什黑,中間不能插入任何其他字符崎淳,就要搜索出來這種doc
2、java spark兑凿,但是要求凯力,java和spark兩個單詞靠的越近茵瘾,doc的分數(shù)越高礼华,排名越靠前

要實現(xiàn)上述兩個需求,用match做全文檢索拗秘,是搞不定的圣絮,必須得用proximity match,近似匹配

phrase match雕旨,proximity match:短語匹配扮匠,近似匹配

這一講,要學習的是phrase match凡涩,就是僅僅搜索出java和spark靠在一起的那些doc棒搜,比如有個doc,是java use'd spark活箕,不行力麸。必須是比如java spark are very good friends,是可以搜索出來的。

phrase match克蚂,就是要去將多個term作為一個短語闺鲸,一起去搜索,只有包含這個短語的doc才會作為結果返回埃叭。不像是match摸恍,java spark,java的doc也會返回赤屋,spark的doc也會返回立镶。

2、match_phrase

GET /forum/article/_search
{
  "query": {
    "match": {
      "content": "java spark"
    }
  }
}

單單包含java的doc也返回了益缎,不是我們想要的結果

POST /forum/article/5/_update
{
  "doc": {
    "content": "spark is best big data solution based on scala ,an programming language similar to java spark"
  }
}

將一個doc的content設置為恰巧包含java spark這個短語

match_phrase語法

GET /forum/article/_search
{
    "query": {
        "match_phrase": {
            "content": "java spark"
        }
    }
}

成功了谜慌,只有包含java spark這個短語的doc才返回了,只包含java的doc不會返回

3莺奔、term position

hello world, java spark doc1
hi, spark java doc2

hello doc1(0)
wolrd doc1(1)
java doc1(2) doc2(2)
spark doc1(3) doc2(1)

了解什么是分詞后的position

GET _analyze
{
  "text": "hello world, java spark",
  "analyzer": "standard"
}

4欣范、match_phrase的基本原理

索引中的position,match_phrase

hello world, java spark doc1
hi, spark java doc2

hello doc1(0)
wolrd doc1(1)
java doc1(2) doc2(2)
spark doc1(3) doc2(1)

java spark --> match phrase

java spark --> java和spark

java --> doc1(2) doc2(2)
spark --> doc1(3) doc2(1)

要找到每個term都在的一個共有的那些doc令哟,就是要求一個doc恼琼,必須包含每個term,才能拿出來繼續(xù)計算

doc1 --> java和spark --> spark position恰巧比java大1 --> java的position是2屏富,spark的position是3晴竞,恰好滿足條件

doc1符合條件

doc2 --> java和spark --> java position是2,spark position是1狠半,spark position比java position小1噩死,而不是大1 --> 光是position就不滿足,那么doc2不匹配

必須理解這塊原理I衲辍R盐!已日!

因為后面的proximity match就是原理跟這個一模一樣6舛!飘千!

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末堂鲜,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子护奈,更是在濱河造成了極大的恐慌缔莲,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,729評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件霉旗,死亡現(xiàn)場離奇詭異痴奏,居然都是意外死亡磺箕,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,226評論 3 399
  • 文/潘曉璐 我一進店門抛虫,熙熙樓的掌柜王于貴愁眉苦臉地迎上來松靡,“玉大人,你說我怎么就攤上這事建椰〉衿郏” “怎么了?”我有些...
    開封第一講書人閱讀 169,461評論 0 362
  • 文/不壞的土叔 我叫張陵棉姐,是天一觀的道長屠列。 經(jīng)常有香客問我,道長伞矩,這世上最難降的妖魔是什么笛洛? 我笑而不...
    開封第一講書人閱讀 60,135評論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮乃坤,結果婚禮上苛让,老公的妹妹穿的比我還像新娘。我一直安慰自己湿诊,他們只是感情好狱杰,可當我...
    茶點故事閱讀 69,130評論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著厅须,像睡著了一般仿畸。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上朗和,一...
    開封第一講書人閱讀 52,736評論 1 312
  • 那天错沽,我揣著相機與錄音,去河邊找鬼眶拉。 笑死千埃,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的镀层。 我是一名探鬼主播镰禾,決...
    沈念sama閱讀 41,179評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼皿曲,長吁一口氣:“原來是場噩夢啊……” “哼唱逢!你這毒婦竟也來了?” 一聲冷哼從身側響起屋休,我...
    開封第一講書人閱讀 40,124評論 0 277
  • 序言:老撾萬榮一對情侶失蹤坞古,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后劫樟,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體痪枫,經(jīng)...
    沈念sama閱讀 46,657評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡织堂,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,723評論 3 342
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了奶陈。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片易阳。...
    茶點故事閱讀 40,872評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖吃粒,靈堂內(nèi)的尸體忽然破棺而出潦俺,到底是詐尸還是另有隱情,我是刑警寧澤徐勃,帶...
    沈念sama閱讀 36,533評論 5 351
  • 正文 年R本政府宣布事示,位于F島的核電站,受9級特大地震影響僻肖,放射性物質(zhì)發(fā)生泄漏肖爵。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 42,213評論 3 336
  • 文/蒙蒙 一臀脏、第九天 我趴在偏房一處隱蔽的房頂上張望劝堪。 院中可真熱鬧,春花似錦揉稚、人聲如沸幅聘。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,700評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽帝蒿。三九已至,卻和暖如春巷怜,著一層夾襖步出監(jiān)牢的瞬間葛超,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,819評論 1 274
  • 我被黑心中介騙來泰國打工延塑, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留绣张,地道東北人。 一個月前我還...
    沈念sama閱讀 49,304評論 3 379
  • 正文 我出身青樓关带,卻偏偏與公主長得像侥涵,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子宋雏,可洞房花燭夜當晚...
    茶點故事閱讀 45,876評論 2 361

推薦閱讀更多精彩內(nèi)容