精確索引顧名思義就是完全匹配的索引,包括大小寫(xiě)的區(qū)分捌归,F(xiàn)oo 和 foo就不是相同的索引,使用sql語(yǔ)言可以很好的表示岭粤,精確匹配惜索。
全文索引就比較微妙,我們?cè)谒阉鱂oo的時(shí)候剃浇,我們也希望可以搜索出foo,甚至fo巾兆。
elastic search為了達(dá)到全文搜索中希望達(dá)到的目的,在文檔存儲(chǔ)的時(shí)候會(huì)進(jìn)行分析虎囚,建立倒排索引臼寄。
建立倒排索引的過(guò)程就是分析和標(biāo)準(zhǔn)話(huà)的過(guò)程。
分析和分析器
1溜宽、首先將文本分成適合索引的獨(dú)立的詞條吉拳。
2、將這些分出來(lái)的詞條進(jìn)行標(biāo)準(zhǔn)化适揉,以提高索引程度留攒。
1煤惩、字符過(guò)濾器:該過(guò)濾器是進(jìn)行分詞前的整理,比如將文本中的Html字符去掉炼邀,將 ‘&’ 轉(zhuǎn)換為 ‘a(chǎn)nd’等魄揉。
2、分詞器 :分詞器按照分詞器的特性拭宁,將文本按照特性的格式(比如簡(jiǎn)單分詞器按照空格洛退、橫線(xiàn)等)將文本切分成多個(gè)詞條。
3杰标、token過(guò)濾器:將分詞器拆分的詞條進(jìn)行標(biāo)準(zhǔn)化處理兵怯,轉(zhuǎn)換單詞小寫(xiě),無(wú)用的詞條的刪除(a腔剂、an等)媒区,詞條增加等。
通過(guò)上面的分詞器掸犬、過(guò)濾器的操作文本就可以拆分成最終的詞條袜漩,我們使用這些詞條建立倒排索引就可以進(jìn)行查詢(xún)了。
下面是幾種分詞器:
1湾碎、標(biāo)準(zhǔn)分詞器:這是elesticsearch默認(rèn)的分詞器宙攻,也是絕大數(shù)應(yīng)用使用的分詞器。他采用unicode標(biāo)準(zhǔn)進(jìn)行文本的拆分介褥,去掉絕大多是標(biāo)點(diǎn)粘优,最后將詞條標(biāo)準(zhǔn)話(huà)小寫(xiě)。
2呻顽、簡(jiǎn)單分詞器:將文本在不是字母的地方進(jìn)行分詞雹顺。最后將詞條小寫(xiě)。
3廊遍、空格分詞器:空格分詞器在空格的地方進(jìn)行分詞嬉愧。他不會(huì)詞條的大小寫(xiě)處理。
4喉前、語(yǔ)言分詞器:特定語(yǔ)言的分詞器没酣,會(huì)根據(jù)語(yǔ)言進(jìn)行文本的特殊處理。比如英文分詞器會(huì)自動(dòng)刪除不必要的卵迂,對(duì)于相關(guān)性較小的分詞裕便。提取詞干等。
什么時(shí)候使用分詞器见咒?
我們?cè)谖谋句浫氲臅r(shí)候文本會(huì)被分詞器進(jìn)行拆分分詞偿衰。建立倒排索引。
在我們進(jìn)行查詢(xún)的時(shí)候我們必須要保證我們的查詢(xún)文本也是使用同一種分詞器進(jìn)行分詞,這樣我們才能保證我們搜索的詞條格式和索引的詞條格式是一致的下翎。
elasticSearch精確索引和全文索引
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
- 文/潘曉璐 我一進(jìn)店門(mén)蚌吸,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人乒裆,你說(shuō)我怎么就攤上這事套利⊥评” “怎么了鹤耍?”我有些...
- 文/不壞的土叔 我叫張陵,是天一觀(guān)的道長(zhǎng)验辞。 經(jīng)常有香客問(wèn)我稿黄,道長(zhǎng),這世上最難降的妖魔是什么跌造? 我笑而不...
- 正文 為了忘掉前任杆怕,我火速辦了婚禮,結(jié)果婚禮上壳贪,老公的妹妹穿的比我還像新娘陵珍。我一直安慰自己,他們只是感情好违施,可當(dāng)我...
- 文/花漫 我一把揭開(kāi)白布互纯。 她就那樣靜靜地躺著,像睡著了一般磕蒲。 火紅的嫁衣襯著肌膚如雪留潦。 梳的紋絲不亂的頭發(fā)上,一...
- 那天辣往,我揣著相機(jī)與錄音兔院,去河邊找鬼。 笑死站削,一個(gè)胖子當(dāng)著我的面吹牛坊萝,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
- 文/蒼蘭香墨 我猛地睜開(kāi)眼屹堰,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼肛冶!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起扯键,我...
- 序言:老撾萬(wàn)榮一對(duì)情侶失蹤睦袖,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后荣刑,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體馅笙,經(jīng)...
- 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
- 正文 我和宋清朗相戀三年厉亏,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了董习。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
- 正文 年R本政府宣布,位于F島的核電站训柴,受9級(jí)特大地震影響哑舒,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜幻馁,卻給世界環(huán)境...
- 文/蒙蒙 一洗鸵、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧仗嗦,春花似錦膘滨、人聲如沸。這莊子的主人今日做“春日...
- 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至钩蚊,卻和暖如春贡翘,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背砰逻。 一陣腳步聲響...
- 正文 我出身青樓踊东,卻偏偏與公主長(zhǎng)得像北滥,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子闸翅,可洞房花燭夜當(dāng)晚...
推薦閱讀更多精彩內(nèi)容
- 只列出了感覺(jué)重要的部分再芋,完整內(nèi)容請(qǐng)查看這里。 適用于Elasticsearch 2.x版本 添加故障轉(zhuǎn)移 當(dāng)集群中...
- 1.分頁(yè) 理解為什么深度分頁(yè)是有問(wèn)題的坚冀,我們可以假設(shè)在一個(gè)有 5 個(gè)主分片的索引中搜索济赎。 當(dāng)我們請(qǐng)求結(jié)果的第一頁(yè)(...
- 當(dāng)傳送數(shù)據(jù)到Elasticsearch的時(shí)候,究竟發(fā)生了什么记某? 一司训、什么是分析 分析是在文檔被發(fā)送并加入倒排索引之...
- [TOC] 簡(jiǎn)介 Elasticsearch 是一個(gè)實(shí)時(shí)的分布式搜索分析引擎, 它能讓你以一個(gè)之前從未有過(guò)的速度和...
- 查詢(xún)API關(guān)鍵字說(shuō)明 1.matchAllQuery() 匹配全部文檔 2.matchQuery(String n...