2019-10-15-全文搜索技術(shù)-Lucene1

1押赊,Lucene是什么

????????lucene是apache下的一個(gè)開(kāi)放源代碼的全文檢索引擎工具包(jar)

????????原理:新華字典,

2,Lucene應(yīng)用領(lǐng)域有哪些

? ??????1.????? 互聯(lián)網(wǎng)全文檢索引擎(比如百度塔淤,谷歌,必應(yīng))

????????2.????? 站內(nèi)全文檢索引擎(淘寶速妖,京東搜索功能)

????????3.????? 優(yōu)化數(shù)據(jù)庫(kù)查詢(因?yàn)閿?shù)據(jù)庫(kù)中使用like關(guān)鍵字是全表掃描也就是順序掃描算法,查詢慢)

3高蜂,數(shù)據(jù)的分類和搜索方法有哪些

? ??????結(jié)構(gòu)化數(shù)據(jù): 指具有固定格式或有限長(zhǎng)度的數(shù)據(jù),如數(shù)據(jù)庫(kù)等;

? ??????非結(jié)構(gòu)化數(shù)據(jù): 指不定長(zhǎng)或無(wú)固定格式的數(shù)據(jù), 如郵件、word 文檔中的數(shù)據(jù)等;

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 運(yùn)行Lucene

1罕容,Lucene開(kāi)發(fā)環(huán)境

官網(wǎng):http://lucene.apache.org下載:http://lucene.apache.org/core/downloads.html? ? ??

2备恤,使用的jar包

Lucene包:

????????lucene-core-4.10.3.jar 核心包

????????lucene-analyzers-common-4.10.3.jar 分詞包

????????lucene-queryparser-4.10.3.jar 查詢包

其它:

????????commons-io-2.4.jar

????????junit-4.9.jar

第一步:pom.xml引入依賴

3, Lucene實(shí)現(xiàn)全文檢索????

第二步:創(chuàng)建索引

1锦秒、獲得原始文檔

原始文檔:是指要索引和搜索的內(nèi)容露泊。原始內(nèi)容包括互聯(lián)網(wǎng)上的網(wǎng)頁(yè)、數(shù)據(jù)庫(kù)中的數(shù)據(jù)旅择、磁盤上的文件等惭笑。

本案例我們要獲取磁盤上文件的內(nèi)容,可以通過(guò)文件流來(lái)讀取文本文件的內(nèi)容生真,對(duì)于pdf沉噩、doc、xls等文件可通過(guò)第三方提供的解析工具讀取文件內(nèi)容柱蟀,比如Apache POI讀取doc和xls的文件內(nèi)容川蒙。

2、創(chuàng)建文檔對(duì)象

獲取原始文檔的目的是為了索引产弹,在索引前需要將原始內(nèi)容創(chuàng)建成文檔對(duì)象(Document)派歌,Document中包括一些Field(file_name文件名稱、file_path文件路徑痰哨、file_size文件大小胶果、file_content文件內(nèi)容),如下圖:

3斤斧、分析文檔(分詞)

4早抠、創(chuàng)建索引

????????索引結(jié)構(gòu):域名:詞

????????索引作用:它里面有指針指向這個(gè)詞來(lái)源的文檔

第三步:查詢索引

創(chuàng)建索引和查詢索引時(shí)所用的分詞器必須一致,如下案例中搜索關(guān)鍵字“數(shù)據(jù)結(jié)構(gòu)”:

結(jié)構(gòu)化數(shù)據(jù): 有固定格式或有限長(zhǎng)度的數(shù)據(jù)

? ??1,指定索引庫(kù)位置

2撬讽,指定查詢條件

3蕊连,查詢遍歷結(jié)果


? ? ? ? ? ??

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末悬垃,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子甘苍,更是在濱河造成了極大的恐慌尝蠕,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,252評(píng)論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件载庭,死亡現(xiàn)場(chǎng)離奇詭異看彼,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)囚聚,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,886評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門靖榕,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人顽铸,你說(shuō)我怎么就攤上這事茁计。” “怎么了谓松?”我有些...
    開(kāi)封第一講書人閱讀 168,814評(píng)論 0 361
  • 文/不壞的土叔 我叫張陵星压,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我毒返,道長(zhǎng)租幕,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書人閱讀 59,869評(píng)論 1 299
  • 正文 為了忘掉前任拧簸,我火速辦了婚禮劲绪,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘盆赤。我一直安慰自己贾富,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,888評(píng)論 6 398
  • 文/花漫 我一把揭開(kāi)白布牺六。 她就那樣靜靜地躺著颤枪,像睡著了一般。 火紅的嫁衣襯著肌膚如雪淑际。 梳的紋絲不亂的頭發(fā)上畏纲,一...
    開(kāi)封第一講書人閱讀 52,475評(píng)論 1 312
  • 那天,我揣著相機(jī)與錄音春缕,去河邊找鬼盗胀。 笑死,一個(gè)胖子當(dāng)著我的面吹牛锄贼,可吹牛的內(nèi)容都是我干的票灰。 我是一名探鬼主播,決...
    沈念sama閱讀 41,010評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼屑迂!你這毒婦竟也來(lái)了浸策?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書人閱讀 39,924評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤惹盼,失蹤者是張志新(化名)和其女友劉穎庸汗,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體逻锐,經(jīng)...
    沈念sama閱讀 46,469評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡夫晌,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,552評(píng)論 3 342
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了昧诱。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,680評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡所袁,死狀恐怖盏档,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情燥爷,我是刑警寧澤蜈亩,帶...
    沈念sama閱讀 36,362評(píng)論 5 351
  • 正文 年R本政府宣布,位于F島的核電站前翎,受9級(jí)特大地震影響稚配,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜港华,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,037評(píng)論 3 335
  • 文/蒙蒙 一道川、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧立宜,春花似錦冒萄、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 32,519評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至灯帮,卻和暖如春崖技,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背钟哥。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 33,621評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工迎献, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人瞪醋。 一個(gè)月前我還...
    沈念sama閱讀 49,099評(píng)論 3 378
  • 正文 我出身青樓忿晕,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親银受。 傳聞我的和親對(duì)象是個(gè)殘疾皇子践盼,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,691評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容

  • 1. 案例分析:什么時(shí)全文檢索鸦采,如何實(shí)現(xiàn)全文檢索 ? 1.1 案例 ? 實(shí)現(xiàn)一個(gè)文件的搜索功能,通過(guò)關(guān)鍵字搜索文件...
    東方舵手閱讀 1,184評(píng)論 0 1
  • Solr&ElasticSearch原理及應(yīng)用 一咕幻、綜述 搜索 http://baike.baidu.com/it...
    樓外樓V閱讀 7,305評(píng)論 1 17
  • 目錄結(jié)構(gòu):1.全文檢索 2.Lucene入門3.Lucene進(jìn)階 全文檢索 一, 生活中的搜索:1.Win...
    CoderZS閱讀 1,690評(píng)論 0 12
  • 本文我將為大家講解全文檢索技術(shù)——Lucene渔伯,現(xiàn)在這個(gè)技術(shù)用到的比較多,我覺(jué)得大家還是應(yīng)該掌握一下,不說(shuō)多精通明也,...
    呵呵兮子閱讀 834評(píng)論 0 2
  • 1.搜索技術(shù)理論基礎(chǔ) 1.1. 為什么要學(xué)習(xí)Lucene 原來(lái)的方式實(shí)現(xiàn)搜索功能募狂,我們的搜索流程如下圖: 上圖就是...
    SingleXu閱讀 1,150評(píng)論 0 5