Lucene基礎(chǔ)篇-基本概念

基本概念

Token

Token在Lucene與在自然語言處理（NLP汗洒，Natural-language processing）中的概念相同拂募，表示“詞元”穷躁。詞元即自然語言中的基本單位：在中文表現(xiàn)為一個獨立的字或詞，在英文中表現(xiàn)為一個單詞典奉。

將句子處理成Token的過程酝掩，稱為分詞鳞芙，而完成分詞工作的組件稱為分詞器（Analyzer）。分詞器的選擇根據(jù)語言、場景而不同：用戶可以選擇Lucene中內(nèi)置的分詞器原朝，也可以自定義實現(xiàn)分詞器闯割。

總的來說，中文分詞要比英文分詞復(fù)雜竿拆。本篇介紹英文分詞宙拉，有關(guān)中文分詞的內(nèi)容，后續(xù)單獨介紹丙笋。

在Lucene中谢澈，分詞通常包含以下步驟：

分詞流程示例

拆分單詞（Split）：像英文這種帶有自然分隔（空格、標(biāo)點符號）的語言御板，可以簡單地按照分隔符進(jìn)行拆分锥忿。
排除停用詞（Stop Words）：自然語言中含有大量沒有實際含義的功能詞，在自然語言處理中怠肋，遇到這類詞敬鬓，就會停止處理，所以稱這些功能詞為停用詞笙各。停用詞通常表現(xiàn)為冠詞（eg. a钉答、the）、介詞（eg. on杈抢、in）数尿、副詞（eg. how、when）或連詞（eg. and）惶楼。在分詞時排除停用詞右蹦，既減少了索引量，又提高了檢索效率和效果歼捐。關(guān)于停用詞的段子：從品牌辨識度何陆、圖形獨特性和美感角度，如何評價中國移動新品牌「and 和」的名稱及其 logo 設(shè)計豹储？ - 傅渥成的回答 - 知乎
詞干提却ぁ（ Stemming）：英文中含有名詞復(fù)數(shù)、第三人稱單數(shù)颂翼、過去時晃洒、進(jìn)行時等一系列衍生詞慨灭，一般而言朦乏，我們真正關(guān)心的是它們的詞根。抽取單詞詞根的過程稱為詞干提取氧骤。主流的Stemming算法有Porter stemming algorithm呻疹、Lovins stemming algorithm、Lancaster(Paice/Husk) stemming algorithm筹陵。Lucene 使用了 Snowball 語言編寫的詞干提取算法刽锤，并將其封裝在了lucene-analyzers-common包中镊尺。
單詞小寫化（Lower Case）：針對搜索詞大小寫不敏感的情況，在分詞時并思，會把單詞統(tǒng)一轉(zhuǎn)化為小寫形式庐氮。

Field

Field（域）可以類比關(guān)系型數(shù)據(jù)庫中的字段的概念。Field包含三個部分：名稱宋彼、類型弄砍、值。

常用的Field有數(shù)值型输涕、字符串型音婶、文本型。

Field繼承關(guān)系

下面是常用的Field與關(guān)系型數(shù)據(jù)庫字段的對照關(guān)系：

字段類型	關(guān)系型數(shù)據(jù)庫（以MySQL為例）	Lucene	說明
數(shù)值型	int莱坎、bigint衣式、double	IntPoint、LongPoint檐什、DoublePoint	-
字符串型	varchar	StringField	StringField中的值不會分詞
文本型	text	TextField	TextField中的值會做分詞處理
日期型	date碴卧、timestamp、datetime	-	Lucene沒有提供日期型Field乃正，但是可以根據(jù)需要將日期轉(zhuǎn)為數(shù)值型或字符串型Field

Document

Document（文檔）是Field的集合螟深。Document可以類比為關(guān)系型數(shù)據(jù)庫中的記錄，不同的是烫葬，Document并非結(jié)構(gòu)化的界弧，并沒有schema的約束：

不同Document對象中包含的Field并不要求一致（半結(jié)構(gòu)化）
同一Document對象可以包含多個同名的Field

舉個例子：

? 一個Document可以描述一個人的信息，可能包含姓名搭综、年齡等字段垢箕；

? 另外一個Document可以描述一本書的信息，可能包含書名兑巾、作者等字段条获，并且可以有多個名為作者的字段可霎。

Directory子類	描述
SimpleFSDirectory	最簡單的Directory子類院峡，使用java.io.* API將文件存入文件系統(tǒng)兴使。不能很好支持多線程操作
NIOFSDirectory	使用java.nio.* API將文件保存至文件系統(tǒng)。能很好支持除Windows之外的多線程操作照激，原因是Sun的JRE在Windows平臺上長期存在問題
MMapDirectory	使用內(nèi)存映射I/O進(jìn)行文件訪問发魄。對于64位JRE來說是一個很好的選擇，對于32位JRE并且索引尺寸相對較小時也可以使用該類
RAMDirectory	將所有文件都存入RAM
FIleSwitchDirectory	使用兩個文件目錄俩垃，根據(jù)文件擴展名在兩個目錄之間切換使用

Query

Query類似關(guān)系型數(shù)據(jù)庫中的SQL語句赏淌。與關(guān)系型數(shù)據(jù)庫類似，Lucene提供了以下的基本查詢：

查詢類型	關(guān)系型數(shù)據(jù)庫	Lucene
精確查詢	xxx = ?	TermQuery
范圍查詢	xxx BETWEEN? AND ?	PointRangeQuery
模糊查詢	xxx LIKE '%?%'	PrefixQuery啄清、RegexpQuery
組合查詢	(...) AND (...) OR (...)	BooleanQuery

倒排索引

倒排索引（Inverted Index六水，也叫反向索引）是相較正排索引（Forward Index，也叫正向索引）而言的辣卒。

簡單來說掷贾，正排索引描述的是每個文檔包含哪些詞；倒排索引描述的是某個詞出現(xiàn)在哪些文檔中荣茫。

假設(shè)有如下編號的文檔：

1. the fox jumps over the dog
2. god save dog

建正排索引如下：

文檔編號	包含單詞
1	{the, fox, jumps, over, dog}
2	{god, save, dog}

建倒排索引如下：

單詞	包含該單詞的文檔
the	{1}
fox	{1}
...	...
dog	{1, 2}

不難發(fā)現(xiàn)想帅，如果要搜索哪些文檔包含給定的單詞，正排索引需要O(N)的時間啡莉，而倒排索引需要O(1)的時間港准。

Lucene中的倒排索引要比這復(fù)雜得多，不僅存儲包含某單詞的文檔編號咧欣，而且會存儲該單詞在各文檔中的出現(xiàn)頻率以及位置信息等浅缸。

以上是Lucene的基本概念，下一篇開始魄咕，會介紹Lucene中的CRUD操作衩椒。

最后編輯于：2018.08.20 14:43:28

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市哮兰，隨后出現(xiàn)的幾起案子毛萌，更是在濱河造成了極大的恐慌，老刑警劉巖喝滞，帶你破解...
沈念sama閱讀 212,599評論 6贊 492
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件阁将，死亡現(xiàn)場離奇詭異，居然都是意外死亡囤躁，警方通過查閱死者的電腦和手機冀痕，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,629評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來狸演，“玉大人言蛇，你說我怎么就攤上這事∠啵” “怎么了腊尚？”我有些...
開封第一講書人閱讀 158,084評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長满哪。經(jīng)常有香客問我婿斥，道長，這世上最難降的妖魔是什么哨鸭？我笑而不...
開封第一講書人閱讀 56,708評論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任民宿，我火速辦了婚禮，結(jié)果婚禮上像鸡，老公的妹妹穿的比我還像新娘活鹰。我一直安慰自己，他們只是感情好只估，可當(dāng)我...
茶點故事閱讀 65,813評論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布志群。她就那樣靜靜地躺著，像睡著了一般蛔钙。火紅的嫁衣襯著肌膚如雪锌云。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 50,021評論 1贊 291
城市分裂傳說
那天吁脱，我揣著相機與錄音桑涎，去河邊找鬼。笑死兼贡，一個胖子當(dāng)著我的面吹牛石洗，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播紧显，決...
沈念sama閱讀 39,120評論 3贊 410
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼讲衫，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了孵班？” 一聲冷哼從身側(cè)響起涉兽，我...
開封第一講書人閱讀 37,866評論 0贊 268
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎篙程，沒想到半個月后枷畏，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 44,308評論 1贊 303
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡虱饿，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,633評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年拥诡，在試婚紗的時候發(fā)現(xiàn)自己被綠了触趴。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 38,768評論 1贊 341
活死人
序言：一個原本活蹦亂跳的男人離奇死亡渴肉，死狀恐怖冗懦，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情仇祭，我是刑警寧澤披蕉，帶...
沈念sama閱讀 34,461評論 4贊 333
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站乌奇，受9級特大地震影響没讲，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜礁苗，卻給世界環(huán)境...
茶點故事閱讀 40,094評論 3贊 317
男人毒藥：我在死后第九天來索命
文/蒙蒙一爬凑、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧试伙，春花似錦贰谣、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,850評論 0贊 21
一樁弒父案吱抚，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至考廉，卻和暖如春秘豹，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背昌粤。一陣腳步聲響...
開封第一講書人閱讀 32,082評論 1贊 267
情欲美人皮
我被黑心中介騙來泰國打工既绕，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人涮坐。一個月前我還...
沈念sama閱讀 46,571評論 2贊 362
代替公主和親
正文我出身青樓凄贩，卻偏偏與公主長得像，于是被迫代替她去往敵國和親袱讹。傳聞我的和親對象是個殘疾皇子疲扎，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 43,666評論 2贊 350