什么是全文檢索杠览？

我們生活中的數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)：
結(jié)構(gòu)化數(shù)據(jù)：具有固定格式或有限長度的數(shù)據(jù)，可以用二維表結(jié)構(gòu)來邏輯表達(dá)實現(xiàn)的纵势，如數(shù)據(jù)庫踱阿，元數(shù)據(jù)等。
非結(jié)構(gòu)化數(shù)據(jù)：指不定長或無固定格式的數(shù)據(jù)钦铁，如辦公文檔软舌、文本、圖片牛曹、XML佛点、HTML、各類報表黎比、圖像和音頻/視頻信息等等超营。也叫全文數(shù)據(jù)。

對于結(jié)構(gòu)化數(shù)據(jù)的搜索：如對數(shù)據(jù)庫的搜索焰手，用 SQL 語句糟描。再如對元數(shù)據(jù)的搜索，如利用windows 搜索對文件名书妻，類型船响，修改時間進(jìn)行搜索等。
對非結(jié)構(gòu)化數(shù)據(jù)的搜索：如利用 windows 的搜索也可以搜索文件內(nèi)容躲履，Linux 下的 grep命令见间，再如用 Google 和百度可以搜索大量內(nèi)容數(shù)據(jù)。

對非結(jié)構(gòu)化數(shù)據(jù)也即對全文數(shù)據(jù)的搜索主要有兩種方法：
一種是順序掃描法：比如在一個項目中找一個接口名為 queryTest 的接口工猜，就是在項目里一個文件一個文件的找米诉，對于每個文檔從頭到尾的去找，直到掃描項目里面的所有文件篷帅。window 的搜索文件內(nèi)容史侣，linux 的 grep 命令就是如此的。小數(shù)據(jù)量的文件還可以接受魏身，如果對于大量的文件惊橱，方法就很慢了。
另一種方法就是通過索引：把非結(jié)構(gòu)化數(shù)據(jù)重新設(shè)計成有一定的結(jié)構(gòu)箭昵，利用結(jié)構(gòu)化的數(shù)據(jù)采取一定的搜索算法加快速度税朴。把非結(jié)構(gòu)化數(shù)據(jù)中提取出的然后重新組織的信息，稱之為索引。比如字典正林，字典的拼音表和部首檢字表就是相當(dāng)于字典的索引泡一，對每一個字的解釋就是非結(jié)構(gòu)化的，如果字典沒有音節(jié)表和部首檢字表觅廓，在茫茫辭海中找一個字只能順序掃描鼻忠。
然而字的某些信息可以提取出來進(jìn)行結(jié)構(gòu)化處理，比如讀音哪亿，就比較結(jié)構(gòu)化粥烁，分聲母和韻母，分別只有幾種可以一一列舉蝇棉，于是將讀音拿出來按一定的順序排列讨阻，每一項讀音都指向此字的詳細(xì)解釋的頁數(shù)。我們搜索時按結(jié)構(gòu)化的拼音搜到讀音篡殷，然后按其指向的頁數(shù)钝吮，便可找到我們的非結(jié)構(gòu)化數(shù)據(jù)——也即對字的解釋。
這種先建立索引板辽，在對索引進(jìn)行搜索的過程叫全文檢索奇瘦。

全文檢索大體分兩個過程，索引創(chuàng)建(Indexing)和搜索索引(Search)劲弦。
索引創(chuàng)建：將現(xiàn)實世界中所有的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)提取信息耳标，創(chuàng)建索引的過程。
搜索索引：通過用戶的查詢請求搜索創(chuàng)建的索引邑跪，然后返回查詢結(jié)果的過程次坡。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市画畅，隨后出現(xiàn)的幾起案子砸琅，更是在濱河造成了極大的恐慌，老刑警劉巖轴踱，帶你破解...
沈念sama閱讀 219,427評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件症脂，死亡現(xiàn)場離奇詭異，居然都是意外死亡淫僻，警方通過查閱死者的電腦和手機(jī)诱篷，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,551評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來雳灵，“玉大人兴蒸，你說我怎么就攤上這事∠赴欤” “怎么了？”我有些...
開封第一講書人閱讀 165,747評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長笑撞。經(jīng)常有香客問我岛啸，道長，這世上最難降的妖魔是什么茴肥？我笑而不...
開封第一講書人閱讀 58,939評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任坚踩，我火速辦了婚禮，結(jié)果婚禮上瓤狐，老公的妹妹穿的比我還像新娘瞬铸。我一直安慰自己，他們只是感情好础锐，可當(dāng)我...
茶點故事閱讀 67,955評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布嗓节。她就那樣靜靜地躺著，像睡著了一般皆警。火紅的嫁衣襯著肌膚如雪拦宣。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,737評論 1贊 305
城市分裂傳說
那天信姓，我揣著相機(jī)與錄音鸵隧，去河邊找鬼。笑死意推，一個胖子當(dāng)著我的面吹牛豆瘫，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播菊值，決...
沈念sama閱讀 40,448評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼外驱，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了俊性？” 一聲冷哼從身側(cè)響起略步，我...
開封第一講書人閱讀 39,352評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎定页，沒想到半個月后趟薄，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,834評論 1贊 317
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡典徊，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,992評論 3贊 338
?白月光啟示錄
正文我和宋清朗相戀三年杭煎，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片卒落。...
茶點故事閱讀 40,133評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡羡铲，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出儡毕，到底是詐尸還是另有隱情也切，我是刑警寧澤扑媚，帶...
沈念sama閱讀 35,815評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站雷恃，受9級特大地震影響疆股，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜倒槐，卻給世界環(huán)境...
茶點故事閱讀 41,477評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一旬痹、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧讨越，春花似錦两残、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,022評論 0贊 22
一樁弒父案人弓，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至节猿，卻和暖如春票从，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背滨嘱。一陣腳步聲響...
開封第一講書人閱讀 33,147評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工峰鄙，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人太雨。一個月前我還...
沈念sama閱讀 48,398評論 3贊 373
代替公主和親
正文我出身青樓吟榴，卻偏偏與公主長得像，于是被迫代替她去往敵國和親囊扳。傳聞我的和親對象是個殘疾皇子吩翻，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,077評論 2贊 355

什么是全文檢索疑故？

什么是全文檢索杠览？

推薦閱讀更多精彩內(nèi)容