基于 Mysql 實(shí)現(xiàn)一個(gè)簡易版搜索引擎

前言

前段時(shí)間幻锁,因?yàn)轫?xiàng)目需求庐镐,需要根據(jù)關(guān)鍵詞搜索聊天記錄朱嘴,這不就是一個(gè)搜索引擎的功能嗎?
于是我第一時(shí)間想到的就是 ElasticSearch 分布式搜索引擎尤蒿,但是由于一些原因郑气,公司的服務(wù)器資源比較緊張,沒有額外的機(jī)器去部署一套 ElasticSearch 服務(wù)腰池,而且上線時(shí)間也比較緊張尾组,數(shù)據(jù)量也不大,然后就想到了 Mysql 的全文索引示弓。

簡介

其實(shí) Mysql 很早就支持全文索引了讳侨,只不過一直只支持英文的檢索,從5.7.6 版本開始奏属,Mysql 就內(nèi)置了 ngram 全文解析器跨跨,用來支持中文、日文囱皿、韓文分詞勇婴。

Mysql 全文索引采用的是倒排索引的原理,在倒排索引中關(guān)鍵詞是主鍵嘱腥,每個(gè)關(guān)鍵詞都對應(yīng)著一系列文件耕渴,這些文件中都出現(xiàn)了這個(gè)關(guān)鍵詞。這樣當(dāng)用戶搜索某個(gè)關(guān)鍵詞時(shí)齿兔,排序程序在倒排索引中定位到這個(gè)關(guān)鍵詞萨螺,就可以馬上找出所有包含這個(gè)關(guān)鍵詞的文件。

本文測試愧驱,基于 Mysql 8.0 版本,數(shù)據(jù)庫引擎采用的是 InnoDB

ngram 全文解析器

ngram 就是一段文字里面連續(xù)的 n 個(gè)字的序列椭盏。ngram 全文解析器能夠?qū)ξ谋具M(jìn)行分詞组砚,每個(gè)單詞是連續(xù)的 n 個(gè)字的序列。例如掏颊,用 ngram 全文解析器對“你好靚仔”進(jìn)行分詞:

n=1: '你', '好', '靚', '仔' 
n=2: '你好', '好靚', '靚仔' 
n=3: '你好靚', '好靚仔' 
n=4: '你好靚仔'

MySQL 中使用全局變量 ngram_token_size 來配置 ngram 中 n 的大小糟红,它的取值范圍是1到10艾帐,默認(rèn)值是 2。通常 ngram_token_size 設(shè)置為要查詢的單詞的最小字?jǐn)?shù)盆偿。如果需要搜索單字柒爸,就要把 ngram_token_size 設(shè)置為 1。在默認(rèn)值是 2 的情況下事扭,搜索單字是得不到任何結(jié)果的捎稚。因?yàn)橹形膯卧~最少是兩個(gè)漢字,推薦使用默認(rèn)值 2求橄。

可以通過以下命令查看 Mysql 默認(rèn)的 ngram_token_size 大薪褚啊:

show variables like 'ngram_token_size'
▲ 查詢結(jié)果

有兩種方式可以設(shè)置全局變量 ngram_token_size 的值:

1、啟動(dòng) mysqld 命令時(shí)指定:

mysqld --ngram_token_size=2

2罐农、修改 Mysql 配置文件 my.ini条霜,末尾增加一行參數(shù):

ngram_token_size=2

創(chuàng)建全文索引

1、建表時(shí)創(chuàng)建全文索引

CREATE TABLE `article` (
  `id` bigint NOT NULL,
  `url` varchar(1024) COLLATE utf8mb4_general_ci NOT NULL DEFAULT '',
  `title` varchar(256) COLLATE utf8mb4_general_ci NOT NULL DEFAULT '',
  `source` varchar(32) COLLATE utf8mb4_general_ci DEFAULT '',
  `keywords` varchar(32) COLLATE utf8mb4_general_ci DEFAULT NULL,
  `publish_time` timestamp NULL DEFAULT NULL,
  PRIMARY KEY (`id`),
  FULLTEXT KEY `title_index` (`title`) WITH PARSER `ngram`
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_general_ci;

2涵亏、通過 alter table 方式

ALTER TABLE article ADD FULLTEXT INDEX title_index(title) WITH PARSER ngram;

3宰睡、通過 create index 方式

CREATE FULLTEXT INDEX title_index ON article (title) WITH PARSER ngram;

檢索方式

1、自然語言檢索(NATURAL LANGUAGE MODE)

自然語言模式是 MySQL 默認(rèn)的全文檢索模式气筋。自然語言模式不能使用操作符拆内,不能指定關(guān)鍵詞必須出現(xiàn)或者必須不能出現(xiàn)等復(fù)雜查詢。

示例

select * from article where MATCH(title) AGAINST ('北京旅游' IN NATURAL LANGUAGE MODE);

// 不指定模式裆悄,默認(rèn)使用自然語言模式
select * from article where MATCH(title) AGAINST ('北京旅游');
▲ 搜索結(jié)果

可以看出矛纹,該模式下根據(jù)“北京旅游”搜索,可以搜索出包含“北京”的或者包含“旅游”的內(nèi)容光稼,因?yàn)樗歉鶕?jù)自然語言分成了兩個(gè)關(guān)鍵詞或南。

上面示例中返回的結(jié)果會(huì)自動(dòng)按照匹配度排序,匹配度高的在前面艾君,匹配度是一個(gè)非負(fù)浮點(diǎn)數(shù)采够。

示例

// 查看匹配度
select * , MATCH(title) AGAINST ('北京旅游') as score from article where MATCH(title) AGAINST ('北京旅游' IN NATURAL LANGUAGE MODE);
▲ 搜索結(jié)果

2、布爾檢索(BOOLEAN MODE)

布爾檢索模式可以使用操作符冰垄,可以支持指定關(guān)鍵詞必須出現(xiàn)或者必須不能出現(xiàn)或者關(guān)鍵詞的權(quán)重高還是低等復(fù)雜查詢蹬癌。

示例

// 無操作符
// 包含“約會(huì)”或“攻略”
select * from article where MATCH(title) AGAINST ('約會(huì) 攻略' IN BOOLEAN MODE);
▲ 搜索結(jié)果
// 使用操作符
// 必須包含“約會(huì)”,可包含“攻略”
select * from article where MATCH(title) AGAINST ('+約會(huì) 攻略' IN BOOLEAN MODE);
▲ 搜索結(jié)果

更多操作符示例:

'約會(huì) 攻略' 
無操作符虹茶,表示或逝薪,要么包含“約會(huì)”,要么包含“攻略”

'+約會(huì) +攻略'
必須同時(shí)包含兩個(gè)詞

'+約會(huì) 攻略'
必須包含“約會(huì)”蝴罪,但是如果也包含“攻略”的話董济,匹配度更高。

'+約會(huì) -攻略'
必須包含“約會(huì)”要门,同時(shí)不能包含“攻略”虏肾。

'+約會(huì) ~攻略'
必須包含“約會(huì)”廓啊,但是如果也包含“攻略”的話,匹配度要比不包含“攻略”的記錄低封豪。

'+約會(huì) +(>攻略 <技巧)'
查詢必須包含“約會(huì)”和“攻略”或者“約會(huì)”和“技巧”的記錄谴轮,但是“約會(huì) 攻略”的匹配度要比“約會(huì) 技巧”高。

'約會(huì)*'
查詢包含以“約會(huì)”開頭的記錄吹埠。

'"約會(huì)攻略"'
使用雙引號(hào)把要搜素的詞括起來第步,效果類似于like '%約會(huì)攻略%',
例如“約會(huì)攻略初級(jí)篇”會(huì)被匹配到藻雌,而“約會(huì)的攻略”就不會(huì)被匹配雌续。

與 Like 對比

全文索引和 like 查詢對比,有以下優(yōu)點(diǎn):

  • like 只是進(jìn)行模糊匹配胯杭,全文索引卻提供了一些語法語義的查詢功能驯杜,會(huì)將要查的字符串進(jìn)行分詞操作,這決定于 Mysql 的詞庫做个。
  • 全文索引可以自己設(shè)置詞語的最小鸽心、最大長度,要忽略的詞居暖,這些都是可以設(shè)置的顽频。
  • 用全文索引去某個(gè)列查一個(gè)字符串,會(huì)返回匹配度太闺,可以理解為匹配的關(guān)鍵字個(gè)數(shù)糯景,是個(gè)浮點(diǎn)數(shù)。

而且全文檢索的性能也是優(yōu)于 like 查詢的

以下是以 50w 左右數(shù)據(jù)進(jìn)行的測試:

// like 查詢
select * from article where title like '%北京%';
▲ 搜索結(jié)果
// 全文索引查詢
select * from article where MATCH(title) AGAINST ('北京' IN BOOLEAN MODE);
▲ 搜索結(jié)果

可以看出 like 查詢是 1.536s省骂,全文索引查詢是 0.094s蟀淮,快了16倍左右。

總結(jié)

全文索引能快速搜索钞澳,但是也存在維護(hù)索引的開銷怠惶。字段長度越大,創(chuàng)建的全文索引也越大轧粟,會(huì)影響DML語句的吞吐量策治。數(shù)據(jù)量不大的情況下可以采用全文索引來做搜索,簡單方便兰吟,但是數(shù)據(jù)量大的話還是建議用專門的搜索引擎 ElasticSearch 來做這件事通惫。

END

往期推薦

如何保證接口的冪等性?

你必須了解的分布式事務(wù)解決方案

就這混蔼?分布式 ID 發(fā)號(hào)器實(shí)戰(zhàn)

略懂設(shè)計(jì)模式之工廠模式

就這讽膏?Spring 事務(wù)失效場景及解決方案

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市拄丰,隨后出現(xiàn)的幾起案子府树,更是在濱河造成了極大的恐慌,老刑警劉巖料按,帶你破解...
    沈念sama閱讀 206,214評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件奄侠,死亡現(xiàn)場離奇詭異,居然都是意外死亡载矿,警方通過查閱死者的電腦和手機(jī)垄潮,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來闷盔,“玉大人弯洗,你說我怎么就攤上這事》旯矗” “怎么了牡整?”我有些...
    開封第一講書人閱讀 152,543評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長溺拱。 經(jīng)常有香客問我逃贝,道長,這世上最難降的妖魔是什么迫摔? 我笑而不...
    開封第一講書人閱讀 55,221評論 1 279
  • 正文 為了忘掉前任沐扳,我火速辦了婚禮,結(jié)果婚禮上句占,老公的妹妹穿的比我還像新娘沪摄。我一直安慰自己,他們只是感情好纱烘,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,224評論 5 371
  • 文/花漫 我一把揭開白布杨拐。 她就那樣靜靜地躺著,像睡著了一般凹炸。 火紅的嫁衣襯著肌膚如雪戏阅。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,007評論 1 284
  • 那天啤它,我揣著相機(jī)與錄音奕筐,去河邊找鬼。 笑死变骡,一個(gè)胖子當(dāng)著我的面吹牛离赫,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播塌碌,決...
    沈念sama閱讀 38,313評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼渊胸,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了台妆?” 一聲冷哼從身側(cè)響起翎猛,我...
    開封第一講書人閱讀 36,956評論 0 259
  • 序言:老撾萬榮一對情侶失蹤胖翰,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后切厘,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體萨咳,經(jīng)...
    沈念sama閱讀 43,441評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,925評論 2 323
  • 正文 我和宋清朗相戀三年疫稿,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了培他。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,018評論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡遗座,死狀恐怖舀凛,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情途蒋,我是刑警寧澤猛遍,帶...
    沈念sama閱讀 33,685評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站碎绎,受9級(jí)特大地震影響螃壤,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜筋帖,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,234評論 3 307
  • 文/蒙蒙 一奸晴、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧日麸,春花似錦寄啼、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,240評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至嗡综,卻和暖如春乙帮,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背极景。 一陣腳步聲響...
    開封第一講書人閱讀 31,464評論 1 261
  • 我被黑心中介騙來泰國打工察净, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人盼樟。 一個(gè)月前我還...
    沈念sama閱讀 45,467評論 2 352
  • 正文 我出身青樓氢卡,卻偏偏與公主長得像,于是被迫代替她去往敵國和親晨缴。 傳聞我的和親對象是個(gè)殘疾皇子译秦,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,762評論 2 345

推薦閱讀更多精彩內(nèi)容