1. 概述
- 在 MySQL 5.7.6 之前听盖,全文索引只支持英文全文索引杨拐,不支持中文全文索引棕所,需要利用分詞器把中文段落預(yù)處理拆分成單詞糊肠,然后存入數(shù)據(jù)庫
- 從 MySQL 5.7.6 開始辨宠,MySQL 內(nèi)置了 ngram 全文解析器,用來支持中文货裹、日文嗤形、韓文分詞
2. ngram 全文解析器
- ngram 就是一段文字里面連續(xù) n 個字的序列,ngram 全文解析器能夠?qū)ξ谋具M行分詞弧圆,每個單詞是連續(xù)的 n 個字符的序列
- 例如赋兵,使用 ngram 全文解析器對“生日快樂”進行分詞:
n=1, 生, 日, 快, 樂
n=2, 生日, 日快, 快樂
n=3, 生日快, 日快樂
n=4, 生日快樂
- MySQL 中使用全局變量 ngram_token_size 來配置 ngram 中 n 的大小,其取值范圍是 1 到 10搔预,默認值為 2霹期,可以使用
show variables like 'ngram_token_size';
查看值 - 通常 ngram_token_size 設(shè)置為要查詢的單詞的最小字數(shù),如果需要搜索單字拯田,就要把 ngram_token_size 設(shè)置為 1历造,在默認值是 2 的情況下,搜索單字是得不到任何結(jié)果的
- 中文單詞最少是兩個漢字船庇,推薦使用默認值 2 (這意味著單獨搜索一個漢字是搜不到結(jié)果的)
- 全局變量 ngram_token_size 的兩種設(shè)置方法:
- 啟動 mysqld 命令時設(shè)置 :
mysqld --ngram_token_size=2
- 修改 MySQL 配置文件
- 啟動 mysqld 命令時設(shè)置 :
[mysqld]
ngram_token_size=2
3. 創(chuàng)建全文索引
- 創(chuàng)建表的同時創(chuàng)建全文索引吭产,注意一定要指明解析器 ngram,否則可能對中文無效 :
drop table if exists item;
create table item(
id bigint primary key,
name varchar(31) not null,
price float not null,
note varchar(127) not null default '',
status tinyint not null default 0,
constraint unq_name unique(name),
fulltext key ftx_name(name) WITH PARSER ngram
);
insert into item values(1, '妙蛙種子', 299.0, '', 0);
insert into item values(2, '小火龍', 399.0, '', 0);
insert into item values(3, '火恐龍', 299.0, '', 0);
insert into item values(4, '皮卡丘', 999.0, '', 0);
insert into item values(5, '小鋸鱷', 799.0, '', 0);
insert into item values(6, '小火猴', 1399.0, '', 0);
insert into item values(7, '小火狐', 599.0, '', 0);
insert into item values(8, '小拳石', 699.0, '', 0);
insert into item values(9, '超夢', 4999.0, '', 0);
insert into item values(10, '妙蛙草', 5999.0, '', 0);
insert into item values(11, '妙蛙花', 3999.0, '', 0);
- 通過 alter table 的方式添加 :
alter table item add fulltext index ftx_name(name) with parser ngram;
- 通過 create index 的方式 :
create fulltext index ftx_name on item (name) with parser ngram;
4. 全文索引的使用
- 常用的全文檢索模式有兩種 : 自然語言模式 (natural language mode) 和 boolean 模式 (boolean mode)
- 自然語言模式是 MySQL 默認的全文檢索模式鸭轮,自然語言模式比較基礎(chǔ)臣淤,不能指定操作符,不能指定關(guān)鍵字必須出現(xiàn)或者不能出現(xiàn)等復(fù)雜查詢窃爷,多個用空格分開的詞之間是或的關(guān)系
- boolean 模式可以使用操作符邑蒋,可以支持指明特定關(guān)鍵字必須出現(xiàn)或者必須不能出現(xiàn)姓蜂,還能指定特定的關(guān)鍵詞是權(quán)重高還是權(quán)重低等復(fù)雜查詢
- 特別注意,ngram 進行中文分詞時寺董,ngram_token_size 默認值為 2覆糟,即在進行搜索時,只搜索單個字是無法搜索結(jié)果的遮咖,必須至少兩個字以上(ngram 會對列和搜索條件都進行分詞滩字,然后進行匹配)
自然語言模式
-
select * from item where match(name) against('小火');
或select * from item where match(name) against('小火' in natural language mode);
: 搜索出 name 包含“小火”的記錄 -
select * from item where match(name) against('小火 種子');
: 搜索出 name 包含“小火”或“種子”的記錄 - 如果想看相關(guān)性得分,可以把
match(name) against('小火 種子') as score
放到查詢列中來得到得分御吞,不相關(guān)的得分為 0 :select *, match(name) against('小火 火龍') as score from item order by score desc;
- 注意麦箍,
select * from item where match(name) against('小');
是搜不出結(jié)果的,至少需要兩個詞
boolean 模式
- boolean 模式可以利用一些特殊符號進行一些更高級的陶珠、更精準(zhǔn)的查詢
-
select * from item where match(name) against('+小火' in boolean mode);
: 必須包含小火挟裂,+ 表示必須包含 -
select * from item where match(name) against('+小火 -火龍' in boolean mode);
: 必須包含小火,且不能包含火龍揍诽,- 表示不能包含 - 下面介紹 boolean 常用運算符 :
-
小火 種子
: 無操作符诀蓉,表示或,包含小火或者種子 -
+小火 +火龍
: 必須同時包含小火和火龍 -
+小火 火猴
: 必須包含小火暑脆,如果同時含有火猴則相關(guān)性更高 -
+小火 -火龍
: 必須包含小火渠啤,且不包含火龍 -
+小火 ~火龍
: 必須包含小火,如果包含了火龍添吗,則相關(guān)性比不包含的更低(經(jīng)測試無用) -
+小火 +(>火猴 <火狐)
: 必須包含“小火和火猴”或者“小火和火狐”沥曹,且“小火和火猴”的相關(guān)性比“小火和火狐”高 -
小*
: 通配支持單個字,查詢以小開頭的記錄 -
"some words"
: 使用雙引號把要搜素的詞括起來碟联,效果類似于like '%some words%'妓美,例如“some words of wisdom”會被匹配到,而“some noise words”就不會被匹配(好像是用于英文的鲤孵,中文要先分詞)
-
5. 補充說明
- 只能在類型為 CHAR, VARCHAR, TEXT 的字段上創(chuàng)建全文索引
- 全文索引只支持 InnoDB 和 MyISAM 引擎
-
match (columnName) AGAINST ('keywords')
: match() 函數(shù)使用的字段名壶栋,必須要與創(chuàng)建全文索引時指定的字段名一致,例如前面建表時是match(name)
則查詢時也必須是match(name)
- 如果要對多個字段分別查詢普监,就要在多個字段上分別創(chuàng)建全文索引委刘,如果要統(tǒng)一查詢多個字段,則可以聯(lián)合多個字段創(chuàng)建全文索引鹰椒,但查詢時要指定你要使用哪個索引,且格式要和創(chuàng)建時保持一致
- match() 函數(shù)使用的字段名只能是同一個表的字段呕童,因為全文索引不能夠跨多個表進行檢索
- 如果要導(dǎo)入大數(shù)據(jù)集漆际,使用先導(dǎo)入數(shù)據(jù)再在表上創(chuàng)建全文索引的方式要比先創(chuàng)建全文索引再導(dǎo)入數(shù)據(jù)的方式快很多,所以全文索引時很影響 TPS 的