Test3

1. 概述

  • 在 MySQL 5.7.6 之前听盖,全文索引只支持英文全文索引杨拐,不支持中文全文索引棕所,需要利用分詞器把中文段落預(yù)處理拆分成單詞糊肠,然后存入數(shù)據(jù)庫
  • 從 MySQL 5.7.6 開始辨宠,MySQL 內(nèi)置了 ngram 全文解析器,用來支持中文货裹、日文嗤形、韓文分詞

2. ngram 全文解析器

  • ngram 就是一段文字里面連續(xù) n 個字的序列,ngram 全文解析器能夠?qū)ξ谋具M行分詞弧圆,每個單詞是連續(xù)的 n 個字符的序列
  • 例如赋兵,使用 ngram 全文解析器對“生日快樂”進行分詞:
n=1, 生, 日, 快, 樂
n=2, 生日, 日快, 快樂
n=3, 生日快, 日快樂
n=4, 生日快樂
  • MySQL 中使用全局變量 ngram_token_size 來配置 ngram 中 n 的大小,其取值范圍是 1 到 10搔预,默認值為 2霹期,可以使用 show variables like 'ngram_token_size'; 查看值
  • 通常 ngram_token_size 設(shè)置為要查詢的單詞的最小字數(shù),如果需要搜索單字拯田,就要把 ngram_token_size 設(shè)置為 1历造,在默認值是 2 的情況下,搜索單字是得不到任何結(jié)果的
  • 中文單詞最少是兩個漢字船庇,推薦使用默認值 2 (這意味著單獨搜索一個漢字是搜不到結(jié)果的)
  • 全局變量 ngram_token_size 的兩種設(shè)置方法:
    • 啟動 mysqld 命令時設(shè)置 : mysqld --ngram_token_size=2
    • 修改 MySQL 配置文件
[mysqld] 
ngram_token_size=2

3. 創(chuàng)建全文索引

  • 創(chuàng)建表的同時創(chuàng)建全文索引吭产,注意一定要指明解析器 ngram,否則可能對中文無效 :
drop table if exists item;
create table item(
  id bigint primary key,
  name varchar(31) not null,
  price float not null,
  note varchar(127) not null default '',
  status tinyint not null default 0,
  constraint unq_name unique(name),
  fulltext key ftx_name(name) WITH PARSER ngram
);
insert into item values(1, '妙蛙種子', 299.0, '', 0);
insert into item values(2, '小火龍', 399.0, '', 0);
insert into item values(3, '火恐龍', 299.0, '', 0);
insert into item values(4, '皮卡丘', 999.0, '', 0);
insert into item values(5, '小鋸鱷', 799.0, '', 0);
insert into item values(6, '小火猴', 1399.0, '', 0);
insert into item values(7, '小火狐', 599.0, '', 0);
insert into item values(8, '小拳石', 699.0, '', 0);
insert into item values(9, '超夢', 4999.0, '', 0);
insert into item values(10, '妙蛙草', 5999.0, '', 0);
insert into item values(11, '妙蛙花', 3999.0, '', 0);
  • 通過 alter table 的方式添加 :
alter table item add fulltext index ftx_name(name) with parser ngram;
  • 通過 create index 的方式 :
create fulltext index ftx_name on item (name) with parser ngram; 

4. 全文索引的使用

  • 常用的全文檢索模式有兩種 : 自然語言模式 (natural language mode) 和 boolean 模式 (boolean mode)
  • 自然語言模式是 MySQL 默認的全文檢索模式鸭轮,自然語言模式比較基礎(chǔ)臣淤,不能指定操作符,不能指定關(guān)鍵字必須出現(xiàn)或者不能出現(xiàn)等復(fù)雜查詢窃爷,多個用空格分開的詞之間是或的關(guān)系
  • boolean 模式可以使用操作符邑蒋,可以支持指明特定關(guān)鍵字必須出現(xiàn)或者必須不能出現(xiàn)姓蜂,還能指定特定的關(guān)鍵詞是權(quán)重高還是權(quán)重低等復(fù)雜查詢
  • 特別注意,ngram 進行中文分詞時寺董,ngram_token_size 默認值為 2覆糟,即在進行搜索時,只搜索單個字是無法搜索結(jié)果的遮咖,必須至少兩個字以上(ngram 會對列和搜索條件都進行分詞滩字,然后進行匹配)

自然語言模式

  • select * from item where match(name) against('小火');select * from item where match(name) against('小火' in natural language mode); : 搜索出 name 包含“小火”的記錄
  • select * from item where match(name) against('小火 種子'); : 搜索出 name 包含“小火”或“種子”的記錄
  • 如果想看相關(guān)性得分,可以把 match(name) against('小火 種子') as score 放到查詢列中來得到得分御吞,不相關(guān)的得分為 0 : select *, match(name) against('小火 火龍') as score from item order by score desc;
  • 注意麦箍,select * from item where match(name) against('小'); 是搜不出結(jié)果的,至少需要兩個詞

boolean 模式

  • boolean 模式可以利用一些特殊符號進行一些更高級的陶珠、更精準(zhǔn)的查詢
  • select * from item where match(name) against('+小火' in boolean mode); : 必須包含小火挟裂,+ 表示必須包含
  • select * from item where match(name) against('+小火 -火龍' in boolean mode); : 必須包含小火,且不能包含火龍揍诽,- 表示不能包含
  • 下面介紹 boolean 常用運算符 :
    • 小火 種子 : 無操作符诀蓉,表示或,包含小火或者種子
    • +小火 +火龍 : 必須同時包含小火和火龍
    • +小火 火猴 : 必須包含小火暑脆,如果同時含有火猴則相關(guān)性更高
    • +小火 -火龍 : 必須包含小火渠啤,且不包含火龍
    • +小火 ~火龍 : 必須包含小火,如果包含了火龍添吗,則相關(guān)性比不包含的更低(經(jīng)測試無用)
    • +小火 +(>火猴 <火狐) : 必須包含“小火和火猴”或者“小火和火狐”沥曹,且“小火和火猴”的相關(guān)性比“小火和火狐”高
    • 小* : 通配支持單個字,查詢以小開頭的記錄
    • "some words" : 使用雙引號把要搜素的詞括起來碟联,效果類似于like '%some words%'妓美,例如“some words of wisdom”會被匹配到,而“some noise words”就不會被匹配(好像是用于英文的鲤孵,中文要先分詞)

5. 補充說明

  • 只能在類型為 CHAR, VARCHAR, TEXT 的字段上創(chuàng)建全文索引
  • 全文索引只支持 InnoDB 和 MyISAM 引擎
  • match (columnName) AGAINST ('keywords') : match() 函數(shù)使用的字段名壶栋,必須要與創(chuàng)建全文索引時指定的字段名一致,例如前面建表時是 match(name) 則查詢時也必須是 match(name)
  • 如果要對多個字段分別查詢普监,就要在多個字段上分別創(chuàng)建全文索引委刘,如果要統(tǒng)一查詢多個字段,則可以聯(lián)合多個字段創(chuàng)建全文索引鹰椒,但查詢時要指定你要使用哪個索引,且格式要和創(chuàng)建時保持一致
  • match() 函數(shù)使用的字段名只能是同一個表的字段呕童,因為全文索引不能夠跨多個表進行檢索
  • 如果要導(dǎo)入大數(shù)據(jù)集漆际,使用先導(dǎo)入數(shù)據(jù)再在表上創(chuàng)建全文索引的方式要比先創(chuàng)建全文索引再導(dǎo)入數(shù)據(jù)的方式快很多,所以全文索引時很影響 TPS 的
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末夺饲,一起剝皮案震驚了整個濱河市奸汇,隨后出現(xiàn)的幾起案子施符,更是在濱河造成了極大的恐慌,老刑警劉巖擂找,帶你破解...
    沈念sama閱讀 212,718評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件戳吝,死亡現(xiàn)場離奇詭異,居然都是意外死亡贯涎,警方通過查閱死者的電腦和手機听哭,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,683評論 3 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來塘雳,“玉大人陆盘,你說我怎么就攤上這事“苊鳎” “怎么了隘马?”我有些...
    開封第一講書人閱讀 158,207評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長妻顶。 經(jīng)常有香客問我酸员,道長,這世上最難降的妖魔是什么讳嘱? 我笑而不...
    開封第一講書人閱讀 56,755評論 1 284
  • 正文 為了忘掉前任幔嗦,我火速辦了婚禮,結(jié)果婚禮上呢燥,老公的妹妹穿的比我還像新娘崭添。我一直安慰自己,他們只是感情好叛氨,可當(dāng)我...
    茶點故事閱讀 65,862評論 6 386
  • 文/花漫 我一把揭開白布呼渣。 她就那樣靜靜地躺著,像睡著了一般寞埠。 火紅的嫁衣襯著肌膚如雪屁置。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 50,050評論 1 291
  • 那天仁连,我揣著相機與錄音蓝角,去河邊找鬼。 笑死饭冬,一個胖子當(dāng)著我的面吹牛使鹅,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播昌抠,決...
    沈念sama閱讀 39,136評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼患朱,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了炊苫?” 一聲冷哼從身側(cè)響起裁厅,我...
    開封第一講書人閱讀 37,882評論 0 268
  • 序言:老撾萬榮一對情侶失蹤冰沙,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后执虹,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體拓挥,經(jīng)...
    沈念sama閱讀 44,330評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,651評論 2 327
  • 正文 我和宋清朗相戀三年袋励,在試婚紗的時候發(fā)現(xiàn)自己被綠了侥啤。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,789評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡插龄,死狀恐怖愿棋,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情均牢,我是刑警寧澤糠雨,帶...
    沈念sama閱讀 34,477評論 4 333
  • 正文 年R本政府宣布,位于F島的核電站徘跪,受9級特大地震影響甘邀,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜垮庐,卻給世界環(huán)境...
    茶點故事閱讀 40,135評論 3 317
  • 文/蒙蒙 一松邪、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧哨查,春花似錦逗抑、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,864評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至溉奕,卻和暖如春褂傀,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背加勤。 一陣腳步聲響...
    開封第一講書人閱讀 32,099評論 1 267
  • 我被黑心中介騙來泰國打工仙辟, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人鳄梅。 一個月前我還...
    沈念sama閱讀 46,598評論 2 362
  • 正文 我出身青樓叠国,卻偏偏與公主長得像,于是被迫代替她去往敵國和親戴尸。 傳聞我的和親對象是個殘疾皇子煎饼,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,697評論 2 351

推薦閱讀更多精彩內(nèi)容