數(shù)據(jù)庫學(xué)習(xí)筆記——23 用正則表達(dá)式進(jìn)行搜索

補(bǔ)充前面拉下的一節(jié)課

1 使用MySQL正則表達(dá)式

正則表達(dá)式的作用是匹配文本潜索，將一個(gè)模式（正則表達(dá)式）與一個(gè)文本串進(jìn)行比較郎哭。MySQL用 WHERE 子句對(duì)正則表達(dá)式提供了初步的支持烹卒，允許你指定正則表達(dá)式涂臣，過濾 SELECT 檢索出的數(shù)據(jù)。

MySQL僅支持多數(shù)正則表達(dá)式實(shí)現(xiàn)的一個(gè)很小的子集近范。

1.1 基本字符匹配

我們從一個(gè)非常簡單的例子開始催束。下面的語句檢索列 prod_name 包含文本 1000 的所有行：

SELECT prod_name FROM products 
WHERE prod_name REGEXP '1000'
ORDER BY 1;

除關(guān)鍵字 LIKE 被 REGEXP 替代外集峦，這條語句看上去非常像使用LIKE 的語句。它告訴MySQL： REGEXP 后所跟的東西作為正則表達(dá)式（與文字正文 1000 匹配的一個(gè)正則表達(dá)式）處理抠刺。

為什么要費(fèi)力地使用正則表達(dá)式塔淤？在剛才的例子中，正則表達(dá)式確實(shí)沒有帶來太多好處（可能還會(huì)降低性能）速妖，不過高蜂，請(qǐng)考慮下面的例子：

SELECT prod_name FROM products
WHERE prod_name REGEXP '.000' 
ORDER BY 1;

這里使用了正則表達(dá)式 .000 。 . 是正則表達(dá)式語言中一個(gè)特殊的字符罕容。它表示匹配任意一個(gè)字符备恤，因此， 1000 和 2000 都匹配且返回锦秒。

匹配不區(qū)分大小寫 MySQL中的正則表達(dá)式匹配（自版本3.23.4后）不區(qū)分大小寫（即露泊，大寫和小寫都匹配）。為區(qū)分大小寫旅择，可使用 BINARY 關(guān)鍵字惭笑，如 WHERE prod_name REGEXP BINARY 'JetPack .000' 。

1.2 進(jìn)行OR匹配

為搜索兩個(gè)串之一（或者為這個(gè)串生真，或者為另一個(gè)串）脖咐，使用 | ，如下所示：

SELECT prod_name FROM products 
WHERE prod_name REGEXP '1000|2000'
ORDER BY 1;

語句中使用了正則表達(dá)式 1000|2000 汇歹。 | 為正則表達(dá)式的 OR 操作符。它表示匹配其中之一偿凭，因此 1000 和 2000 都匹配并返回产弹。
使用 | 從功能上類似于在 SELECT 語句中使用 OR 語句，多個(gè) OR 條件可并入單個(gè)正則表達(dá)式。

兩個(gè)以上的 OR 條件可以給出兩個(gè)以上的 OR 條件痰哨。例如胶果，'1000 | 2000 | 3000' 將匹配 1000 或 2000 或 3000 。

1.3 匹配幾個(gè)字符之一

匹配任何單一字符斤斧。但是早抠，如果你只想匹配特定的字符，怎么辦撬讽？可通過指定一組用 [ 和 ] 括起來的字符來完成蕊连，如下所示：

SELECT prod_name FROM products 
WHERE prod_name REGEXP '[123] Ton'
ORDER BY 1;

這里，使用了正則表達(dá)式 [123] Ton 游昼。 [123] 定義一組字符甘苍，它的意思是匹配 1 或 2 或 3 ，因此烘豌， 1 ton 和 2 ton 都匹配且返回（沒有 3 ton ）载庭。

正如所見， [] 是另一種形式的 OR 語句廊佩。事實(shí)上囚聚，正則表達(dá)式 [123]Ton為 [1|2|3]Ton 的縮寫，也可以使用后者标锄。但是顽铸，需要用 [] 來定義 OR 語句。為更好地理解這一點(diǎn)鸯绿，請(qǐng)看下面的例子：

SELECT prod_name FROM products 
WHERE prod_name REGEXP '1|2|3 Ton'
ORDER BY 1;

這并不是期望的輸出跋破。兩個(gè)要求的行被檢索出來，但還檢索出了另外3行瓶蝴。之所以這樣是由于MySQL假定你的意思是 '1' 或'2' 或 '3 ton' 毒返。除非把字符 | 括在一個(gè)集合中，否則它將應(yīng)用于整個(gè)串舷手。

字符集合也可以被否定拧簸，即，它們將匹配除指定字符外的任何東西男窟。為否定一個(gè)字符集盆赤，在集合的開始處放置一個(gè) ^ 即可。因此歉眷，盡管 [123]匹配字符 1 牺六、 2 或 3 ，但 [^123] 卻匹配除這些字符外的任何東西汗捡。

1.4 匹配范圍

集合可用來定義要匹配的一個(gè)或多個(gè)字符淑际。例如，下面的集合將匹配數(shù)字0到9：[0123456789]
為簡化這種類型的集合，可使用 - 來定義一個(gè)范圍春缕。下面的式子功能上等同于上述數(shù)字列表：[0-9]

范圍不限于完整的集合盗胀， [1-3] 和 [6-9] 也是合法的范圍。此外锄贼，范圍不一定只是數(shù)值的票灰， [a-z] 匹配任意字母字符。
舉一個(gè)例子：

SELECT prod_name FROM products 
WHERE prod_name REGEXP '[1-5] Ton'
ORDER BY 1;

這里使用正則表達(dá)式 [1-5] Ton 宅荤。 [1-5] 定義了一個(gè)范圍屑迂，這個(gè)表達(dá)式意思是匹配 1 到 5 ，因此返回3個(gè)匹配行膘侮。由于 5 ton 匹配屈糊，所以返回 .5 ton 。

1..5 匹配特殊字符

為了匹配特殊字符琼了，必須用 \ 為前導(dǎo)逻锐。 \- 表示查找 - ， \. 表示查找 . 雕薪。

SELECT vend_name FROM vendors 
WHERE vend_name REGEXP '\\.'
ORDER BY 1;

這才是期望的輸出昧诱。 \. 匹配 . ，所以只檢索出一行所袁。這種處理就是所謂的轉(zhuǎn)義（escaping）盏档，正則表達(dá)式內(nèi)具有特殊意義的所有字符都必須以這種方式轉(zhuǎn)義。這包括 . 燥爷、 | 蜈亩、 [] 以及迄今為止使用過的其他特殊字符。

匹配 \ 為了匹配反斜杠（ \ ）字符本身前翎，需要使用\\\ 稚配。

\ 或 \? 多數(shù)正則表達(dá)式實(shí)現(xiàn)使用單個(gè)反斜杠轉(zhuǎn)義特殊字符，以便能使用這些字符本身港华。但MySQL要求兩個(gè)反斜杠（MySQL自己解釋一個(gè)道川，正則表達(dá)式庫解釋另一個(gè)）。

1.6 匹配字符類

為更方便工作立宜，可以使用預(yù)定義的字符集冒萄，稱為字符類（character class）。

類	說明
[:alnum:]	任意字母和數(shù)字（同[a-zA-Z0-9]）
[:alpha:]	任意字符（同[a-zA-Z]）
[:blank:]	空格和制表（同[\t]）
[:cntrl:]	ASCII控制字符（ASCII 0到31和127）
[:digit:]	任意數(shù)字（同[0-9]）
[:graph:]	與[:print:]相同橙数，但不包括空格
[:lower:]	任意小寫字母（同[a-z]）
[:print:]	任意可打印字符
[:punct:]	既不在[:alnum:]又不在[:cntrl:]中的任意字符
[:space:]	包括空格在內(nèi)的任意空白字符（同[\f\n\r\t\v]）
[:upper:]	任意大寫字母（同[A-Z]）
[:xdigit:]	任意十六進(jìn)制數(shù)字（同[a-fA-F0-9]）

SELECT prod_name FROM products 
WHERE prod_name REGEXP '[[:digit:]]'
ORDER BY 1;

1.7 匹配多個(gè)實(shí)例

目前為止使用的所有正則表達(dá)式都試圖匹配單次出現(xiàn)尊流。如果存在一個(gè)匹配，該行被檢索出來灯帮，如果不存在奠旺，檢索不出任何行蜘澜。但有時(shí)需要對(duì)匹配的數(shù)目進(jìn)行更強(qiáng)的控制。例如响疚，你可能需要尋找所有的數(shù)，不管數(shù)中包含多少數(shù)字瞪醋，或者你可能想尋找一個(gè)單詞并且還能夠適應(yīng)一個(gè)尾隨的 s （如果存在）忿晕，等等。
這可以用正則表達(dá)式重復(fù)元字符來完成银受。

重復(fù)元字符	說明
*	0個(gè)或多個(gè)匹配
+	1個(gè)或多個(gè)匹配（等于{1,}）
?	0個(gè)或1個(gè)匹配（等于{0,1}）
{n}	指定數(shù)目的匹配
{n,}	不少于指定數(shù)目的匹配
{n,m}	匹配數(shù)目的范圍（m不超過255）

下面舉幾個(gè)例子践盼。

SELECT prod_name FROM products 
WHERE prod_name REGEXP '\\([0-9] sticks?\\)'
ORDER BY 1;

正則表達(dá)式 \$[0-9] sticks?\$ 需要解說一下。 \$ 匹配 )宾巍，[0-9] 匹配任意數(shù)字（這個(gè)例子中為1和5）咕幻， sticks? 匹配 stick和 sticks （ s 后的 ? 使 s 可選，因?yàn)?? 匹配它前面的任何字符的0次或1次出現(xiàn)）顶霞， \$ 匹配 ) 肄程。沒有 ? ，匹配 stick 和 sticks 會(huì)非常困難选浑。

以下是另一個(gè)例子蓝厌。這次我們打算匹配連在一起的4位數(shù)字：

SELECT prod_name FROM products 
WHERE prod_name REGEXP '[[:digit:]]{4}'
ORDER BY 1;

如前所述， [:digit:] 匹配任意數(shù)字古徒，因而它為數(shù)字的一個(gè)集合拓提。 {4} 確切地要求它前面的字符（任意數(shù)字）出現(xiàn)4次，所以[[:digit:]]{4} 匹配連在一起的任意4位數(shù)字隧膘。

1.8 定位符

目前為止的所有例子都是匹配一個(gè)串中任意位置的文本代态。為了匹配特定位置的文本，需要使用定位符疹吃。

定位元字符	說明
^	文本的開始
$	文本的結(jié)尾
[[:<:]]	詞的開始
[[:>:]]	詞的結(jié)尾

例如蹦疑，如果你想找出以一個(gè)數(shù)（包括以小數(shù)點(diǎn)開始的數(shù)）開始的所有產(chǎn)品，怎么辦互墓？簡單搜索 [0-9\\.] （或 [[:digit:]\\.] ）不行必尼，因?yàn)樗鼘⒃谖谋緝?nèi)任意位置查找匹配。解決辦法是使用 ^ 定位符篡撵，如下所示：

SELECT prod_name FROM products 
WHERE prod_name REGEXP '^[0-9\\.]'
ORDER BY 1;

^ 匹配串的開始判莉。因此， ^[0-9\.] 只在 . 或任意數(shù)字為串中第一個(gè)字符時(shí)才匹配它們育谬。沒有 ^ 券盅，則還要多檢索出4個(gè)別的行（那些中間有數(shù)字的行）。

^ 的雙重用途
^ 有兩種用法膛檀。在集合中（用 [ 和 ] 定義）锰镀，用它來否定該集合娘侍，否則，用來指串的開始處泳炉。

再看個(gè)例子：

SELECT prod_name FROM products 
WHERE prod_name REGEXP '[[:<:]]TNT'
ORDER BY 1;

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末憾筏，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子花鹅，更是在濱河造成了極大的恐慌氧腰，老刑警劉巖，帶你破解...
沈念sama閱讀 217,542評(píng)論 6贊 504
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件刨肃，死亡現(xiàn)場(chǎng)離奇詭異古拴，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)真友，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,822評(píng)論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門黄痪，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人盔然，你說我怎么就攤上這事桅打。” “怎么了轻纪？”我有些...
開封第一講書人閱讀 163,912評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵油额，是天一觀的道長。經(jīng)常有香客問我刻帚，道長潦嘶，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,449評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任崇众，我火速辦了婚禮掂僵，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘顷歌。我一直安慰自己锰蓬，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,500評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布眯漩。她就那樣靜靜地躺著芹扭，像睡著了一般。火紅的嫁衣襯著肌膚如雪赦抖。梳的紋絲不亂的頭發(fā)上舱卡，一...
開封第一講書人閱讀 51,370評(píng)論 1贊 302
城市分裂傳說
那天，我揣著相機(jī)與錄音队萤，去河邊找鬼轮锥。笑死，一個(gè)胖子當(dāng)著我的面吹牛要尔，可吹牛的內(nèi)容都是我干的舍杜。我是一名探鬼主播新娜，決...
沈念sama閱讀 40,193評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼既绩！你這毒婦竟也來了概龄？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,074評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤熬词，失蹤者是張志新（化名）和其女友劉穎旁钧，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體互拾，經(jīng)...
沈念sama閱讀 45,505評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,722評(píng)論 3贊 335
?白月光啟示錄
正文我和宋清朗相戀三年嚎幸，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了颜矿。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,841評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡嫉晶，死狀恐怖骑疆，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情替废，我是刑警寧澤箍铭，帶...
沈念sama閱讀 35,569評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站椎镣，受9級(jí)特大地震影響诈火，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜状答，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,168評(píng)論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一冷守、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧惊科，春花似錦拍摇、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,783評(píng)論 0贊 22
一樁弒父案充活，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至蜡娶，卻和暖如春混卵，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背翎蹈。一陣腳步聲響...
開封第一講書人閱讀 32,918評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工淮菠，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留熬北，地道東北人妖谴。一個(gè)月前我還...
沈念sama閱讀 47,962評(píng)論 2贊 370
代替公主和親
正文我出身青樓顺少，卻偏偏與公主長得像桅咆，于是被迫代替她去往敵國和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子拥知，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,781評(píng)論 2贊 354