1.正則表達式概述
正則表達式纵隔,又稱正規(guī)表示式、正規(guī)表示法嘹承、正規(guī)表達式窗价、規(guī)則表達式、常規(guī)表示法(英語:Regular Expression叹卷,在代碼中常簡寫為regex撼港、regexp或RE),是計算機科學的一個概念骤竹。正則表達式使用單個字符串來描述帝牡、匹配一系列匹配某個句法規(guī)則的字符串。在很多文本編輯器里蒙揣,正則表達式通常被用來檢索靶溜、替換那些匹配某個模式的文本。
Regular Expression的“Regular”一般被譯為“正則”、“正規(guī)”罩息、“常規(guī)”嗤详。此處的“Regular”即是“規(guī)則”、“規(guī)律”的意思瓷炮,Regular Expression即“描述某種規(guī)則的表達式”之意葱色。
Python通過re模塊提供對正則表達式的支持。使用re的一般步驟是先使用re.compile()函數(shù)娘香,將正則表達式的字符串形式編譯為Pattern實例苍狰,然后使用Pattern實例處理文本并獲得匹配結果(一個Match實例),最后使用Match實例獲得信息烘绽,進行其他的操作淋昭。
2.re模塊操作
在Python中需要通過正則表達式對字符串進行匹配的時候,可以使用一個模塊安接,名字為re
1.re模塊的使用過程
#coding=utf-8
# 導入re模塊
import re
# 使用match方法進行匹配操作
result = re.match(正則表達式,要匹配的字符串)
# 如果上一步匹配到數(shù)據(jù)的話响牛,可以使用group方法來提取數(shù)據(jù)
result.group()
re.match是用來進行正則匹配檢查的方法,若字符串匹配正則表達式赫段,則match方法返回匹配對象(Match Object),否則返回None(注意不是空字符串"")矢赁。
匹配對象Macth Object具有group方法糯笙,用來返回字符串的匹配部分。
2.re模塊示例
#coding=utf-8
import re
result = re.match("taobao","taobao.com")
result.group()
運行結果:
'taobao'
- re.match() 能夠匹配出以xxx開頭的字符串
3.表示字符
**匹配中文字符的正則表達式: ** [\u4e00-\u9fa5]
正則表達式中的特殊用法
使用分組的同時撩银,會有一些特殊的使用方式如下:
表達式 | 描述 |
---|---|
(?:expression) | 作為正則表達式的一部分给涕,但是匹配結果丟棄 |
(?=expression) | 匹配expression表達式前面的字符,如 "How are you doing" ,正則"(?<txt>.+(?=ing))" 這里取ing前所有的字符额获,并定義了一個捕獲分組名字為 "txt" 而"txt"這個組里的值為"How are you do" |
(?<=expression) | 匹配expression表達式后面的字符够庙,如 "How are you doing" 正則"(?<txt>(?<=How).+)" 這里取"How"之后所有的字符,并定義了一個捕獲分組名字為 "txt" 而"txt"這個組里的值為" are you doing"; |
(?!expression) | 匹配字符串后面不是expression表達式字符抄邀,如 "123abc" 正則 "\d{3}(?!\d)"匹配3位數(shù)字后非數(shù)字的結果 |
(?<!expression) | 匹配字符串前面不是expression表達式字符耘眨,如 "abc123 " 正則 (?<![0-9])123" 匹配"123"前面是非數(shù)字的結果也可寫成"(?!<\d)123" |
舉例:(直接在Python3.5中演示)
表示字符
- . 匹配任意1個字符(除了\n) [ ]匹配[ ]中列舉的字符 \匹配數(shù)字,即0-9
re.match(".","a")
<_sre.SRE_Match object; span=(0, 1), match='a'>
re.match(".","abc")
<_sre.SRE_Match object; span=(0, 1), match='a'>
re.match("h","hello Python")
<_sre.SRE_Match object; span=(0, 1), match='h'>
re.match("[hH]","Hello Python")
<_sre.SRE_Match object; span=(0, 1), match='H'>
re.match("[0123456789]","7Hello Python")
<_sre.SRE_Match object; span=(0, 1), match='7'>
re.match("[0-9]","7Hello Python")
<_sre.SRE_Match object; span=(0, 1), match='7'>
re.match("嫦娥2號","嫦娥2號發(fā)射成功")
<_sre.SRE_Match object; span=(0, 4), match='嫦娥2號'>
re.match("嫦娥\d號","嫦娥2號發(fā)射成功")
<_sre.SRE_Match object; span=(0, 4), match='嫦娥2號'>
- \w 匹配單詞字符境肾,即a-z剔难、A-Z、0-9奥喻、_和各國語言
re.match('\w','abc')
<_sre.SRE_Match object; span=(0, 1), match='a'>
re.match('[\u4e00-\u9fa5]','人生苦短偶宫,我用python')
<_sre.SRE_Match object; span=(0, 1), match='人'>
re.match('\w','人生苦短,我用python')
<_sre.SRE_Match object; span=(0, 1), match='人'>
re.match('\w','人生苦短环鲤,我用python',re.ASCII)
None
注意: \w 如果只是想匹配字母數(shù)字下劃線纯趋,可以加上re.ASCII
re.match(r"c:\\a","c:\\a\\b\\c")
<_sre.SRE_Match object; span=(0, 4), match='c:\\a'>
ret = re.match(r"c:\\a","c:\\a\\b\\c").group()
print(ret)
c:\a
說明:
- Python中字符串前面加上 r 表示原生字符串,
- 與大多數(shù)編程語言相同,正則表達式里使用""作為轉義字符吵冒,這就可能造成反斜杠困擾纯命。假如你需要匹配文本中的字符"",那么使用編程語言表示的正則表達式里將需要4個反斜杠"\":前兩個和后兩個分別用于在編程語言里轉義成反斜杠桦锄,轉換成兩個反斜杠后再在正則表達式里轉義成一個反斜杠扎附。
- Python里的原生字符串很好地解決了這個問題,有了原始字符串结耀,我們也不用擔心是不是漏寫了反斜杠留夜,寫出來的表達式也更直觀。
表示數(shù)量
- * 匹配前一個字符出現(xiàn)0次或者無限次图甜,即可有可無
+ 匹配前一個字符出現(xiàn)1次或者無限次碍粥,即至少有1次
re.match("[A-Z][a-z]*","Mm")
<_sre.SRE_Match object; span=(0, 2), match='Mm'>
re.match("[A-Z][a-z]*","Aabcdef")
<_sre.SRE_Match object; span=(0, 7), match='Aabcdef'>
re.match("[a-zA-Z_]+[\w_]*","name1")
<_sre.SRE_Match object; span=(0, 5), match='name1'>
re.match("[a-zA-Z_]+[\w_]*","_name")
<_sre.SRE_Match object; span=(0, 5), match='_name'>
re.match("[a-zA-Z_]+[\w_]*","2_name")
None
-
? 匹配前一個字符出現(xiàn)1次或者0次,即要么有1次黑毅,要么沒有
{m} 匹配前一個字符出現(xiàn)m次
{m,}匹配前一個字符至少出現(xiàn)m次
{m,n} 匹配前一個字符出現(xiàn)在m-n次范圍都可以
re.match("[1-9]?[0-9]","7")
<_sre.SRE_Match object; span=(0, 1), match='7'>
re.match("[1-9]?[0-9]","33")
<_sre.SRE_Match object; span=(0, 2), match='33'>
re.match("[1-9]?[0-9]","09")
<_sre.SRE_Match object; span=(0, 1), match='0'>
re.match("[a-zA-Z0-9_]{6}","12a3g45678")
<_sre.SRE_Match object; span=(0, 6), match='12a3g4'>
re.match("[a-zA-Z0-9_]{6,}","12a3g45678")
<_sre.SRE_Match object; span=(0, 10), match='12a3g45678'>
re.match("[a-zA-Z0-9_]{8,20}","1ad12f23s34455ff66")
<_sre.SRE_Match object; span=(0, 18), match='1ad12f23s34455ff66'>
表示邊界
- $ 匹配字符串結尾
re.match("[\w]{4,20}@163\.com", "ererBai@163.com")
<_sre.SRE_Match object; span=(0, 15), match='ererBai@163.com'>
#結尾仍不符合要求嚼摩,但卻沒過濾掉
re.match("[\w]{4,20}@163\.com", "erBai@163.comheihei")
<_sre.SRE_Match object; span=(0, 13), match='erBai@163.com'>
# 通過$來確定末尾
re.match("[\w]{4,20}@163\.com$", "ererBai@163.comheihei")
None
- \b 匹配一個單詞的邊界
re.match(r".*\bver\b", "ho ver abc")
<_sre.SRE_Match object; span=(0, 6), match='ho ver'>
#報錯
re.match(r".*\bver\b", "ho verabc").group()
Traceback (most recent call last):
File "<input>", line 1, in <module>
AttributeError: 'NoneType' object has no attribute 'group'
#報錯
re.match(r".*\bver\b", "hover abc").group()
Traceback (most recent call last):
File "<input>", line 1, in <module>
AttributeError: 'NoneType' object has no attribute 'group'
- \B 匹配非單詞邊界
re.match(r".*\Bver\B", "hoverabc")
<_sre.SRE_Match object; span=(0, 5), match='hover'>
re.match(r".*\Bver\B", "ho verabc")
None
re.match(r".*\Bver\B", "hover abc")
None
re.match(r".*\Bver\B", "ho ver abc")
None
匹配分組
- | 匹配左右任意一個表達式
#匹配出0-100之間的數(shù)字
re.match("[1-9]?\d","8")
<_sre.SRE_Match object; span=(0, 1), match='8'>
#得到的結果是0,不符合我們的需求
re.match("[1-9]?\d","08")
<_sre.SRE_Match object; span=(0, 1), match='0'>
#所以我們應該加$
re.match("[1-9]?\d$","08")
None
re.match("[1-9]?\d$|100","8")
<_sre.SRE_Match object; span=(0, 1), match='8'>
re.match("[1-9]?\d$|100","100")
<_sre.SRE_Match object; span=(0, 3), match='100'>
re.match("[1-9]?\d$|100","78")
<_sre.SRE_Match object; span=(0, 2), match='78'>
- ( ) 將括號中字符作為一個分組
#匹配出163矿瘦、126枕面、qq郵箱之間的數(shù)字
re.match("\w{4,20}@163\.com", "ererBai@163.com")
<_sre.SRE_Match object; span=(0, 12), match='ererBai@163.com'>
re.match("\w{4,20}@(163|126|qq)\.com", "ererBai@qq.com")
<_sre.SRE_Match object; span=(0, 11), match='ererBai@qq.com'>
re.match("\w{4,20}@(163|126|qq)\.com", "ererBai@126.com")
<_sre.SRE_Match object; span=(0, 12), match='ererBai@126.com'>
e.match("\w{4,20}@(163|126|qq)\.com", "ererBai@gmail.com")
None
- \num 引用分組num匹配到的字符串
# 能夠完成對正確的字符串的匹配
re.match("<[a-zA-Z]*>\w*</[a-zA-Z]*>", "<html>hh</html>")
<_sre.SRE_Match object; span=(0, 15), match='<html>hh</html>'>
# 如果遇到非正常的html格式字符串,匹配出錯
re.match("<[a-zA-Z]*>\w*</[a-zA-Z]*>", "<html>hh</htmlbalabala>")
<_sre.SRE_Match object; span=(0, 23), match='<html>hh</htmlbalabala>'>
# 通過引用分組中匹配到的數(shù)據(jù)即可缚去,但是要注意是元字符串潮秘,即類似 r""這種格式
re.match(r"<([a-zA-Z]*)>\w*</\1>", "<html>hh</html>")
<_sre.SRE_Match object; span=(0, 15), match='<html>hh</html>'>
# 因為2對<>中的數(shù)據(jù)不一致,所以沒有匹配出來
re.match(r"<([a-zA-Z]*)>\w*</\1>", "<html>hh</htmlbalabala>")
None
- \number 引用分組num匹配到的字符串
#匹配出<html><h1>taobao.com</h1></html>
re.match(r"<(\w*)><(\w*)>.*</\2></\1>", "<html><h1>taobao.com</h1></html>")
<_sre.SRE_Match object; span=(0, 36), match='<html><h1>taobao.com</h1></html>'>
re.match(r"<(\w*)><(\w*)>.*</\2></\1>", "<html><h1>taobao.com</h2></html>")
None
- (?P<name>) (?P=name) 引用別名為name分組分配到的字符串
#匹配出<html><h1>taobao.com</h1></html>
re.match(r"<(?P<name1>\w*)><(?P<name2>\w*)>.*</(?P=name2)></(?P=name1)>", "<html><h1>taobao.com</h1></html>")
<_sre.SRE_Match object; span=(0, 32), match='<html><h1>taobao.com</h1></html>'>
re.match(r"<(?P<name1>\w*)><(?P<name2>\w*)>.*</(?P=name2)></(?P=name1)>", "<html><h1>taobao.com</h2></html>")
None
注意:(?P<name>)和(?P=name)中的字母p大寫
附:常用表達式
- 校驗數(shù)字的表達式
1 數(shù)字:^[0-9]*$
2 n位的數(shù)字:^\d{n}$
3 至少n位的數(shù)字:^\d{n,}$
4 m-n位的數(shù)字:^\d{m,n}$
5 零和非零開頭的數(shù)字:^(0|[1-9][0-9]*)$
6 非零開頭的最多帶兩位小數(shù)的數(shù)字:^([1-9][0-9]*)+(.[0-9]{1,2})?$
7 帶1-2位小數(shù)的正數(shù)或負數(shù):^(\-)?\d+(\.\d{1,2})?$
8 正數(shù)易结、負數(shù)枕荞、和小數(shù):^(\-|\+)?\d+(\.\d+)?$
9 有兩位小數(shù)的正實數(shù):^[0-9]+(.[0-9]{2})?$
10 有1~3位小數(shù)的正實數(shù):^[0-9]+(.[0-9]{1,3})?$
11 非零的正整數(shù):^[1-9]\d*$ 或 ^([1-9][0-9]*){1,3}$ 或 ^\+?[1-9][0-9]*$
12 非零的負整數(shù):^\-[1-9][]0-9"*$ 或 ^-[1-9]\d*$
13 非負整數(shù):^\d+$ 或 ^[1-9]\d*|0$
14 非正整數(shù):^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$
15 非負浮點數(shù):^\d+(\.\d+)?$ 或 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$
16 非正浮點數(shù):^((-\d+(\.\d+)?)|(0+(\.0+)?))$ 或 ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$
17 正浮點數(shù):^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ 或 ^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$
18 負浮點數(shù):^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ 或 ^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$
19 浮點數(shù):^(-?\d+)(\.\d+)?$ 或 ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$
- 校驗字符的表達式
1 漢字:^[\u4e00-\u9fa5]{0,}$
2 英文和數(shù)字:^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$
3 長度為3-20的所有字符:^.{3,20}$
4 由26個英文字母組成的字符串:^[A-Za-z]+$
5 由26個大寫英文字母組成的字符串:^[A-Z]+$
6 由26個小寫英文字母組成的字符串:^[a-z]+$
7 由數(shù)字和26個英文字母組成的字符串:^[A-Za-z0-9]+$
8 由數(shù)字、26個英文字母或者下劃線組成的字符串:^\w+$ 或 ^\w{3,20}$
9 中文搞动、英文躏精、數(shù)字包括下劃線:^[\u4E00-\u9FA5A-Za-z0-9_]+$
10 中文、英文鹦肿、數(shù)字但不包括下劃線等符號:^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$
11 可以輸入含有^%&',;=?$\"等字符:[^%&',;=?$\x22]+
12 禁止輸入含有~的字符:[^~\x22]+
- 特殊需求表達式
1 Email地址:^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$
2 域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?
3 InternetURL:[a-zA-z]+://[^\s]* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$
4 手機號碼:^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$
5 電話號碼("XXX-XXXXXXX"矗烛、"XXXX-XXXXXXXX"、"XXX-XXXXXXX"箩溃、"XXX-XXXXXXXX"高诺、"XXXXXXX"和"XXXXXXXX):^(\(\d{3,4}-)|\d{3.4}-)?\d{7,8}$
6 國內電話號碼(0511-4405222、021-87888822):\d{3}-\d{8}|\d{4}-\d{7}
7 身份證號(15位碾篡、18位數(shù)字):^\d{15}|\d{18}$
8 短身份證號碼(數(shù)字虱而、字母x結尾):^([0-9]){7,18}(x|X)?$ 或 ^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$
9 帳號是否合法(字母開頭,允許5-16字節(jié)开泽,允許字母數(shù)字下劃線):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
10 密碼(以字母開頭牡拇,長度在6~18之間,只能包含字母、數(shù)字和下劃線):^[a-zA-Z]\w{5,17}$
11 強密碼(必須包含大小寫字母和數(shù)字的組合惠呼,不能使用特殊字符导俘,長度在8-10之間):^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$
12 日期格式:^\d{4}-\d{1,2}-\d{1,2}
13 一年的12個月(01~09和1~12):^(0?[1-9]|1[0-2])$
14 一個月的31天(01~09和1~31):^((0?[1-9])|((1|2)[0-9])|30|31)$
15 錢的輸入格式:
1.有四種錢的表示形式我們可以接受:"10000.00" 和 "10,000.00", 和沒有 "分" 的 "10000" 和 "10,000":^[1-9][0-9]*$
2.這表示任意一個不以0開頭的數(shù)字,但是,這也意味著一個字符"0"不通過,所以我們采用下面的形式:^(0|[1-9][0-9]*)$
3.一個0或者一個不以0開頭的數(shù)字.我們還可以允許開頭有一個負號:^(0|-?[1-9][0-9]*)$
4.這表示一個0或者一個可能為負的開頭不為0的數(shù)字.讓用戶以0開頭好了.把負號的也去掉,因為錢總不能是負的吧.下面我們要加的是說明可能的小數(shù)部分:^[0-9]+(.[0-9]+)?$
5.必須說明的是,小數(shù)點后面至少應該有1位數(shù),所以"10."是不通過的,但是 "10" 和 "10.2" 是通過的:^[0-9]+(.[0-9]{2})?$
6.這樣我們規(guī)定小數(shù)點后面必須有兩位,如果你認為太苛刻了,可以這樣:^[0-9]+(.[0-9]{1,2})?$
7.這樣就允許用戶只寫一位小數(shù).下面我們該考慮數(shù)字中的逗號了,我們可以這樣:^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$
8.1到3個數(shù)字,后面跟著任意個 逗號+3個數(shù)字,逗號成為可選,而不是必須:^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$
- 備注:這就是最終結果了,別忘了"+"可以用"*"替代如果你覺得空字符串也可以接受的話(奇怪,為什么?)最后,別忘了在用函數(shù)時去掉去掉那個反斜杠,一般的錯誤都在這里
16 xml文件:^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$
17 中文字符的正則表達式:[\u4e00-\u9fa5]
18 雙字節(jié)字符:[^\x00-\xff] (包括漢字在內,可以用來計算字符串的長度(一個雙字節(jié)字符長度計2剔蹋,ASCII字符計1))
19 空白行的正則表達式:\n\s*\r (可以用來刪除空白行)
20 HTML標記的正則表達式:<(\S*?)[^>]*>.*?</\1>|<.*? /> (網(wǎng)上流傳的版本太糟糕旅薄,上面這個也僅僅能部分,對于復雜的嵌套標記依舊無能為力)
21 首尾空白字符的正則表達式:^\s*|\s*$或(^\s*)|(\s*$) (可以用來刪除行首行尾的空白字符(包括空格泣崩、制表符少梁、換頁符等等),非常有用的表達式)
22 騰訊QQ號:[1-9][0-9]{4,} (騰訊QQ號從10000開始)
23 中國郵政編碼:[1-9]\d{5}(?!\d) (中國郵政編碼為6位數(shù)字) 33 IP地址:\d+\.\d+\.\d+\.\d+ (提取IP地址時有用) 34 IP地址:((?:(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)\\.){3}(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d))
4.re模塊的高級用法
1.search
re.search(r"\d+", "閱讀次數(shù)為 9999")
<_sre.SRE_Match object; span=(6, 10), match='9999'>
2.findall
#統(tǒng)計出python矫付、c凯沪、c++相應文章閱讀的次數(shù)
re.findall(r"\d+", "python = 9999, c = 7890, c++ = 12345")
['9999', '7890', '12345']
3.sub將匹配到的數(shù)據(jù)進行替換
#方法一
re.sub(r"\d+", '998', "python = 997")
'python = 998'
#方法二
def add(temp):
strNum = temp.group()
num = int(strNum) + 1
return str(num)
re.sub(r"\d+", add, "python = 997")
'python = 998'
例子
#從下面的字符串中取出文本
<div>
<p>崗位職責:</p>
<p>完成推薦算法、數(shù)據(jù)統(tǒng)計买优、接口妨马、后臺等服務器端相關工作</p>
<p><br></p>
<p>必備要求:</p>
<p>良好的自我驅動力和職業(yè)素養(yǎng),工作積極主動杀赢、結果導向</p>
<p> <br></p>
<p>技術要求:</p>
<p>1烘跺、一年以上 Python 開發(fā)經(jīng)驗,掌握面向對象分析和設計脂崔,了解設計模式</p>
<p>2液荸、掌握HTTP協(xié)議,熟悉MVC脱篙、MVVM等概念以及相關WEB開發(fā)框架</p>
<p>3、掌握關系數(shù)據(jù)庫開發(fā)設計伤柄,掌握 SQL绊困,熟練使用 MySQL/PostgreSQL 中的一種<br></p>
<p>4、掌握NoSQL适刀、MQ秤朗,熟練使用對應技術解決方案</p>
<p>5、熟悉 Javascript/CSS/HTML5笔喉,JQuery取视、React、Vue.js</p>
<p> <br></p>
<p>加分項:</p>
<p>大數(shù)據(jù)常挚,數(shù)理統(tǒng)計作谭,機器學習,sklearn奄毡,高性能折欠,大并發(fā)。</p>
</div>
解決方法:
s='''<div>
<p>崗位職責:</p>
<p>完成推薦算法、數(shù)據(jù)統(tǒng)計锐秦、接口咪奖、后臺等服務器端相關工作</p>
<p><br></p>
<p>必備要求:</p>
<p>良好的自我驅動力和職業(yè)素養(yǎng),工作積極主動酱床、結果導向</p>
<p> <br></p>
<p>技術要求:</p>
<p>1羊赵、一年以上 Python 開發(fā)經(jīng)驗,掌握面向對象分析和設計扇谣,了解設計模式</p>
<p>2昧捷、掌握HTTP協(xié)議,熟悉MVC揍堕、MVVM等概念以及相關WEB開發(fā)框架</p>
<p>3料身、掌握關系數(shù)據(jù)庫開發(fā)設計,掌握 SQL衩茸,熟練使用 MySQL/PostgreSQL 中的一種<br></p>
<p>4芹血、掌握NoSQL、MQ,熟練使用對應技術解決方案</p>
<p>5嚎京、熟悉 Javascript/CSS/HTML5本冲,JQuery、React饿悬、Vue.js</p>
<p> <br></p>
<p>加分項:</p>
<p>大數(shù)據(jù),數(shù)理統(tǒng)計聚霜,機器學習狡恬,sklearn,高性能蝎宇,大并發(fā)弟劲。</p>
</div>'''
re.sub(r'</?\w*>|\n|\s','',s)
'崗位職責:完成推薦算法、數(shù)據(jù)統(tǒng)計姥芥、接口兔乞、后臺等服務器端相關工作必備要求:良好的自我驅動力和職業(yè)素養(yǎng),工作積極主動凉唐、結果導向 技術要求:1庸追、一年以上Python開發(fā)經(jīng)驗,掌握面向對象分析和設計台囱,了解設計模式2淡溯、掌握HTTP協(xié)議,熟悉MVC簿训、MVVM等概念以及相關WEB開發(fā)框架3血筑、掌握關系數(shù)據(jù)庫開發(fā)設計绘沉,掌握SQL,熟練使用MySQL/PostgreSQL中的一種4豺总、掌握NoSQL车伞、MQ,熟練使用對應技術解決方案5喻喳、熟悉Javascript/CSS/HTML5另玖,JQuery、React表伦、Vue.js 加分項:大數(shù)據(jù)谦去,數(shù)理統(tǒng)計,機器學習蹦哼,sklearn鳄哭,高性能,大并發(fā)纲熏。'
4.split
根據(jù)匹配進行切割字符串妆丘,并返回一個列表
re.split(r":| ","info:xiaoZhang 33 shandong")
['info', 'xiaoZhang', '33', '', '', '', '', '', '', '', '', '', 'shandong']
re.split(r":| *","info:xiaoZhang 33 shandong")
['info', 'xiaoZhang', '33', 'shandong']
5.貪婪和非貪婪
正則表達式匹配的兩種模式:貪婪模式、懶惰模式
貪婪模式:從目標字符串的兩頭開始搜索局劲,一次盡可能多的匹配符合條件的字符串勺拣,但是有可能會匹配到不需要的內容,正則表達式中的元字符鱼填、量詞药有、范圍等都模式是貪婪匹配模式,使用的時候一定要注意分析結果苹丸,
懶惰模式:從目標字符串按照順序從頭到位進行檢索匹配愤惰,盡可能的檢索到最小范圍的匹配結果,語法結構是在貪婪模式的表達式后面加上一個符號?即可赘理,
Python里數(shù)量詞默認是貪婪的(在少數(shù)語言里也可能是默認非貪婪)宦言,總是嘗試匹配盡可能多的字符;
非貪婪則相反感憾,總是嘗試匹配盡可能少的字符。
在"*", "?" , "+" , "{m,n}" 后面加上令花?阻桅,使貪婪變成非貪婪。
re.match(r"erbai(\d+)","erbai521888").group(1)
'521888'
re.match(r"erbai(\d+?)","erbai521888").group(1)
'5'
re.match(r"(\d+)(.*)", "5211314erbai").groups()
('5211314', 'erbai')
re.match(r"(\d+?)(.*)", "5211314erbai").groups()
('5', '211314erbai')
練習
- (一)
有一批網(wǎng)址:
http://www.interoem.com/messageinfo.asp?id=35
http://3995503.com/class/class09/news_show.asp?id=14
http://lib.wzmc.edu.cn/news/onews.asp?id=769
http://www.zy-ls.com/alfx.asp?newsid=377&id=6
http://www.fincm.com/newslist.asp?id=415
需要 正則后為:
http://www.interoem.com/
http://3995503.com/
http://lib.wzmc.edu.cn/
http://www.zy-ls.com/
http://www.fincm.com/
表達式:
#單個修改的表達式有以下幾種參考方案
re.match(r'http.+\.[a-z]{2,3}/',str)
re.match(r'http://.*?/',str)
re.sub(r'(http://.*?/).*',lambda x:x.group(1),str)
#整塊都修改
import re
f = open('url.txt','w')
s = '''http://www.interoem.com/messageinfo.asp?id=35
http://3995503.com/class/class09/news_show.asp?id=14
http://lib.wzmc.edu.cn/news/onews.asp?id=769
http://www.zy-ls.com/alfx.asp?newsid=377&id=6
http://www.fincm.com/newslist.asp?id=415'''
f.write(s)
f = open('url.txt','r')
def main():
for line in f:
ret = re.match(r'http://.+\.[a-z]{2,3}/', line)
print(ret.group())
f.close()
if __name__ == '__main__':
main()
結果:
http://www.interoem.com/
http://3995503.com/
http://lib.wzmc.edu.cn/
http://www.zy-ls.com/
http://www.fincm.com/
- (二)
現(xiàn)在有一句英文如下:
hello world ha ha
需求查找所有的單詞
表達式:
#我寫了兩種兼都,當然方法是多種的
re.split(r' +','hello world ha ha')
['hello', 'world', 'ha', 'ha']
re.findall(r' \b\w+\b',’ hello world ha ha’)
['hello', 'world', 'ha', 'ha']
2017.8.9回顧
1.正則表達式(Regular Expression):查詢和匹配字符串的規(guī)則
2.正則表達式表示數(shù)據(jù)
普通字符: 元數(shù)據(jù)嫂沉,可以用于匹配指定的字符
r = “a”:用于在目標字符串中匹配小寫字母a元字符
r = “.”:用于匹配任意一個字符
r = “\”:轉移字符~用于將一個普通的字符,轉義成一個有意義的字符
r = “\d”:表示一個0~9之間的整數(shù)
r = “\D”:表示一個非數(shù)字字符
r = “\w”:表示任意一個0~9或者字母或者下劃線的字符
r = “\W”:表示任意一個特殊字符
r = “\s”:表示匹配一個空白字符
r = “\S”:表示匹配一個非空白字符
r = “^”:匹配字符串的開頭位置
r = “$”:匹配字符串的結束位置
r = “\d*”:表示前面匹配的字符出現(xiàn)了0次或者多次
r = “\d?”:表示前面匹配的字符出現(xiàn)了0次或者1次
r =”\d+”:表示前面匹配的字符出現(xiàn)了1次或者多次
#范圍匹配
分組匹配方式:將多個匹配字符當成一個完整的匹配公式
(abc):用于在目標字符串中查詢abc同時出現(xiàn)的地方
選擇匹配方式:將指定的多個字符扮碧,選擇其中一個進行匹配
[abc]:用于在目標字符串中趟章,查詢a或者b或者c出現(xiàn)的地方
[0-9]:用于匹配一個0~9之間的數(shù)字->等價于\d
[a-z]:用于匹配一個a-z之間的字母
[A-Z]:用于匹配一個A-Z之間的字母
[a-zA-Z]:用于匹配一個字母【大小寫均可】
[a-zA-Z0-9_]:用于匹配一個非特殊字符杏糙,等價于\w
#范圍匹配
\d{m, n}:匹配到的字符出現(xiàn)了至少m次,最多n次
\d{,20}:匹配一個數(shù)字最多出現(xiàn)20次
\d{8,}:匹配一個數(shù)字蚓土,最少出現(xiàn)8次
\d{8,16}:匹配一個數(shù)字宏侍,最少出現(xiàn)8次,最多出現(xiàn)16次
#正則表達式在python中的使用
正則表達式蜀漆,在python中谅河,主要用到了一個re模塊
compile():編譯正則表達式
pattern = re.compile(“^\d{2,}$”)
pattern = r‘^\d{2,}$’
pattern.match(str,begin,end):從指定的字符串str第一個字符查詢匹配的字符
pattern.search(str, begin, end):從指定的字符串中直接進行查詢,查詢到的第一個結果作為匹配結果
pattern.findall(str):從指定的字符串中确丢,查詢符合匹配規(guī)則的字符绷耍,將所有符合的字符存放在一個列表中
pattern.finditer(str):從指定的字符串中,查詢符合匹配規(guī)則的字符保存在一個可以迭代的對象中
pattern.sub():替換
pattern.split():拆分