正則表達式

1.正則表達式概述

  • 正則表達式纵隔,又稱正規(guī)表示式、正規(guī)表示法嘹承、正規(guī)表達式窗价、規(guī)則表達式、常規(guī)表示法(英語:Regular Expression叹卷,在代碼中常簡寫為regex撼港、regexp或RE),是計算機科學的一個概念骤竹。正則表達式使用單個字符串來描述帝牡、匹配一系列匹配某個句法規(guī)則的字符串。在很多文本編輯器里蒙揣,正則表達式通常被用來檢索靶溜、替換那些匹配某個模式的文本。

  • Regular Expression的“Regular”一般被譯為“正則”、“正規(guī)”罩息、“常規(guī)”嗤详。此處的“Regular”即是“規(guī)則”、“規(guī)律”的意思瓷炮,Regular Expression即“描述某種規(guī)則的表達式”之意葱色。

  • Python通過re模塊提供對正則表達式的支持。使用re的一般步驟是先使用re.compile()函數(shù)娘香,將正則表達式的字符串形式編譯為Pattern實例苍狰,然后使用Pattern實例處理文本并獲得匹配結果(一個Match實例),最后使用Match實例獲得信息烘绽,進行其他的操作淋昭。

2.re模塊操作

在Python中需要通過正則表達式對字符串進行匹配的時候,可以使用一個模塊安接,名字為re

1.re模塊的使用過程

#coding=utf-8

    # 導入re模塊
    import re

    # 使用match方法進行匹配操作
    result = re.match(正則表達式,要匹配的字符串)

    # 如果上一步匹配到數(shù)據(jù)的話响牛,可以使用group方法來提取數(shù)據(jù)
    result.group()

re.match是用來進行正則匹配檢查的方法,若字符串匹配正則表達式赫段,則match方法返回匹配對象(Match Object),否則返回None(注意不是空字符串"")矢赁。
匹配對象Macth Object具有group方法糯笙,用來返回字符串的匹配部分。

2.re模塊示例

#coding=utf-8

import re
result = re.match("taobao","taobao.com")
result.group()

運行結果:

'taobao'
  • re.match() 能夠匹配出以xxx開頭的字符串

3.表示字符

**匹配中文字符的正則表達式: ** [\u4e00-\u9fa5]


單字符匹配

匹配分組
表示邊界
表示數(shù)量

正則表達式中的特殊用法

使用分組的同時撩银,會有一些特殊的使用方式如下:

表達式 描述
(?:expression) 作為正則表達式的一部分给涕,但是匹配結果丟棄
(?=expression) 匹配expression表達式前面的字符,如 "How are you doing" ,正則"(?<txt>.+(?=ing))" 這里取ing前所有的字符额获,并定義了一個捕獲分組名字為 "txt" 而"txt"這個組里的值為"How are you do"
(?<=expression) 匹配expression表達式后面的字符够庙,如 "How are you doing" 正則"(?<txt>(?<=How).+)" 這里取"How"之后所有的字符,并定義了一個捕獲分組名字為 "txt" 而"txt"這個組里的值為" are you doing";
(?!expression) 匹配字符串后面不是expression表達式字符抄邀,如 "123abc" 正則 "\d{3}(?!\d)"匹配3位數(shù)字后非數(shù)字的結果
(?<!expression) 匹配字符串前面不是expression表達式字符耘眨,如 "abc123 " 正則 (?<![0-9])123" 匹配"123"前面是非數(shù)字的結果也可寫成"(?!<\d)123"

舉例:(直接在Python3.5中演示)

表示字符

  • . 匹配任意1個字符(除了\n) [ ]匹配[ ]中列舉的字符 \匹配數(shù)字,即0-9
re.match(".","a")
<_sre.SRE_Match object; span=(0, 1), match='a'>

re.match(".","abc")
<_sre.SRE_Match object; span=(0, 1), match='a'>

re.match("h","hello Python")
<_sre.SRE_Match object; span=(0, 1), match='h'>

re.match("[hH]","Hello Python")
<_sre.SRE_Match object; span=(0, 1), match='H'>

re.match("[0123456789]","7Hello Python")
<_sre.SRE_Match object; span=(0, 1), match='7'>

re.match("[0-9]","7Hello Python")
<_sre.SRE_Match object; span=(0, 1), match='7'>

re.match("嫦娥2號","嫦娥2號發(fā)射成功")
<_sre.SRE_Match object; span=(0, 4), match='嫦娥2號'>

re.match("嫦娥\d號","嫦娥2號發(fā)射成功")
<_sre.SRE_Match object; span=(0, 4), match='嫦娥2號'>
  • \w 匹配單詞字符境肾,即a-z剔难、A-Z、0-9奥喻、_和各國語言
re.match('\w','abc')
<_sre.SRE_Match object; span=(0, 1), match='a'>

re.match('[\u4e00-\u9fa5]','人生苦短偶宫,我用python')
<_sre.SRE_Match object; span=(0, 1), match='人'>

re.match('\w','人生苦短,我用python')
<_sre.SRE_Match object; span=(0, 1), match='人'>

re.match('\w','人生苦短环鲤,我用python',re.ASCII)
None

注意: \w 如果只是想匹配字母數(shù)字下劃線纯趋,可以加上re.ASCII

re.match(r"c:\\a","c:\\a\\b\\c")
<_sre.SRE_Match object; span=(0, 4), match='c:\\a'>

ret = re.match(r"c:\\a","c:\\a\\b\\c").group()
print(ret)
c:\a

說明:

  • Python中字符串前面加上 r 表示原生字符串,
  • 與大多數(shù)編程語言相同,正則表達式里使用""作為轉義字符吵冒,這就可能造成反斜杠困擾纯命。假如你需要匹配文本中的字符"",那么使用編程語言表示的正則表達式里將需要4個反斜杠"\":前兩個和后兩個分別用于在編程語言里轉義成反斜杠桦锄,轉換成兩個反斜杠后再在正則表達式里轉義成一個反斜杠扎附。
  • Python里的原生字符串很好地解決了這個問題,有了原始字符串结耀,我們也不用擔心是不是漏寫了反斜杠留夜,寫出來的表達式也更直觀。

表示數(shù)量

  • * 匹配前一個字符出現(xiàn)0次或者無限次图甜,即可有可無
    + 匹配前一個字符出現(xiàn)1次或者無限次碍粥,即至少有1次
re.match("[A-Z][a-z]*","Mm")
<_sre.SRE_Match object; span=(0, 2), match='Mm'>

re.match("[A-Z][a-z]*","Aabcdef")
<_sre.SRE_Match object; span=(0, 7), match='Aabcdef'>

re.match("[a-zA-Z_]+[\w_]*","name1")
<_sre.SRE_Match object; span=(0, 5), match='name1'>

re.match("[a-zA-Z_]+[\w_]*","_name")
<_sre.SRE_Match object; span=(0, 5), match='_name'>

re.match("[a-zA-Z_]+[\w_]*","2_name")
None
  • ? 匹配前一個字符出現(xiàn)1次或者0次,即要么有1次黑毅,要么沒有
    {m} 匹配前一個字符出現(xiàn)m次
    {m,}匹配前一個字符至少出現(xiàn)m次
    {m,n} 匹配前一個字符出現(xiàn)在m-n次范圍都可以
re.match("[1-9]?[0-9]","7")
<_sre.SRE_Match object; span=(0, 1), match='7'>

re.match("[1-9]?[0-9]","33")
<_sre.SRE_Match object; span=(0, 2), match='33'>

re.match("[1-9]?[0-9]","09")
<_sre.SRE_Match object; span=(0, 1), match='0'>

re.match("[a-zA-Z0-9_]{6}","12a3g45678")
<_sre.SRE_Match object; span=(0, 6), match='12a3g4'>

re.match("[a-zA-Z0-9_]{6,}","12a3g45678")
<_sre.SRE_Match object; span=(0, 10), match='12a3g45678'>


re.match("[a-zA-Z0-9_]{8,20}","1ad12f23s34455ff66")
<_sre.SRE_Match object; span=(0, 18), match='1ad12f23s34455ff66'>

表示邊界

  • $ 匹配字符串結尾
re.match("[\w]{4,20}@163\.com", "ererBai@163.com")
<_sre.SRE_Match object; span=(0, 15), match='ererBai@163.com'>

#結尾仍不符合要求嚼摩,但卻沒過濾掉
re.match("[\w]{4,20}@163\.com", "erBai@163.comheihei")
<_sre.SRE_Match object; span=(0, 13), match='erBai@163.com'>

# 通過$來確定末尾
re.match("[\w]{4,20}@163\.com$", "ererBai@163.comheihei")
None
  • \b 匹配一個單詞的邊界
re.match(r".*\bver\b", "ho ver abc")
<_sre.SRE_Match object; span=(0, 6), match='ho ver'>

#報錯
re.match(r".*\bver\b", "ho verabc").group()
Traceback (most recent call last):
  File "<input>", line 1, in <module>
AttributeError: 'NoneType' object has no attribute 'group'

#報錯
re.match(r".*\bver\b", "hover abc").group()
Traceback (most recent call last):
  File "<input>", line 1, in <module>
AttributeError: 'NoneType' object has no attribute 'group'
  • \B 匹配非單詞邊界
re.match(r".*\Bver\B", "hoverabc")
<_sre.SRE_Match object; span=(0, 5), match='hover'>

re.match(r".*\Bver\B", "ho verabc")
None

re.match(r".*\Bver\B", "hover abc")
None

re.match(r".*\Bver\B", "ho ver abc")
None

匹配分組

  • | 匹配左右任意一個表達式
#匹配出0-100之間的數(shù)字
re.match("[1-9]?\d","8")
<_sre.SRE_Match object; span=(0, 1), match='8'>

#得到的結果是0,不符合我們的需求
re.match("[1-9]?\d","08")
<_sre.SRE_Match object; span=(0, 1), match='0'>
#所以我們應該加$
re.match("[1-9]?\d$","08")
None

re.match("[1-9]?\d$|100","8")
<_sre.SRE_Match object; span=(0, 1), match='8'>

re.match("[1-9]?\d$|100","100")
<_sre.SRE_Match object; span=(0, 3), match='100'>

re.match("[1-9]?\d$|100","78")
<_sre.SRE_Match object; span=(0, 2), match='78'>
  • ( ) 將括號中字符作為一個分組
#匹配出163矿瘦、126枕面、qq郵箱之間的數(shù)字
re.match("\w{4,20}@163\.com", "ererBai@163.com")
<_sre.SRE_Match object; span=(0, 12), match='ererBai@163.com'>

re.match("\w{4,20}@(163|126|qq)\.com", "ererBai@qq.com")
<_sre.SRE_Match object; span=(0, 11), match='ererBai@qq.com'>

re.match("\w{4,20}@(163|126|qq)\.com", "ererBai@126.com")
<_sre.SRE_Match object; span=(0, 12), match='ererBai@126.com'>

e.match("\w{4,20}@(163|126|qq)\.com", "ererBai@gmail.com")
None
  • \num 引用分組num匹配到的字符串
# 能夠完成對正確的字符串的匹配
re.match("<[a-zA-Z]*>\w*</[a-zA-Z]*>", "<html>hh</html>")
<_sre.SRE_Match object; span=(0, 15), match='<html>hh</html>'>

# 如果遇到非正常的html格式字符串,匹配出錯
re.match("<[a-zA-Z]*>\w*</[a-zA-Z]*>", "<html>hh</htmlbalabala>")
<_sre.SRE_Match object; span=(0, 23), match='<html>hh</htmlbalabala>'>

# 通過引用分組中匹配到的數(shù)據(jù)即可缚去,但是要注意是元字符串潮秘,即類似 r""這種格式
re.match(r"<([a-zA-Z]*)>\w*</\1>", "<html>hh</html>")
<_sre.SRE_Match object; span=(0, 15), match='<html>hh</html>'>

# 因為2對<>中的數(shù)據(jù)不一致,所以沒有匹配出來
 re.match(r"<([a-zA-Z]*)>\w*</\1>", "<html>hh</htmlbalabala>")
None
  • \number 引用分組num匹配到的字符串
#匹配出<html><h1>taobao.com</h1></html>
re.match(r"<(\w*)><(\w*)>.*</\2></\1>", "<html><h1>taobao.com</h1></html>")
<_sre.SRE_Match object; span=(0, 36), match='<html><h1>taobao.com</h1></html>'>

re.match(r"<(\w*)><(\w*)>.*</\2></\1>", "<html><h1>taobao.com</h2></html>")
None
  • (?P<name>) (?P=name) 引用別名為name分組分配到的字符串
#匹配出<html><h1>taobao.com</h1></html>
re.match(r"<(?P<name1>\w*)><(?P<name2>\w*)>.*</(?P=name2)></(?P=name1)>", "<html><h1>taobao.com</h1></html>")
<_sre.SRE_Match object; span=(0, 32), match='<html><h1>taobao.com</h1></html>'>

re.match(r"<(?P<name1>\w*)><(?P<name2>\w*)>.*</(?P=name2)></(?P=name1)>", "<html><h1>taobao.com</h2></html>")
None
注意:(?P<name>)和(?P=name)中的字母p大寫

附:常用表達式

  • 校驗數(shù)字的表達式
1 數(shù)字:^[0-9]*$ 

2 n位的數(shù)字:^\d{n}$

3 至少n位的數(shù)字:^\d{n,}$ 

4 m-n位的數(shù)字:^\d{m,n}$ 

5 零和非零開頭的數(shù)字:^(0|[1-9][0-9]*)$ 

6 非零開頭的最多帶兩位小數(shù)的數(shù)字:^([1-9][0-9]*)+(.[0-9]{1,2})?$ 

7 帶1-2位小數(shù)的正數(shù)或負數(shù):^(\-)?\d+(\.\d{1,2})?$ 

8 正數(shù)易结、負數(shù)枕荞、和小數(shù):^(\-|\+)?\d+(\.\d+)?$ 

9 有兩位小數(shù)的正實數(shù):^[0-9]+(.[0-9]{2})?$

10 有1~3位小數(shù)的正實數(shù):^[0-9]+(.[0-9]{1,3})?$

11 非零的正整數(shù):^[1-9]\d*$ 或 ^([1-9][0-9]*){1,3}$ 或 ^\+?[1-9][0-9]*$

12 非零的負整數(shù):^\-[1-9][]0-9"*$ 或 ^-[1-9]\d*$

13 非負整數(shù):^\d+$ 或 ^[1-9]\d*|0$

14 非正整數(shù):^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$

15 非負浮點數(shù):^\d+(\.\d+)?$ 或 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$

16 非正浮點數(shù):^((-\d+(\.\d+)?)|(0+(\.0+)?))$ 或 ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$

17 正浮點數(shù):^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ 或 ^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$

18 負浮點數(shù):^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ 或 ^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$

19 浮點數(shù):^(-?\d+)(\.\d+)?$ 或 ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$
  • 校驗字符的表達式
1 漢字:^[\u4e00-\u9fa5]{0,}$ 

2 英文和數(shù)字:^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$ 

3 長度為3-20的所有字符:^.{3,20}$ 

4 由26個英文字母組成的字符串:^[A-Za-z]+$ 

5 由26個大寫英文字母組成的字符串:^[A-Z]+$ 

6 由26個小寫英文字母組成的字符串:^[a-z]+$ 

7 由數(shù)字和26個英文字母組成的字符串:^[A-Za-z0-9]+$ 

8 由數(shù)字、26個英文字母或者下劃線組成的字符串:^\w+$ 或 ^\w{3,20}$ 

9 中文搞动、英文躏精、數(shù)字包括下劃線:^[\u4E00-\u9FA5A-Za-z0-9_]+$

10 中文、英文鹦肿、數(shù)字但不包括下劃線等符號:^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$

11 可以輸入含有^%&',;=?$\"等字符:[^%&',;=?$\x22]+

12 禁止輸入含有~的字符:[^~\x22]+
  • 特殊需求表達式
1 Email地址:^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$ 

2 域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.? 

3 InternetURL:[a-zA-z]+://[^\s]* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$ 

4 手機號碼:^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$ 

5 電話號碼("XXX-XXXXXXX"矗烛、"XXXX-XXXXXXXX"、"XXX-XXXXXXX"箩溃、"XXX-XXXXXXXX"高诺、"XXXXXXX"和"XXXXXXXX):^(\(\d{3,4}-)|\d{3.4}-)?\d{7,8}$  

6 國內電話號碼(0511-4405222、021-87888822):\d{3}-\d{8}|\d{4}-\d{7} 

7 身份證號(15位碾篡、18位數(shù)字):^\d{15}|\d{18}$ 

8 短身份證號碼(數(shù)字虱而、字母x結尾):^([0-9]){7,18}(x|X)?$ 或 ^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$ 

9 帳號是否合法(字母開頭,允許5-16字節(jié)开泽,允許字母數(shù)字下劃線):^[a-zA-Z][a-zA-Z0-9_]{4,15}$

10 密碼(以字母開頭牡拇,長度在6~18之間,只能包含字母、數(shù)字和下劃線):^[a-zA-Z]\w{5,17}$

11 強密碼(必須包含大小寫字母和數(shù)字的組合惠呼,不能使用特殊字符导俘,長度在8-10之間):^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$

12 日期格式:^\d{4}-\d{1,2}-\d{1,2}

13 一年的12個月(01~09和1~12):^(0?[1-9]|1[0-2])$

14 一個月的31天(01~09和1~31):^((0?[1-9])|((1|2)[0-9])|30|31)$

15 錢的輸入格式:

 1.有四種錢的表示形式我們可以接受:"10000.00" 和 "10,000.00", 和沒有 "分" 的 "10000" 和 "10,000":^[1-9][0-9]*$

 2.這表示任意一個不以0開頭的數(shù)字,但是,這也意味著一個字符"0"不通過,所以我們采用下面的形式:^(0|[1-9][0-9]*)$

 3.一個0或者一個不以0開頭的數(shù)字.我們還可以允許開頭有一個負號:^(0|-?[1-9][0-9]*)$

 4.這表示一個0或者一個可能為負的開頭不為0的數(shù)字.讓用戶以0開頭好了.把負號的也去掉,因為錢總不能是負的吧.下面我們要加的是說明可能的小數(shù)部分:^[0-9]+(.[0-9]+)?$

 5.必須說明的是,小數(shù)點后面至少應該有1位數(shù),所以"10."是不通過的,但是 "10" 和 "10.2" 是通過的:^[0-9]+(.[0-9]{2})?$

 6.這樣我們規(guī)定小數(shù)點后面必須有兩位,如果你認為太苛刻了,可以這樣:^[0-9]+(.[0-9]{1,2})?$

 7.這樣就允許用戶只寫一位小數(shù).下面我們該考慮數(shù)字中的逗號了,我們可以這樣:^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$

 8.1到3個數(shù)字,后面跟著任意個 逗號+3個數(shù)字,逗號成為可選,而不是必須:^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$

- 備注:這就是最終結果了,別忘了"+"可以用"*"替代如果你覺得空字符串也可以接受的話(奇怪,為什么?)最后,別忘了在用函數(shù)時去掉去掉那個反斜杠,一般的錯誤都在這里

16 xml文件:^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$

17 中文字符的正則表達式:[\u4e00-\u9fa5]

18 雙字節(jié)字符:[^\x00-\xff] (包括漢字在內,可以用來計算字符串的長度(一個雙字節(jié)字符長度計2剔蹋,ASCII字符計1))

19 空白行的正則表達式:\n\s*\r (可以用來刪除空白行)

20 HTML標記的正則表達式:<(\S*?)[^>]*>.*?</\1>|<.*? /> (網(wǎng)上流傳的版本太糟糕旅薄,上面這個也僅僅能部分,對于復雜的嵌套標記依舊無能為力)

21 首尾空白字符的正則表達式:^\s*|\s*$或(^\s*)|(\s*$) (可以用來刪除行首行尾的空白字符(包括空格泣崩、制表符少梁、換頁符等等),非常有用的表達式)

22 騰訊QQ號:[1-9][0-9]{4,} (騰訊QQ號從10000開始)

23 中國郵政編碼:[1-9]\d{5}(?!\d) (中國郵政編碼為6位數(shù)字) 33 IP地址:\d+\.\d+\.\d+\.\d+ (提取IP地址時有用) 34 IP地址:((?:(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)\\.){3}(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)) 

4.re模塊的高級用法

1.search

re.search(r"\d+", "閱讀次數(shù)為 9999")
<_sre.SRE_Match object; span=(6, 10), match='9999'>

2.findall

#統(tǒng)計出python矫付、c凯沪、c++相應文章閱讀的次數(shù)
re.findall(r"\d+", "python = 9999, c = 7890, c++ = 12345")
['9999', '7890', '12345']

3.sub將匹配到的數(shù)據(jù)進行替換

#方法一
re.sub(r"\d+", '998', "python = 997")
'python = 998'

#方法二
def add(temp):
    strNum = temp.group()
    num = int(strNum) + 1
    return str(num)

re.sub(r"\d+", add, "python = 997")
'python = 998'

例子

#從下面的字符串中取出文本
<div>
        <p>崗位職責:</p>
<p>完成推薦算法、數(shù)據(jù)統(tǒng)計买优、接口妨马、后臺等服務器端相關工作</p>
<p><br></p>
<p>必備要求:</p>
<p>良好的自我驅動力和職業(yè)素養(yǎng),工作積極主動杀赢、結果導向</p>
<p> <br></p>
<p>技術要求:</p>
<p>1烘跺、一年以上 Python 開發(fā)經(jīng)驗,掌握面向對象分析和設計脂崔,了解設計模式</p>
<p>2液荸、掌握HTTP協(xié)議,熟悉MVC脱篙、MVVM等概念以及相關WEB開發(fā)框架</p>
<p>3、掌握關系數(shù)據(jù)庫開發(fā)設計伤柄,掌握 SQL绊困,熟練使用 MySQL/PostgreSQL 中的一種<br></p>
<p>4、掌握NoSQL适刀、MQ秤朗,熟練使用對應技術解決方案</p>
<p>5、熟悉 Javascript/CSS/HTML5笔喉,JQuery取视、React、Vue.js</p>
<p> <br></p>
<p>加分項:</p>
<p>大數(shù)據(jù)常挚,數(shù)理統(tǒng)計作谭,機器學習,sklearn奄毡,高性能折欠,大并發(fā)。</p>

        </div>

解決方法:

s='''<div>
        <p>崗位職責:</p>
<p>完成推薦算法、數(shù)據(jù)統(tǒng)計锐秦、接口咪奖、后臺等服務器端相關工作</p>
<p><br></p>
<p>必備要求:</p>
<p>良好的自我驅動力和職業(yè)素養(yǎng),工作積極主動酱床、結果導向</p>
<p> <br></p>
<p>技術要求:</p>
<p>1羊赵、一年以上 Python 開發(fā)經(jīng)驗,掌握面向對象分析和設計扇谣,了解設計模式</p>
<p>2昧捷、掌握HTTP協(xié)議,熟悉MVC揍堕、MVVM等概念以及相關WEB開發(fā)框架</p>
<p>3料身、掌握關系數(shù)據(jù)庫開發(fā)設計,掌握 SQL衩茸,熟練使用 MySQL/PostgreSQL 中的一種<br></p>
<p>4芹血、掌握NoSQL、MQ,熟練使用對應技術解決方案</p>
<p>5嚎京、熟悉 Javascript/CSS/HTML5本冲,JQuery、React饿悬、Vue.js</p>
<p> <br></p>
<p>加分項:</p>
<p>大數(shù)據(jù),數(shù)理統(tǒng)計聚霜,機器學習狡恬,sklearn,高性能蝎宇,大并發(fā)弟劲。</p>

        </div>'''
re.sub(r'</?\w*>|\n|\s','',s)
'崗位職責:完成推薦算法、數(shù)據(jù)統(tǒng)計姥芥、接口兔乞、后臺等服務器端相關工作必備要求:良好的自我驅動力和職業(yè)素養(yǎng),工作積極主動凉唐、結果導向 技術要求:1庸追、一年以上Python開發(fā)經(jīng)驗,掌握面向對象分析和設計台囱,了解設計模式2淡溯、掌握HTTP協(xié)議,熟悉MVC簿训、MVVM等概念以及相關WEB開發(fā)框架3血筑、掌握關系數(shù)據(jù)庫開發(fā)設計绘沉,掌握SQL,熟練使用MySQL/PostgreSQL中的一種4豺总、掌握NoSQL车伞、MQ,熟練使用對應技術解決方案5喻喳、熟悉Javascript/CSS/HTML5另玖,JQuery、React表伦、Vue.js 加分項:大數(shù)據(jù)谦去,數(shù)理統(tǒng)計,機器學習蹦哼,sklearn鳄哭,高性能,大并發(fā)纲熏。'

4.split

根據(jù)匹配進行切割字符串妆丘,并返回一個列表

re.split(r":| ","info:xiaoZhang 33          shandong")
['info', 'xiaoZhang', '33', '', '', '', '', '', '', '', '', '', 'shandong']

re.split(r":|  *","info:xiaoZhang 33          shandong")
['info', 'xiaoZhang', '33', 'shandong']

5.貪婪和非貪婪

正則表達式匹配的兩種模式:貪婪模式、懶惰模式

貪婪模式:從目標字符串的兩頭開始搜索局劲,一次盡可能多的匹配符合條件的字符串勺拣,但是有可能會匹配到不需要的內容,正則表達式中的元字符鱼填、量詞药有、范圍等都模式是貪婪匹配模式,使用的時候一定要注意分析結果苹丸,
懶惰模式:從目標字符串按照順序從頭到位進行檢索匹配愤惰,盡可能的檢索到最小范圍的匹配結果,語法結構是在貪婪模式的表達式后面加上一個符號?即可赘理,

Python里數(shù)量詞默認是貪婪的(在少數(shù)語言里也可能是默認非貪婪)宦言,總是嘗試匹配盡可能多的字符;
非貪婪則相反感憾,總是嘗試匹配盡可能少的字符。
在"*", "?" , "+" , "{m,n}" 后面加上令花?阻桅,使貪婪變成非貪婪。

re.match(r"erbai(\d+)","erbai521888").group(1)
'521888'

re.match(r"erbai(\d+?)","erbai521888").group(1)
'5'

re.match(r"(\d+)(.*)", "5211314erbai").groups()
('5211314', 'erbai')

re.match(r"(\d+?)(.*)", "5211314erbai").groups()
('5', '211314erbai')

練習

  • (一)
有一批網(wǎng)址:
http://www.interoem.com/messageinfo.asp?id=35
http://3995503.com/class/class09/news_show.asp?id=14
http://lib.wzmc.edu.cn/news/onews.asp?id=769
http://www.zy-ls.com/alfx.asp?newsid=377&id=6
http://www.fincm.com/newslist.asp?id=415
需要 正則后為:
http://www.interoem.com/
http://3995503.com/
http://lib.wzmc.edu.cn/
http://www.zy-ls.com/
http://www.fincm.com/

表達式

#單個修改的表達式有以下幾種參考方案
re.match(r'http.+\.[a-z]{2,3}/',str)
re.match(r'http://.*?/',str)
re.sub(r'(http://.*?/).*',lambda x:x.group(1),str)
#整塊都修改
import re
f = open('url.txt','w')

s = '''http://www.interoem.com/messageinfo.asp?id=35
http://3995503.com/class/class09/news_show.asp?id=14
http://lib.wzmc.edu.cn/news/onews.asp?id=769
http://www.zy-ls.com/alfx.asp?newsid=377&id=6
http://www.fincm.com/newslist.asp?id=415'''

f.write(s)
f = open('url.txt','r')

def main():
    for line in f:
        ret = re.match(r'http://.+\.[a-z]{2,3}/', line)
        print(ret.group())
    f.close()


if __name__ == '__main__':
    main()

結果:

http://www.interoem.com/
http://3995503.com/
http://lib.wzmc.edu.cn/
http://www.zy-ls.com/
http://www.fincm.com/
  • (二)
現(xiàn)在有一句英文如下:
hello world ha ha
需求查找所有的單詞

表達式

#我寫了兩種兼都,當然方法是多種的
re.split(r' +','hello world ha ha')
['hello', 'world', 'ha', 'ha']

re.findall(r' \b\w+\b',’ hello world ha ha’)
['hello', 'world', 'ha', 'ha']

2017.8.9回顧

1.正則表達式(Regular Expression):查詢和匹配字符串的規(guī)則

2.正則表達式表示數(shù)據(jù)
普通字符: 元數(shù)據(jù)嫂沉,可以用于匹配指定的字符
r = “a”:用于在目標字符串中匹配小寫字母a元字符
r = “.”:用于匹配任意一個字符
r = “\”:轉移字符~用于將一個普通的字符,轉義成一個有意義的字符
r = “\d”:表示一個0~9之間的整數(shù)
r = “\D”:表示一個非數(shù)字字符
r = “\w”:表示任意一個0~9或者字母或者下劃線的字符
r = “\W”:表示任意一個特殊字符
r = “\s”:表示匹配一個空白字符
r = “\S”:表示匹配一個非空白字符
r = “^”:匹配字符串的開頭位置
r = “$”:匹配字符串的結束位置
r = “\d*”:表示前面匹配的字符出現(xiàn)了0次或者多次
r = “\d?”:表示前面匹配的字符出現(xiàn)了0次或者1次
r =”\d+”:表示前面匹配的字符出現(xiàn)了1次或者多次

#范圍匹配
分組匹配方式:將多個匹配字符當成一個完整的匹配公式
(abc):用于在目標字符串中查詢abc同時出現(xiàn)的地方 
選擇匹配方式:將指定的多個字符扮碧,選擇其中一個進行匹配
[abc]:用于在目標字符串中趟章,查詢a或者b或者c出現(xiàn)的地方
[0-9]:用于匹配一個0~9之間的數(shù)字->等價于\d
[a-z]:用于匹配一個a-z之間的字母
[A-Z]:用于匹配一個A-Z之間的字母
[a-zA-Z]:用于匹配一個字母【大小寫均可】
[a-zA-Z0-9_]:用于匹配一個非特殊字符杏糙,等價于\w

#范圍匹配
\d{m, n}:匹配到的字符出現(xiàn)了至少m次,最多n次
\d{,20}:匹配一個數(shù)字最多出現(xiàn)20次
\d{8,}:匹配一個數(shù)字蚓土,最少出現(xiàn)8次
\d{8,16}:匹配一個數(shù)字宏侍,最少出現(xiàn)8次,最多出現(xiàn)16次

#正則表達式在python中的使用
正則表達式蜀漆,在python中谅河,主要用到了一個re模塊
compile():編譯正則表達式
pattern = re.compile(“^\d{2,}$”)
pattern = r‘^\d{2,}$’

pattern.match(str,begin,end):從指定的字符串str第一個字符查詢匹配的字符

pattern.search(str, begin, end):從指定的字符串中直接進行查詢,查詢到的第一個結果作為匹配結果

pattern.findall(str):從指定的字符串中确丢,查詢符合匹配規(guī)則的字符绷耍,將所有符合的字符存放在一個列表中

pattern.finditer(str):從指定的字符串中,查詢符合匹配規(guī)則的字符保存在一個可以迭代的對象中

pattern.sub():替換
pattern.split():拆分
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末鲜侥,一起剝皮案震驚了整個濱河市褂始,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌描函,老刑警劉巖崎苗,帶你破解...
    沈念sama閱讀 218,122評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異赘阀,居然都是意外死亡益缠,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評論 3 395
  • 文/潘曉璐 我一進店門基公,熙熙樓的掌柜王于貴愁眉苦臉地迎上來幅慌,“玉大人,你說我怎么就攤上這事轰豆∫任椋” “怎么了?”我有些...
    開封第一講書人閱讀 164,491評論 0 354
  • 文/不壞的土叔 我叫張陵酸休,是天一觀的道長骂租。 經(jīng)常有香客問我,道長斑司,這世上最難降的妖魔是什么渗饮? 我笑而不...
    開封第一講書人閱讀 58,636評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮宿刮,結果婚禮上互站,老公的妹妹穿的比我還像新娘。我一直安慰自己僵缺,他們只是感情好胡桃,可當我...
    茶點故事閱讀 67,676評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著磕潮,像睡著了一般翠胰。 火紅的嫁衣襯著肌膚如雪容贝。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,541評論 1 305
  • 那天之景,我揣著相機與錄音斤富,去河邊找鬼。 笑死闺兢,一個胖子當著我的面吹牛茂缚,可吹牛的內容都是我干的。 我是一名探鬼主播屋谭,決...
    沈念sama閱讀 40,292評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼脚囊,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了桐磁?” 一聲冷哼從身側響起悔耘,我...
    開封第一講書人閱讀 39,211評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎我擂,沒想到半個月后衬以,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,655評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡校摩,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,846評論 3 336
  • 正文 我和宋清朗相戀三年看峻,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片衙吩。...
    茶點故事閱讀 39,965評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡互妓,死狀恐怖,靈堂內的尸體忽然破棺而出坤塞,到底是詐尸還是另有隱情冯勉,我是刑警寧澤,帶...
    沈念sama閱讀 35,684評論 5 347
  • 正文 年R本政府宣布摹芙,位于F島的核電站灼狰,受9級特大地震影響,放射性物質發(fā)生泄漏浮禾。R本人自食惡果不足惜交胚,卻給世界環(huán)境...
    茶點故事閱讀 41,295評論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望盈电。 院中可真熱鬧蝴簇,春花似錦、人聲如沸挣轨。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,894評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽卷扮。三九已至荡澎,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間晤锹,已是汗流浹背摩幔。 一陣腳步聲響...
    開封第一講書人閱讀 33,012評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留鞭铆,地道東北人或衡。 一個月前我還...
    沈念sama閱讀 48,126評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像车遂,于是被迫代替她去往敵國和親封断。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,914評論 2 355

推薦閱讀更多精彩內容