正則表達式

1.正則表達式概述

正則表達式纵隔，又稱正規(guī)表示式、正規(guī)表示法嘹承、正規(guī)表達式窗价、規(guī)則表達式、常規(guī)表示法（英語：Regular Expression叹卷，在代碼中常簡寫為regex撼港、regexp或RE），是計算機科學的一個概念骤竹。正則表達式使用單個字符串來描述帝牡、匹配一系列匹配某個句法規(guī)則的字符串。在很多文本編輯器里蒙揣，正則表達式通常被用來檢索靶溜、替換那些匹配某個模式的文本。
Regular Expression的“Regular”一般被譯為“正則”、“正規(guī)”罩息、“常規(guī)”嗤详。此處的“Regular”即是“規(guī)則”、“規(guī)律”的意思瓷炮，Regular Expression即“描述某種規(guī)則的表達式”之意葱色。
Python通過re模塊提供對正則表達式的支持。使用re的一般步驟是先使用re.compile()函數(shù)娘香，將正則表達式的字符串形式編譯為Pattern實例苍狰，然后使用Pattern實例處理文本并獲得匹配結果（一個Match實例），最后使用Match實例獲得信息烘绽，進行其他的操作淋昭。

2.re模塊操作

在Python中需要通過正則表達式對字符串進行匹配的時候，可以使用一個模塊安接，名字為re

1.re模塊的使用過程

#coding=utf-8

    # 導入re模塊
    import re

    # 使用match方法進行匹配操作
    result = re.match(正則表達式,要匹配的字符串)

    # 如果上一步匹配到數(shù)據(jù)的話响牛，可以使用group方法來提取數(shù)據(jù)
    result.group()

re.match是用來進行正則匹配檢查的方法，若字符串匹配正則表達式赫段，則match方法返回匹配對象（Match Object），否則返回None（注意不是空字符串""）矢赁。
匹配對象Macth Object具有group方法糯笙，用來返回字符串的匹配部分。

2.re模塊示例

#coding=utf-8

import re
result = re.match("taobao","taobao.com")
result.group()

運行結果：

'taobao'

re.match() 能夠匹配出以xxx開頭的字符串

3.表示字符

**匹配中文字符的正則表達式： ** [\u4e00-\u9fa5]

單字符匹配

匹配分組

表示邊界

表示數(shù)量

正則表達式中的特殊用法

使用分組的同時撩银，會有一些特殊的使用方式如下：

表達式	描述
(?:expression)	作為正則表達式的一部分给涕，但是匹配結果丟棄
(?=expression)	匹配expression表達式前面的字符，如 "How are you doing" ,正則"(?<txt>.+(?=ing))" 這里取ing前所有的字符额获，并定義了一個捕獲分組名字為 "txt" 而"txt"這個組里的值為"How are you do"
(?<=expression)	匹配expression表達式后面的字符够庙，如 "How are you doing" 正則"(?<txt>(?<=How).+)" 這里取"How"之后所有的字符，并定義了一個捕獲分組名字為 "txt" 而"txt"這個組里的值為" are you doing";
(?!expression)	匹配字符串后面不是expression表達式字符抄邀，如 "123abc" 正則 "\d{3}(?!\d)"匹配3位數(shù)字后非數(shù)字的結果
(?<!expression)	匹配字符串前面不是expression表達式字符耘眨，如 "abc123 " 正則 (?<![0-9])123" 匹配"123"前面是非數(shù)字的結果也可寫成"(?!<\d)123"

舉例：（直接在Python3.5中演示）

表示字符

. 匹配任意1個字符(除了\n) [ ]匹配[ ]中列舉的字符 \匹配數(shù)字，即0-9

re.match(".","a")
<_sre.SRE_Match object; span=(0, 1), match='a'>

re.match(".","abc")
<_sre.SRE_Match object; span=(0, 1), match='a'>

re.match("h","hello Python")
<_sre.SRE_Match object; span=(0, 1), match='h'>

re.match("[hH]","Hello Python")
<_sre.SRE_Match object; span=(0, 1), match='H'>

re.match("[0123456789]","7Hello Python")
<_sre.SRE_Match object; span=(0, 1), match='7'>

re.match("[0-9]","7Hello Python")
<_sre.SRE_Match object; span=(0, 1), match='7'>

re.match("嫦娥2號","嫦娥2號發(fā)射成功")
<_sre.SRE_Match object; span=(0, 4), match='嫦娥2號'>

re.match("嫦娥\d號","嫦娥2號發(fā)射成功")
<_sre.SRE_Match object; span=(0, 4), match='嫦娥2號'>

\w 匹配單詞字符境肾，即a-z剔难、A-Z、0-9奥喻、_和各國語言

re.match('\w','abc')
<_sre.SRE_Match object; span=(0, 1), match='a'>

re.match('[\u4e00-\u9fa5]','人生苦短偶宫，我用python')
<_sre.SRE_Match object; span=(0, 1), match='人'>

re.match('\w','人生苦短，我用python')
<_sre.SRE_Match object; span=(0, 1), match='人'>

re.match('\w','人生苦短环鲤，我用python',re.ASCII)
None

注意： \w 如果只是想匹配字母數(shù)字下劃線纯趋，可以加上re.ASCII

re.match(r"c:\\a","c:\\a\\b\\c")
<_sre.SRE_Match object; span=(0, 4), match='c:\\a'>

ret = re.match(r"c:\\a","c:\\a\\b\\c").group()
print(ret)
c:\a

說明:

Python中字符串前面加上 r 表示原生字符串，
與大多數(shù)編程語言相同，正則表達式里使用""作為轉義字符吵冒，這就可能造成反斜杠困擾纯命。假如你需要匹配文本中的字符""，那么使用編程語言表示的正則表達式里將需要4個反斜杠"\"：前兩個和后兩個分別用于在編程語言里轉義成反斜杠桦锄，轉換成兩個反斜杠后再在正則表達式里轉義成一個反斜杠扎附。
Python里的原生字符串很好地解決了這個問題，有了原始字符串结耀，我們也不用擔心是不是漏寫了反斜杠留夜，寫出來的表達式也更直觀。

表示數(shù)量

* 匹配前一個字符出現(xiàn)0次或者無限次图甜，即可有可無
+ 匹配前一個字符出現(xiàn)1次或者無限次碍粥，即至少有1次

re.match("[A-Z][a-z]*","Mm")
<_sre.SRE_Match object; span=(0, 2), match='Mm'>

re.match("[A-Z][a-z]*","Aabcdef")
<_sre.SRE_Match object; span=(0, 7), match='Aabcdef'>

re.match("[a-zA-Z_]+[\w_]*","name1")
<_sre.SRE_Match object; span=(0, 5), match='name1'>

re.match("[a-zA-Z_]+[\w_]*","_name")
<_sre.SRE_Match object; span=(0, 5), match='_name'>

re.match("[a-zA-Z_]+[\w_]*","2_name")
None

? 匹配前一個字符出現(xiàn)1次或者0次，即要么有1次黑毅，要么沒有
{m} 匹配前一個字符出現(xiàn)m次
{m,}匹配前一個字符至少出現(xiàn)m次
{m,n} 匹配前一個字符出現(xiàn)在m-n次范圍都可以

re.match("[1-9]?[0-9]","7")
<_sre.SRE_Match object; span=(0, 1), match='7'>

re.match("[1-9]?[0-9]","33")
<_sre.SRE_Match object; span=(0, 2), match='33'>

re.match("[1-9]?[0-9]","09")
<_sre.SRE_Match object; span=(0, 1), match='0'>

re.match("[a-zA-Z0-9_]{6}","12a3g45678")
<_sre.SRE_Match object; span=(0, 6), match='12a3g4'>

re.match("[a-zA-Z0-9_]{6,}","12a3g45678")
<_sre.SRE_Match object; span=(0, 10), match='12a3g45678'>


re.match("[a-zA-Z0-9_]{8,20}","1ad12f23s34455ff66")
<_sre.SRE_Match object; span=(0, 18), match='1ad12f23s34455ff66'>

表示邊界

$ 匹配字符串結尾

re.match("[\w]{4,20}@163\.com", "ererBai@163.com")
<_sre.SRE_Match object; span=(0, 15), match='ererBai@163.com'>

#結尾仍不符合要求嚼摩，但卻沒過濾掉
re.match("[\w]{4,20}@163\.com", "erBai@163.comheihei")
<_sre.SRE_Match object; span=(0, 13), match='erBai@163.com'>

# 通過$來確定末尾
re.match("[\w]{4,20}@163\.com$", "ererBai@163.comheihei")
None

\b 匹配一個單詞的邊界

re.match(r".*\bver\b", "ho ver abc")
<_sre.SRE_Match object; span=(0, 6), match='ho ver'>

#報錯
re.match(r".*\bver\b", "ho verabc").group()
Traceback (most recent call last):
  File "<input>", line 1, in <module>
AttributeError: 'NoneType' object has no attribute 'group'

#報錯
re.match(r".*\bver\b", "hover abc").group()
Traceback (most recent call last):
  File "<input>", line 1, in <module>
AttributeError: 'NoneType' object has no attribute 'group'

\B 匹配非單詞邊界

re.match(r".*\Bver\B", "hoverabc")
<_sre.SRE_Match object; span=(0, 5), match='hover'>

re.match(r".*\Bver\B", "ho verabc")
None

re.match(r".*\Bver\B", "hover abc")
None

re.match(r".*\Bver\B", "ho ver abc")
None

匹配分組

| 匹配左右任意一個表達式

#匹配出0-100之間的數(shù)字
re.match("[1-9]?\d","8")
<_sre.SRE_Match object; span=(0, 1), match='8'>

#得到的結果是0，不符合我們的需求
re.match("[1-9]?\d","08")
<_sre.SRE_Match object; span=(0, 1), match='0'>
#所以我們應該加$
re.match("[1-9]?\d$","08")
None

re.match("[1-9]?\d$|100","8")
<_sre.SRE_Match object; span=(0, 1), match='8'>

re.match("[1-9]?\d$|100","100")
<_sre.SRE_Match object; span=(0, 3), match='100'>

re.match("[1-9]?\d$|100","78")
<_sre.SRE_Match object; span=(0, 2), match='78'>

( ) 將括號中字符作為一個分組

#匹配出163矿瘦、126枕面、qq郵箱之間的數(shù)字
re.match("\w{4,20}@163\.com", "ererBai@163.com")
<_sre.SRE_Match object; span=(0, 12), match='ererBai@163.com'>

re.match("\w{4,20}@(163|126|qq)\.com", "ererBai@qq.com")
<_sre.SRE_Match object; span=(0, 11), match='ererBai@qq.com'>

re.match("\w{4,20}@(163|126|qq)\.com", "ererBai@126.com")
<_sre.SRE_Match object; span=(0, 12), match='ererBai@126.com'>

e.match("\w{4,20}@(163|126|qq)\.com", "ererBai@gmail.com")
None

\num 引用分組num匹配到的字符串

# 能夠完成對正確的字符串的匹配
re.match("<[a-zA-Z]*>\w*</[a-zA-Z]*>", "<html>hh</html>")
<_sre.SRE_Match object; span=(0, 15), match='<html>hh</html>'>

# 如果遇到非正常的html格式字符串，匹配出錯
re.match("<[a-zA-Z]*>\w*</[a-zA-Z]*>", "<html>hh</htmlbalabala>")
<_sre.SRE_Match object; span=(0, 23), match='<html>hh</htmlbalabala>'>

# 通過引用分組中匹配到的數(shù)據(jù)即可缚去，但是要注意是元字符串潮秘，即類似 r""這種格式
re.match(r"<([a-zA-Z]*)>\w*</\1>", "<html>hh</html>")
<_sre.SRE_Match object; span=(0, 15), match='<html>hh</html>'>

# 因為2對<>中的數(shù)據(jù)不一致，所以沒有匹配出來
 re.match(r"<([a-zA-Z]*)>\w*</\1>", "<html>hh</htmlbalabala>")
None

\number 引用分組num匹配到的字符串

#匹配出<html><h1>taobao.com</h1></html>
re.match(r"<(\w*)><(\w*)>.*</\2></\1>", "<html><h1>taobao.com</h1></html>")
<_sre.SRE_Match object; span=(0, 36), match='<html><h1>taobao.com</h1></html>'>

re.match(r"<(\w*)><(\w*)>.*</\2></\1>", "<html><h1>taobao.com</h2></html>")
None

(?P<name>) (?P=name) 引用別名為name分組分配到的字符串

#匹配出<html><h1>taobao.com</h1></html>
re.match(r"<(?P<name1>\w*)><(?P<name2>\w*)>.*</(?P=name2)></(?P=name1)>", "<html><h1>taobao.com</h1></html>")
<_sre.SRE_Match object; span=(0, 32), match='<html><h1>taobao.com</h1></html>'>

re.match(r"<(?P<name1>\w*)><(?P<name2>\w*)>.*</(?P=name2)></(?P=name1)>", "<html><h1>taobao.com</h2></html>")
None

注意：(?P<name>)和(?P=name)中的字母p大寫

附：常用表達式

校驗數(shù)字的表達式

1 數(shù)字：^[0-9]*$ 

2 n位的數(shù)字：^\d{n}$

3 至少n位的數(shù)字：^\d{n,}$ 

4 m-n位的數(shù)字：^\d{m,n}$ 

5 零和非零開頭的數(shù)字：^(0|[1-9][0-9]*)$ 

6 非零開頭的最多帶兩位小數(shù)的數(shù)字：^([1-9][0-9]*)+(.[0-9]{1,2})?$ 

7 帶1-2位小數(shù)的正數(shù)或負數(shù)：^(\-)?\d+(\.\d{1,2})?$ 

8 正數(shù)易结、負數(shù)枕荞、和小數(shù)：^(\-|\+)?\d+(\.\d+)?$ 

9 有兩位小數(shù)的正實數(shù)：^[0-9]+(.[0-9]{2})?$

10 有1~3位小數(shù)的正實數(shù)：^[0-9]+(.[0-9]{1,3})?$

11 非零的正整數(shù)：^[1-9]\d*$ 或 ^([1-9][0-9]*){1,3}$ 或 ^\+?[1-9][0-9]*$

12 非零的負整數(shù)：^\-[1-9][]0-9"*$ 或 ^-[1-9]\d*$

13 非負整數(shù)：^\d+$ 或 ^[1-9]\d*|0$

14 非正整數(shù)：^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$

15 非負浮點數(shù)：^\d+(\.\d+)?$ 或 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$

16 非正浮點數(shù)：^((-\d+(\.\d+)?)|(0+(\.0+)?))$ 或 ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$

17 正浮點數(shù)：^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ 或 ^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$

18 負浮點數(shù)：^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ 或 ^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$

19 浮點數(shù)：^(-?\d+)(\.\d+)?$ 或 ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$

校驗字符的表達式

1 漢字：^[\u4e00-\u9fa5]{0,}$ 

2 英文和數(shù)字：^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$ 

3 長度為3-20的所有字符：^.{3,20}$ 

4 由26個英文字母組成的字符串：^[A-Za-z]+$ 

5 由26個大寫英文字母組成的字符串：^[A-Z]+$ 

6 由26個小寫英文字母組成的字符串：^[a-z]+$ 

7 由數(shù)字和26個英文字母組成的字符串：^[A-Za-z0-9]+$ 

8 由數(shù)字、26個英文字母或者下劃線組成的字符串：^\w+$ 或 ^\w{3,20}$ 

9 中文搞动、英文躏精、數(shù)字包括下劃線：^[\u4E00-\u9FA5A-Za-z0-9_]+$

10 中文、英文鹦肿、數(shù)字但不包括下劃線等符號：^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$

11 可以輸入含有^%&',;=?$\"等字符：[^%&',;=?$\x22]+

12 禁止輸入含有~的字符：[^~\x22]+

特殊需求表達式

1 Email地址：^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$ 

2 域名：[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.? 

3 InternetURL：[a-zA-z]+://[^\s]* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$ 

4 手機號碼：^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$ 

5 電話號碼("XXX-XXXXXXX"矗烛、"XXXX-XXXXXXXX"、"XXX-XXXXXXX"箩溃、"XXX-XXXXXXXX"高诺、"XXXXXXX"和"XXXXXXXX)：^(\(\d{3,4}-)|\d{3.4}-)?\d{7,8}$  

6 國內電話號碼(0511-4405222、021-87888822)：\d{3}-\d{8}|\d{4}-\d{7} 

7 身份證號(15位碾篡、18位數(shù)字)：^\d{15}|\d{18}$ 

8 短身份證號碼(數(shù)字虱而、字母x結尾)：^([0-9]){7,18}(x|X)?$ 或 ^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$ 

9 帳號是否合法(字母開頭，允許5-16字節(jié)开泽，允許字母數(shù)字下劃線)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$

10 密碼(以字母開頭牡拇，長度在6~18之間，只能包含字母、數(shù)字和下劃線)：^[a-zA-Z]\w{5,17}$

11 強密碼(必須包含大小寫字母和數(shù)字的組合惠呼，不能使用特殊字符导俘，長度在8-10之間)：^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$

12 日期格式：^\d{4}-\d{1,2}-\d{1,2}

13 一年的12個月(01～09和1～12)：^(0?[1-9]|1[0-2])$

14 一個月的31天(01～09和1～31)：^((0?[1-9])|((1|2)[0-9])|30|31)$

15 錢的輸入格式：

 1.有四種錢的表示形式我們可以接受:"10000.00" 和 "10,000.00", 和沒有 "分" 的 "10000" 和 "10,000"：^[1-9][0-9]*$

 2.這表示任意一個不以0開頭的數(shù)字,但是,這也意味著一個字符"0"不通過,所以我們采用下面的形式：^(0|[1-9][0-9]*)$

 3.一個0或者一個不以0開頭的數(shù)字.我們還可以允許開頭有一個負號：^(0|-?[1-9][0-9]*)$

 4.這表示一個0或者一個可能為負的開頭不為0的數(shù)字.讓用戶以0開頭好了.把負號的也去掉,因為錢總不能是負的吧.下面我們要加的是說明可能的小數(shù)部分：^[0-9]+(.[0-9]+)?$

 5.必須說明的是,小數(shù)點后面至少應該有1位數(shù),所以"10."是不通過的,但是 "10" 和 "10.2" 是通過的：^[0-9]+(.[0-9]{2})?$

 6.這樣我們規(guī)定小數(shù)點后面必須有兩位,如果你認為太苛刻了,可以這樣：^[0-9]+(.[0-9]{1,2})?$

 7.這樣就允許用戶只寫一位小數(shù).下面我們該考慮數(shù)字中的逗號了,我們可以這樣：^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$

 8.1到3個數(shù)字,后面跟著任意個 逗號+3個數(shù)字,逗號成為可選,而不是必須：^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$

- 備注：這就是最終結果了,別忘了"+"可以用"*"替代如果你覺得空字符串也可以接受的話(奇怪,為什么?)最后,別忘了在用函數(shù)時去掉去掉那個反斜杠,一般的錯誤都在這里

16 xml文件：^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$

17 中文字符的正則表達式：[\u4e00-\u9fa5]

18 雙字節(jié)字符：[^\x00-\xff] (包括漢字在內，可以用來計算字符串的長度(一個雙字節(jié)字符長度計2剔蹋，ASCII字符計1))

19 空白行的正則表達式：\n\s*\r (可以用來刪除空白行)

20 HTML標記的正則表達式：<(\S*?)[^>]*>.*?</\1>|<.*? /> (網(wǎng)上流傳的版本太糟糕旅薄，上面這個也僅僅能部分，對于復雜的嵌套標記依舊無能為力)

21 首尾空白字符的正則表達式：^\s*|\s*$或(^\s*)|(\s*$) (可以用來刪除行首行尾的空白字符(包括空格泣崩、制表符少梁、換頁符等等)，非常有用的表達式)

22 騰訊QQ號：[1-9][0-9]{4,} (騰訊QQ號從10000開始)

23 中國郵政編碼：[1-9]\d{5}(?!\d) (中國郵政編碼為6位數(shù)字) 33 IP地址：\d+\.\d+\.\d+\.\d+ (提取IP地址時有用) 34 IP地址：((?:(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)\\.){3}(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d))

4.re模塊的高級用法

1.search

re.search(r"\d+", "閱讀次數(shù)為 9999")
<_sre.SRE_Match object; span=(6, 10), match='9999'>

2.findall

#統(tǒng)計出python矫付、c凯沪、c++相應文章閱讀的次數(shù)
re.findall(r"\d+", "python = 9999, c = 7890, c++ = 12345")
['9999', '7890', '12345']

3.sub將匹配到的數(shù)據(jù)進行替換

#方法一
re.sub(r"\d+", '998', "python = 997")
'python = 998'

#方法二
def add(temp):
    strNum = temp.group()
    num = int(strNum) + 1
    return str(num)

re.sub(r"\d+", add, "python = 997")
'python = 998'

例子

#從下面的字符串中取出文本
<div>
        <p>崗位職責：</p>
<p>完成推薦算法、數(shù)據(jù)統(tǒng)計买优、接口妨马、后臺等服務器端相關工作</p>
<p><br></p>
<p>必備要求：</p>
<p>良好的自我驅動力和職業(yè)素養(yǎng)，工作積極主動杀赢、結果導向</p>
<p> <br></p>
<p>技術要求：</p>
<p>1烘跺、一年以上 Python 開發(fā)經(jīng)驗，掌握面向對象分析和設計脂崔，了解設計模式</p>
<p>2液荸、掌握HTTP協(xié)議，熟悉MVC脱篙、MVVM等概念以及相關WEB開發(fā)框架</p>
<p>3、掌握關系數(shù)據(jù)庫開發(fā)設計伤柄，掌握 SQL绊困，熟練使用 MySQL/PostgreSQL 中的一種<br></p>
<p>4、掌握NoSQL适刀、MQ秤朗，熟練使用對應技術解決方案</p>
<p>5、熟悉 Javascript/CSS/HTML5笔喉，JQuery取视、React、Vue.js</p>
<p> <br></p>
<p>加分項：</p>
<p>大數(shù)據(jù)常挚，數(shù)理統(tǒng)計作谭，機器學習，sklearn奄毡，高性能折欠，大并發(fā)。</p>

        </div>

解決方法：

s='''<div>
        <p>崗位職責：</p>
<p>完成推薦算法、數(shù)據(jù)統(tǒng)計锐秦、接口咪奖、后臺等服務器端相關工作</p>
<p><br></p>
<p>必備要求：</p>
<p>良好的自我驅動力和職業(yè)素養(yǎng)，工作積極主動酱床、結果導向</p>
<p> <br></p>
<p>技術要求：</p>
<p>1羊赵、一年以上 Python 開發(fā)經(jīng)驗，掌握面向對象分析和設計扇谣，了解設計模式</p>
<p>2昧捷、掌握HTTP協(xié)議，熟悉MVC揍堕、MVVM等概念以及相關WEB開發(fā)框架</p>
<p>3料身、掌握關系數(shù)據(jù)庫開發(fā)設計，掌握 SQL衩茸，熟練使用 MySQL/PostgreSQL 中的一種<br></p>
<p>4芹血、掌握NoSQL、MQ，熟練使用對應技術解決方案</p>
<p>5嚎京、熟悉 Javascript/CSS/HTML5本冲，JQuery、React饿悬、Vue.js</p>
<p> <br></p>
<p>加分項：</p>
<p>大數(shù)據(jù)，數(shù)理統(tǒng)計聚霜，機器學習狡恬，sklearn，高性能蝎宇，大并發(fā)弟劲。</p>

        </div>'''
re.sub(r'</?\w*>|\n|\s','',s)
'崗位職責：完成推薦算法、數(shù)據(jù)統(tǒng)計姥芥、接口兔乞、后臺等服務器端相關工作必備要求：良好的自我驅動力和職業(yè)素養(yǎng)，工作積極主動凉唐、結果導向 技術要求：1庸追、一年以上Python開發(fā)經(jīng)驗，掌握面向對象分析和設計台囱，了解設計模式2淡溯、掌握HTTP協(xié)議，熟悉MVC簿训、MVVM等概念以及相關WEB開發(fā)框架3血筑、掌握關系數(shù)據(jù)庫開發(fā)設計绘沉，掌握SQL，熟練使用MySQL/PostgreSQL中的一種4豺总、掌握NoSQL车伞、MQ，熟練使用對應技術解決方案5喻喳、熟悉Javascript/CSS/HTML5另玖，JQuery、React表伦、Vue.js 加分項：大數(shù)據(jù)谦去，數(shù)理統(tǒng)計，機器學習蹦哼，sklearn鳄哭，高性能，大并發(fā)纲熏。'

4.split

根據(jù)匹配進行切割字符串妆丘，并返回一個列表

re.split(r":| ","info:xiaoZhang 33          shandong")
['info', 'xiaoZhang', '33', '', '', '', '', '', '', '', '', '', 'shandong']

re.split(r":|  *","info:xiaoZhang 33          shandong")
['info', 'xiaoZhang', '33', 'shandong']

5.貪婪和非貪婪

正則表達式匹配的兩種模式：貪婪模式、懶惰模式

貪婪模式：從目標字符串的兩頭開始搜索局劲，一次盡可能多的匹配符合條件的字符串勺拣，但是有可能會匹配到不需要的內容，正則表達式中的元字符鱼填、量詞药有、范圍等都模式是貪婪匹配模式，使用的時候一定要注意分析結果苹丸，
懶惰模式：從目標字符串按照順序從頭到位進行檢索匹配愤惰，盡可能的檢索到最小范圍的匹配結果，語法結構是在貪婪模式的表達式后面加上一個符號?即可赘理，

Python里數(shù)量詞默認是貪婪的（在少數(shù)語言里也可能是默認非貪婪）宦言，總是嘗試匹配盡可能多的字符；
非貪婪則相反感憾，總是嘗試匹配盡可能少的字符。
在"*", "?" , "+" , "{m,n}" 后面加上令花？阻桅，使貪婪變成非貪婪。

re.match(r"erbai(\d+)","erbai521888").group(1)
'521888'

re.match(r"erbai(\d+?)","erbai521888").group(1)
'5'

re.match(r"(\d+)(.*)", "5211314erbai").groups()
('5211314', 'erbai')

re.match(r"(\d+?)(.*)", "5211314erbai").groups()
('5', '211314erbai')

練習

(一)

有一批網(wǎng)址：
http://www.interoem.com/messageinfo.asp?id=35
http://3995503.com/class/class09/news_show.asp?id=14
http://lib.wzmc.edu.cn/news/onews.asp?id=769
http://www.zy-ls.com/alfx.asp?newsid=377&id=6
http://www.fincm.com/newslist.asp?id=415
需要 正則后為：
http://www.interoem.com/
http://3995503.com/
http://lib.wzmc.edu.cn/
http://www.zy-ls.com/
http://www.fincm.com/

表達式：

#單個修改的表達式有以下幾種參考方案
re.match(r'http.+\.[a-z]{2,3}/',str)
re.match(r'http://.*?/',str)
re.sub(r'(http://.*?/).*',lambda x:x.group(1),str)

#整塊都修改
import re
f = open('url.txt','w')

s = '''http://www.interoem.com/messageinfo.asp?id=35
http://3995503.com/class/class09/news_show.asp?id=14
http://lib.wzmc.edu.cn/news/onews.asp?id=769
http://www.zy-ls.com/alfx.asp?newsid=377&id=6
http://www.fincm.com/newslist.asp?id=415'''

f.write(s)
f = open('url.txt','r')

def main():
    for line in f:
        ret = re.match(r'http://.+\.[a-z]{2,3}/', line)
        print(ret.group())
    f.close()


if __name__ == '__main__':
    main()

結果：

http://www.interoem.com/
http://3995503.com/
http://lib.wzmc.edu.cn/
http://www.zy-ls.com/
http://www.fincm.com/

(二)

現(xiàn)在有一句英文如下：
hello world ha ha
需求查找所有的單詞

表達式：

#我寫了兩種兼都，當然方法是多種的
re.split(r' +','hello world ha ha')
['hello', 'world', 'ha', 'ha']

re.findall(r' \b\w+\b',’ hello world ha ha’)
['hello', 'world', 'ha', 'ha']

2017.8.9回顧

1.正則表達式（Regular Expression）：查詢和匹配字符串的規(guī)則

2.正則表達式表示數(shù)據(jù)
普通字符： 元數(shù)據(jù)嫂沉，可以用于匹配指定的字符
r = “a”：用于在目標字符串中匹配小寫字母a元字符
r = “.”：用于匹配任意一個字符
r = “\”：轉移字符~用于將一個普通的字符，轉義成一個有意義的字符
r = “\d”：表示一個0~9之間的整數(shù)
r = “\D”：表示一個非數(shù)字字符
r = “\w”：表示任意一個0~9或者字母或者下劃線的字符
r = “\W”：表示任意一個特殊字符
r = “\s”：表示匹配一個空白字符
r = “\S”：表示匹配一個非空白字符
r = “^”：匹配字符串的開頭位置
r = “$”：匹配字符串的結束位置
r = “\d*”：表示前面匹配的字符出現(xiàn)了0次或者多次
r = “\d?”：表示前面匹配的字符出現(xiàn)了0次或者1次
r =”\d+”：表示前面匹配的字符出現(xiàn)了1次或者多次

#范圍匹配
分組匹配方式：將多個匹配字符當成一個完整的匹配公式
(abc)：用于在目標字符串中查詢abc同時出現(xiàn)的地方 
選擇匹配方式：將指定的多個字符扮碧，選擇其中一個進行匹配
[abc]：用于在目標字符串中趟章，查詢a或者b或者c出現(xiàn)的地方
[0-9]：用于匹配一個0~9之間的數(shù)字->等價于\d
[a-z]：用于匹配一個a-z之間的字母
[A-Z]：用于匹配一個A-Z之間的字母
[a-zA-Z]：用于匹配一個字母【大小寫均可】
[a-zA-Z0-9_]：用于匹配一個非特殊字符杏糙，等價于\w

#范圍匹配
\d{m, n}：匹配到的字符出現(xiàn)了至少m次，最多n次
\d{,20}：匹配一個數(shù)字最多出現(xiàn)20次
\d{8,}：匹配一個數(shù)字蚓土，最少出現(xiàn)8次
\d{8,16}：匹配一個數(shù)字宏侍，最少出現(xiàn)8次，最多出現(xiàn)16次

#正則表達式在python中的使用
正則表達式蜀漆，在python中谅河，主要用到了一個re模塊
compile()：編譯正則表達式
pattern = re.compile(“^\d{2,}$”)
pattern = r‘^\d{2,}$’

pattern.match(str,begin,end)：從指定的字符串str第一個字符查詢匹配的字符

pattern.search(str, begin, end):從指定的字符串中直接進行查詢，查詢到的第一個結果作為匹配結果

pattern.findall(str)：從指定的字符串中确丢，查詢符合匹配規(guī)則的字符绷耍，將所有符合的字符存放在一個列表中

pattern.finditer(str)：從指定的字符串中，查詢符合匹配規(guī)則的字符保存在一個可以迭代的對象中

pattern.sub():替換
pattern.split():拆分

最后編輯于：2017.12.08 03:59:46

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末鲜侥，一起剝皮案震驚了整個濱河市褂始，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌描函，老刑警劉巖崎苗，帶你破解...
沈念sama閱讀 218,122評論 6贊 505
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異赘阀，居然都是意外死亡益缠，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,070評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門基公，熙熙樓的掌柜王于貴愁眉苦臉地迎上來幅慌，“玉大人，你說我怎么就攤上這事轰豆∫任椋” “怎么了？”我有些...
開封第一講書人閱讀 164,491評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵酸休，是天一觀的道長骂租。經(jīng)常有香客問我，道長斑司，這世上最難降的妖魔是什么渗饮？我笑而不...
開封第一講書人閱讀 58,636評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮宿刮，結果婚禮上互站，老公的妹妹穿的比我還像新娘。我一直安慰自己僵缺，他們只是感情好胡桃，可當我...
茶點故事閱讀 67,676評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著磕潮，像睡著了一般翠胰。火紅的嫁衣襯著肌膚如雪容贝。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,541評論 1贊 305
城市分裂傳說
那天之景，我揣著相機與錄音斤富，去河邊找鬼。笑死闺兢，一個胖子當著我的面吹牛茂缚，可吹牛的內容都是我干的。我是一名探鬼主播屋谭，決...
沈念sama閱讀 40,292評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼脚囊，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了桐磁？” 一聲冷哼從身側響起悔耘，我...
開封第一講書人閱讀 39,211評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎我擂，沒想到半個月后衬以，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,655評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡校摩，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 37,846評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年看峻，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片衙吩。...
茶點故事閱讀 39,965評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡互妓，死狀恐怖，靈堂內的尸體忽然破棺而出坤塞，到底是詐尸還是另有隱情冯勉，我是刑警寧澤，帶...
沈念sama閱讀 35,684評論 5贊 347
?日本核電站爆炸內幕
正文年R本政府宣布摹芙，位于F島的核電站灼狰，受9級特大地震影響，放射性物質發(fā)生泄漏浮禾。R本人自食惡果不足惜交胚，卻給世界環(huán)境...
茶點故事閱讀 41,295評論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望盈电。院中可真熱鬧蝴簇，春花似錦、人聲如沸挣轨。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,894評論 0贊 22
一樁弒父案轩猩，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽卷扮。三九已至荡澎，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間晤锹，已是汗流浹背摩幔。一陣腳步聲響...
開封第一講書人閱讀 33,012評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留鞭铆，地道東北人或衡。一個月前我還...
沈念sama閱讀 48,126評論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像车遂，于是被迫代替她去往敵國和親封断。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 44,914評論 2贊 355

正則表達式

1.正則表達式概述

2.re模塊操作

1.re模塊的使用過程

2.re模塊示例

3.表示字符

正則表達式中的特殊用法

表示字符

表示數(shù)量

表示邊界

匹配分組

注意：(?P<name>)和(?P=name)中的字母p大寫

附：常用表達式

4.re模塊的高級用法

1.search

2.findall

3.sub將匹配到的數(shù)據(jù)進行替換

例子

4.split

5.貪婪和非貪婪

練習

2017.8.9回顧

推薦閱讀更多精彩內容