day17總結(jié)：正則表達(dá)式（2019-05-08）

一墨状、定義

正則表達(dá)式就是做字符串匹配的一種工具酸舍，很多語言都支持正則語法责嚷，正則語法是通用的
python中通過re模塊中提供的方式來使用正則：import re或from re import *
re.fullmatch（正則表達(dá)式莱睁，字符串）：完全匹配痕支，檢查字符串是否滿足正則表達(dá)式的要求颁虐；如果不匹配結(jié)果是None，匹配結(jié)果是一個匹配對象
python正則表達(dá)式：r'正則'（拓展：js正則表達(dá)式 - /正則/）

二卧须、正則語法（以下代碼基于import re）

1.匹配字符的符號

1）普通字符

普通字符在正則中代表字符本身另绩，例如, a, b, 1...等

# 要求一個字符串有5個字符儒陨，分別是h,e,l,l,o
re_str = r'hello'
result = re.fullmatch(re_str, 'hello')
print(result)

2）. (匹配除換行符 \n的任意字符)

匹配除“\n”之外的任何單個字符，一個.匹配一個

# 匹配一個字符串有三個字符笋籽，第一個字符是a蹦漠，最后一個字符是c, 第二個字符是任意字符
re_str = r'a.c'
result = re.fullmatch(re_str, 'a+c')
print(result)

3）\w (匹配字母、數(shù)字车海、下劃線)

一個\w只能匹配一個字符
注意: 這個不嚴(yán)謹(jǐn)笛园，還可以匹配中文等字符;不能匹配ASCII碼表中除了字母數(shù)字下劃線以外的符號

# 匹配一個字符串第一個字符是字母、數(shù)字或者下劃線侍芝，后面是'abc'
re_str = r'\wabc'
result = re.fullmatch(re_str, 'kabc')
print(result)

4）\s (匹配空白字符)

空白字符：空格研铆、\t（制表符tab鍵）、\n（換行）
一個\s只能匹配一個空字符

# 匹配一個長度是8的字符，要求前三個字符是任意字符，中間兩個空白字符摆昧，后面再三個任意字符
re_str = r'...\s\s...'
result = re.fullmatch(re_str, 'abc  abc')
print(result)
result = re.fullmatch(re_str, '++-\n\t-++')
print(result)
result = re.fullmatch(re_str, '+  \t\t-++')
print(result)

5）\d (匹配數(shù)字字符)

一個\d匹配一個數(shù)字字符：0~9

re_str = r'\d\dabc'
result = re.fullmatch(re_str, '90abc')
print(result)

6）\W (匹配非數(shù)字谁撼、字母、下劃線)

與 \w 相反

7）\S (匹配非空白字符)

與 \s 相反

# 匹配一個長度是4的字符，后面三個字符是'abc',第一個字符可以是任何一個非空白字符
re_str = r'\Sabc'
print(re.fullmatch(re_str, '+abc'))

8）\D (匹配非數(shù)字字符)

與 \d 相反

re_str = r'\Dabc'
print(re.fullmatch(re_str, '9abc'))  # None

9）[ ] (匹配字符集中的一個字符)

[普通字符集]：匹配字符集中的任意一個字符
[字符1-字符2]：匹配字符1到字符2中的任意一個字符(要求字符1的編碼值小于字符2)
注意: 一個[ ]只能匹配一個字符
常用：
[0-9]：匹配所有的數(shù)字
[a-z]：匹配小寫字母
[A-Z]：匹配大寫字母
[a-zA-Z]：匹配所有的字母
[\da-zA-Z_]：匹配數(shù)字字母下劃線
[\u4e00-\u9fa5]：匹配所有的中文

# 匹配一個長度是4的字符串，第一個字符是x或者y或者z, 后面是abc
re_str = r'[xyz]abc'
print(re.fullmatch(re_str, 'zabc'))

# 匹配一個長度是4的字符串, 第一個字符是數(shù)字或者x,y,z
re_str = r'[\dxyz]abc'
print(re.fullmatch(re_str, '3abc'))

# 匹配一個長度是4的字符串, 第一個字符是數(shù)字字符2-8中的一個
re_str = r'[2-8]abc'
print(re.fullmatch(re_str, '4abc'))

# 匹配一個長度是4的字符串, 第一個字符是數(shù)字字符2-8中的一個或者是x,y,z
re_str = r'[2-8xyz]abc'
print(re.fullmatch(re_str, 'zabc'))

# # 匹配一個長度是4的字符串, 第一個字符是中文字符
re_str = r'[\u4e00-\u9fa5]abc'
print(re.fullmatch(re_str, '胡abc'))

# re_str = r'[9-1]abc'
# print(re.fullmatch(re_str, '8abc'))   # 報錯！

10）[^] (匹配不含指定數(shù)據(jù)的)

[^字符集]：匹配不在字符集中任意一個字符
[^\u4e00-\u9fa5]：匹配一個非中文字符

# 匹配一個長度是4的字符串, 第一個字符不是x,y,z
re_str = r'[^xyz]abc'
print(re.fullmatch(re_str, 'zabc'))

# 匹配一個長度是4的字符串, 第一個字符不是中文字符
re_str = r'[^\u4e00-\u9fa5]abc'
print(re.fullmatch(re_str, '是abc'))

2.檢測字符的符號

1）\b (檢測單詞邊界)

檢查\b所在的位置是否是單詞邊界
單詞邊界：字符串開頭忆绰、字符串結(jié)尾、空白可岂、標(biāo)點(diǎn)符號等

# 匹配一個長度是4的字符串错敢，第一個字符是任意字符，后邊是abc; 檢測c的后面是否是單詞邊界
re_str = r'.abc\b'
print(re.fullmatch(re_str, '8abc'))

re_str = r'how\b\sare'
print(re.fullmatch(re_str, 'how are'))

2）\B (檢測非單詞邊界)

3）^ (檢測是否是字符串開頭)

re_str = r'^abc'
print(re.fullmatch(re_str, 'abc'))

print(re.search(r'^\d\d', 'has89kjkssss'))

4）$ (檢測是否是字符串結(jié)尾)

re_str = r'abc$'
print(re.fullmatch(re_str, 'abc'))
print(re.search(r'\d\d$', 'has89kjkssss77'))

3.轉(zhuǎn)義符號

在有特殊功能缕粹、意義的符號前加 ' \ '稚茅，讓這個正則符號變成普通符號
注意：除了^放在[ ]開頭，和 - 放在兩個字符之間以外平斩，其他單獨(dú)的特殊符號亚享，在[ ]沒有特殊功能，都是表示字符本身

re_str = r'\d\d\.\d\d'
print(re.fullmatch(re_str, '89=78'))

re_str = r'\^\d\d\d'
print(re.fullmatch(re_str, '^789'))

re_str = r'\d\d[.]\d\d'
print(re.fullmatch(re_str, '23=45'))

# ^在[]中不是在開頭就沒有特殊意義
re_str = r'\d\d[a^]\d\d'
print(re.fullmatch(re_str, '23=45'))

# -在[]中只要不是放在兩個字符之間都表示-本身s
re_str = r'\d\d[-a]\d\d'
print(re.fullmatch(re_str, '23-45'))


re_str = r'\d\d[1\-ka\]]\d\d'
print(re.fullmatch(re_str, '23-45'))

4.匹配次數(shù)

1）* (匹配0次或多次)

字符*：指定的字符出現(xiàn)0次或者多次
a*：字符a匹配0次或者多次
\d*：數(shù)字匹配0次或者多次
[a-z]*：小寫字母匹配0次或者多次

re_str = r'a*bc'
print(re.fullmatch(re_str, 'bc'))
print(re.fullmatch(re_str, 'abc'))
print(re.fullmatch(re_str, 'aaabc'))

2）+ (匹配1次或者多次)

# 匹配一個字符串開頭是a,結(jié)束是b,中間至少一個數(shù)字
re_str = r'a\d+b'
re_str = r'a\d\d*b'
print(re.fullmatch(re_str, 'a89b'))

3）? (0次或1次)

# 練習(xí)：寫一個正則表達(dá)式绘面，能夠匹配一個整數(shù)字符串
# 283欺税、-834、+823揭璃、9晚凿、-23
re_str = r'[-+]?\d+'
print(re.fullmatch(re_str, '-7890283024'))

4）{ } (匹配指定次數(shù))

{N}：匹配N次
{M,N}：匹配至少M(fèi)次，最多N次
{M,}：匹配至少M(fèi)次
{,N}：匹配最多N次
等價：
* == {0,}
+ == {1,}
? == {0,1}

re_str = r'\d{4}'
print(re.fullmatch(re_str, '8273'))

re_str = r'\d{2,4}'
print(re.fullmatch(re_str, '889'))

re_str = r'[xyz]{,3}'
print(re.fullmatch(re_str, 'xy'))


# 練習(xí): 寫一個正則表達(dá)式判斷密碼是否符號要求：
# 密碼由數(shù)字或字母組成瘦馍，并第一個字符是大寫字母歼秽，長度是6-12位
re_str = r'[A-Z][a-zA-Z\d]{5,11}'

5）非貪婪

貪婪：匹配次數(shù)不確定的時候盡可能多的匹配（上面次數(shù)不確定的符號都是貪婪的）
非貪婪：匹配次數(shù)不確定的時候盡可能少的匹配 (上面次數(shù)不確定的符號后面加 ? 就會變成非貪婪) 注意：盡可能少不是必須少，是在滿足條件的情況下盡可能的少
使用：
*?：0次或多次, 盡可能少
+?：1次或多次, 盡可能少
??：0次或1次, 盡可能少
{M,N}?：
{M,}?：
{,N}?：

re_str = r'a+'
print(re.search(re_str, 'baaaac'))

re_str = r'a+?'
print(re.search(re_str, 'baaaac'))

re_str = r'a.*b'
print(re.search(re_str, 'a12bmnb===='))     # match='a12bmnb'

re_str = r'a.*?b'
print(re.search(re_str, 'a12bmnb===='))    # match='a12b'

5.分之和分組

1）| (分之)

正則1|正則2：先用正則1進(jìn)行匹配情组，如果匹配失敗再用正則2匹配（正則1和正則2中只要有一個匹配成功就成功燥筷，兩個失敗了才失斅嵯椤）
注意: 如果正則1匹配成功了，不會再使用正則2去匹配（短路原則）

# 匹配一個字符串肆氓，是abc或者xyz
# 'abc', 'xyz'
re_str = r'abc|xyz'
print(re.fullmatch(re_str, 'abc'))

re_str = r'\d{3}|[a-zA-Z]{4}|\+{3}'
print(re.fullmatch(re_str, '+++'))

re_str = r'x{3}|y{3}123'
print(re.fullmatch(re_str, 'yyy123'))

2）() (分組)

整體區(qū)分(將部分正則作為一個整體)
re_str = r'(xxx|yyy)[A-Z]{2}[a-z]{2}\d{2}'
整體操作
re_str = r'(\d{2}[a-zA-Z]{2}){3}'
整體重復(fù)
\M - 重復(fù)前面第M個分組匹配到的內(nèi)容

# re_str = r'xxx[A-Z]{2}[a-z]{2}\d{2}|yyy[A-Z]{2}[a-z]{2}\d{2}'
re_str = r'(xxx|yyy)[A-Z]{2}[a-z]{2}\d{2}'
print(re.fullmatch(re_str, 'yyyASjk23'))

# '88js82ll67hj'
# re_str = r'\d{2}[a-zA-Z]{2}\d{2}[a-zA-Z]{2}\d{2}[a-zA-Z]{2}'
re_str = r'(\d{2}[a-zA-Z]{2}){3}'
print(re.fullmatch(re_str, '88js82ll67hj'))

# 89abc89, 11abc11
re_str = r'(\d\d)abc\1'
print(re.fullmatch(re_str, '90abc90'))

re_str = r'(\d{3})([a-z]{2})\2\1\2'
print(re.fullmatch(re_str, '234bnbn234bn'))

三袍祖、怎么使用（以下代碼基于from re import *）

1. compile：創(chuàng)建對象

compile(正則表達(dá)式)：創(chuàng)建正則表達(dá)式對象

re_str = r'\d{3}'
re_obj = compile(re_str)

re_obj.fullmatch('234')
等價于
fullmatch(re_str, '234')

2. fullmatch：完全匹配

fullmatch(正則表達(dá)式, 字符串)：讓正則和字符串完全匹配;匹配失敗返回None,匹配成功返回匹配對象
對整個字符串進(jìn)行檢查的時候使用，比如判斷賬號做院、密碼是否合法盲泛；手機(jī)號濒持、郵箱是否合法等

result = fullmatch(r'\d{3}[a-z]{2}[A-Z]{3}', '232anAHS')
print(result)

3. match：匹配字符串開頭

match(正則表達(dá)式, 字符串)：讓正則和字符串開頭匹配;匹配失敗返回None,匹配成功返回匹配對象

result = match(r'\d{3}', '3495hsjs02-3')
print(result)

4. search：字符串查找

search(正則表達(dá)式, 字符串)：在字符串中找到第一個和正則表達(dá)式匹配的子串键耕；沒有匹配到就返回None,否則返回匹配對象

result = search(r'a(\d{3})([A-Z]{2})', 'hello-a782KH--=23hjahsf')
print(result)

# 通過匹配對象能獲取到以下內(nèi)容
# a. 匹配結(jié)果
print(result.group())    # a782KH, 獲取整個正則表達(dá)式匹配到的結(jié)果
print(result.group(1))   # 782, 獲取第一個分組匹配到的結(jié)果
print(result.group(2))   # KH, 獲取第二個分組匹配到的結(jié)果

# b.匹配范圍(被匹配到的內(nèi)容在原字符串中的范圍-(開始下標(biāo),結(jié)束下標(biāo)))
print(result.span())
print(result.start())
print(result.end())

# c.獲取原字符串
print(result.string)

5. split：字符串切割

split(正則表達(dá)式, 字符串, 切割次數(shù))：將字符串按照滿足正則表達(dá)式的子串進(jìn)行切割;返回的是一個列表，列表中是被切開的子串
切割次數(shù)：不傳參就全切

print(split(r'\d+|[A-Z]+', 'hsj8kkjs9999lkjaHlks92jj8js9lkKIsj90kjkj', 1))

6. sub：字符串替換

sub(正則表達(dá)式,新字符串,原字符串, 替換次數(shù))：將原字符串中滿足正則表達(dá)式的子串替換成新字符串
替換次數(shù)：不傳參就全部替換

# print('shdfjaha23hj79hjh902nm3jj'.replace('a','+'))
print(sub(r'\d+', '*', 'how hj2h aeu8js90njj8899nnnnas'))

print(sub(r'[操肏艸草曹]|[fF]uck|shit|傻[比屄逼叉缺吊屌]|煞筆', '*', '你丫是傻叉嗎? 我操你大爺?shù)? Fuck you.'))

7. findall：查找所有

findall(正則表達(dá)式, 字符串)：在字符串中查找所有滿足正則表達(dá)式的子串柑营，以列表的形式返回
有一個分組屈雄，只取分組匹配到的內(nèi)容
注意：使用findall的時候，如果有分組想要取整個正則匹配的結(jié)果是取不到

print(findall(r'\d+', 'ashd88hkjahs9hjs81hs123hj78'))

print(findall(r'\d+a', 'ashd88ahkjahs9hjs81hs123ahj78'))   # ['88a', '123a']
# 有一個分組官套，只取分組匹配到的內(nèi)容
print(findall(r'(\d+)a', 'ashd88ahkjahs9hjs81hs123ahj78'))  # ['88', '123']

print(findall(r'(\d+)([a-z]{2})', 'ashd88ahkjahs9hjs81hs123ahj78'))  # [('88', 'ah'), ('9', 'hj'), ('81', 'hs'), ('123', 'ah')]


# 注意：使用findall的時候酒奶，如果有分組想要取整個正則匹配的結(jié)果是取不到
print(findall(r'(\d[a-z]){3}\+', 'ahjs8a2a8j+胡士大夫9m2s0j+接收到sd8p+ss==='))  # ['8j', '0j']

8. finditer：查找所有

finditer(正則表達(dá)式, 字符串)：在字符串中查找所有滿足正則表達(dá)式的子串；返回一個迭代器奶赔，元素是每個子串對應(yīng)的匹配對象

result = finditer(r'(\d[a-z]){3}\+', 'ahjs8a2a8j+胡士大夫9m2s0j+接收到sd8p+ss===')
print(result)
for x in result:
    print(x.group(), x.group(1))



def get_name():
    with open('data.txt', encoding='utf-8') as f:
        content = f.read()
        print(content)
        re_str = r'"name":"(.+?)",'
        result = findall(re_str, content)
        # result = re.findall(r'\d\d','ashjf89kjskdf90naskhfk899nn,nmf67jkhh56hkhjk78')
        print(result)
# get_name()

最后編輯于：2019.05.09 11:04:40

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末惋嚎，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子站刑，更是在濱河造成了極大的恐慌另伍，老刑警劉巖，帶你破解...
沈念sama閱讀 221,695評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件绞旅，死亡現(xiàn)場離奇詭異摆尝，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)因悲，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,569評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門堕汞，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人晃琳，你說我怎么就攤上這事讯检。” “怎么了卫旱？”我有些...
開封第一講書人閱讀 168,130評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵视哑，是天一觀的道長。經(jīng)常有香客問我誊涯，道長挡毅，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 59,648評論 1贊 297
?港島之戀（遺憾婚禮）
正文為了忘掉前任暴构，我火速辦了婚禮跪呈，結(jié)果婚禮上段磨，老公的妹妹穿的比我還像新娘。我一直安慰自己耗绿，他們只是感情好苹支，可當(dāng)我...
茶點(diǎn)故事閱讀 68,655評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著误阻，像睡著了一般债蜜。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上究反，一...
開封第一講書人閱讀 52,268評論 1贊 309
城市分裂傳說
那天寻定，我揣著相機(jī)與錄音，去河邊找鬼精耐。笑死狼速，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的卦停。我是一名探鬼主播向胡，決...
沈念sama閱讀 40,835評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼惊完！你這毒婦竟也來了僵芹？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,740評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤小槐，失蹤者是張志新（化名）和其女友劉穎拇派，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體本股，經(jīng)...
沈念sama閱讀 46,286評論 1贊 318
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡攀痊，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,375評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了拄显。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片苟径。...
茶點(diǎn)故事閱讀 40,505評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖躬审，靈堂內(nèi)的尸體忽然破棺而出棘街，到底是詐尸還是另有隱情，我是刑警寧澤承边，帶...
沈念sama閱讀 36,185評論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布遭殉，位于F島的核電站，受9級特大地震影響博助，放射性物質(zhì)發(fā)生泄漏险污。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,873評論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望蛔糯。院中可真熱鬧拯腮，春花似錦、人聲如沸蚁飒。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,357評論 0贊 24
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽淮逻。三九已至琼懊，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間爬早，已是汗流浹背哼丈。一陣腳步聲響...
開封第一講書人閱讀 33,466評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留凸椿，地道東北人削祈。一個月前我還...
沈念sama閱讀 48,921評論 3贊 376
代替公主和親
正文我出身青樓翅溺，卻偏偏與公主長得像脑漫，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子咙崎，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,515評論 2贊 359

day17總結(jié)：正則表達(dá)式（2019-05-08）

一墨状、定義

二卧须、正則語法（以下代碼基于import re）

1.匹配字符的符號

1）普通字符

2）. (匹配除換行符 \n的任意字符)

3）\w (匹配字母、數(shù)字车海、下劃線)

4）\s (匹配空白字符)

5）\d (匹配數(shù)字字符)

6）\W (匹配非數(shù)字谁撼、字母、下劃線)

7）\S (匹配非空白字符)

8）\D (匹配非數(shù)字字符)

9）[ ] (匹配字符集中的一個字符)

10）[^] (匹配不含指定數(shù)據(jù)的)

2.檢測字符的符號

1）\b (檢測單詞邊界)

2）\B (檢測非單詞邊界)

3）^ (檢測是否是字符串開頭)

4）$ (檢測是否是字符串結(jié)尾)

3.轉(zhuǎn)義符號

4.匹配次數(shù)

1）* (匹配0次或多次)

2）+ (匹配1次或者多次)

3）? (0次或1次)

4）{ } (匹配指定次數(shù))

5）非貪婪

5.分之和分組

1）| (分之)

2）() (分組)

三袍祖、怎么使用（以下代碼基于from re import *）

1. compile：創(chuàng)建對象

2. fullmatch：完全匹配

3. match：匹配字符串開頭

4. search：字符串查找

5. split：字符串切割

6. sub：字符串替換

7. findall：查找所有

8. finditer：查找所有

推薦閱讀更多精彩內(nèi)容