import re? markdown
1屁倔、在規(guī)則中可以用.來匹配包括換行在內(nèi)的所有字符
2肝陪、在r規(guī)則中,^表示匹配開頭位置
3爽待、當(dāng)字符串有多行時灸促,在re.findall(r,s,re.M),大M表示多行
4乖酬、當(dāng)正則的規(guī)則有多行(/d)時强霎,要在表達(dá)式中加入大S夏跷,re.findall(r,s,re.S)
5宣吱、在正則規(guī)則中窃这,小括號可以幫助兩個存在或關(guān)系的元素分組,(\.com|\.cn)征候,findall會優(yōu)先返回小括號中的分組數(shù)據(jù)
6杭攻、可以用小括號標(biāo)志來查找固定目的的東西:
r = r" net1? ip = ( .+)",就能返回后面的IP地址,.表示任意字符疤坝,+表示大于等于1個
爬蟲
1兆解、網(wǎng)址源代碼中的圖片其實都是一個網(wǎng)絡(luò)地址,http開通跑揉,.jpg結(jié)尾的那種锅睛,可以用正則表達(dá)式篩選
2、import urllib是一個獲取url網(wǎng)頁地址的模塊历谍,urllib.open(url)现拒,將他賦值給page,然后page.read()讀取地址望侈,return讀取后的地址中的數(shù)據(jù)
3印蔬、匹配頁面圖片,r = r"src =? “.+ \.jpg" width" 甜无,之后對正則進(jìn)行編譯扛点,bianyi = re.compile(r)哥遮, 然后將找出來的結(jié)果賦值給一個變量jieguo = re.findall(bianyi,yuandizhi)
4、urllib.urlretrieve(x,' 123.jpg')可以下載括號中地址x所對應(yīng)的元素陵究,此處可以用'%s.jpg' % x? ? x +=1 '來給每個圖片按順序命名