Python 3 爬蟲學習筆記 2 -findAll 正則表達式 lambda表達式

此學習筆記整理于 Ryan Mitchell Web Scraping with Python- Collecting Data from the Modern Web (2015) Chapter 2 Advanced HTML Parsing

首先說明下我為什么要用這本書貌踏,因為這本書并不是入門書籍层皱。那么我是不是小白呢!肯定是,那么為什么不用入門書籍呢?原因在于我之前自學過Python,然后斷了,然后再學,然后再斷纸泡。所以就選了這本,硬著來吧赖瞒。

一女揭,來蚤假,說一個函數(shù)吧。findAll



網(wǎng)頁代碼


findAll(tag, attributes, recursive, text, limit, keywords)?

第一個參數(shù)吧兔,tag磷仰。即上圖中的span,string或者list (string就是文本境蔼,list就是列表灶平,都是Python中的單元,可以查下看下就行箍土,不查也行逢享,字面意思,可能有些語法問題吴藻,暫時也不用知道吧)

第二個參數(shù)瞒爬,attributes。即上圖中的class=‘red’沟堡。dictionary (dictionary就是字典侧但,key和value,即有鍵和值(鍵可以理解為索引)弦叶,class是鍵俊犯,red是值)

第三個參數(shù),recursive伤哺。我們打開的html形式的內容類似樹狀結構。如下圖者祖。這個參數(shù)就是問你是否要深挖結構立莉,如果不深挖,就是大的樹枝七问,如果深挖蜓耻,set it true,就是大樹枝挖完后還要挖大樹枝上面的小樹枝械巡。例如刹淌,span下面如果還有一個低層級的span。當然了我也不知道有沒有這樣的結構讥耗,只是理解有勾。默認值是True,深挖古程,畢竟是findAll蔼卡。


html 結構

第四個參數(shù),text挣磨。作者說不常用雇逞,就是找對應的text荤懂。可以算出來對應的text在page里面出現(xiàn)了幾次塘砸。findAll(text='XX')

第五個參數(shù)节仿,limit,就是找?guī)讉€吧掉蔬。

第六個參數(shù)廊宪,keywords.直接上attributes我的理解,class=‘red’眉踱。作者說了挤忙,一般不用keywords,因為class是Python的保留詞谈喳,雖然也可以加一個小橫線class_=‘red’來用册烈,但是也可以用 findAll(“”,{“class”:"red")來替代findAll(class_='red')婿禽。作者又說了赏僧,keywords可以幫我們進一步refine我們的內容,進一步篩選扭倾。

findAll是根據(jù)名字和屬性attributes來確定tags的淀零。

ok,函數(shù)說完膛壹。

下面的是如何根據(jù)位置來確定需要的tag的驾中。

主要的就是兩點,父子關系模聋,后代和姐妹關系肩民。children & parent,descendants and siblings。


子關系链方,children是緊挨著下一層持痰,對應.descendants 是所有的下層包括下一層(children)


兄弟姐妹關系

在兄弟姐妹關系上,跳過了第一個祟蚀,因為是next_siblings.同樣的還有next_sibling工窍。單數(shù)的兄弟姐妹

還有就是previous_sibling and previous_siblings。


父關系

二前酿,正則表達式

先來一個笑話吧

Let’s say you have a problem, and you decide to solve it with regular expressions. Well, now you have two problems患雏。

但我覺得,既然決定了要學Python薪者,so, the only thing we have to fear is fear itself. 如果有一天我停更了纵苛,真是啪啪打臉啊。

舉個栗子

下面有幾個規(guī)則:

1,a至少寫1遍攻人,開頭

2取试,后面正好跟了5個b

3,后面跟了偶數(shù)個c

4怀吻,最后d可選結尾瞬浓。

感覺很直觀吧!ok蓬坡,rewrite in regular expression. regex

aa*bbbbb(cc)*(d | )

a 一個a

a* 若干個a猿棉,從0開始計數(shù)

(cc)這樣的組合cc

(cc)* 這樣的如何若干次

d | ?d or nothing

(d | )這樣的組合

完成!

三屑咳,結合


結合

需要加載re import re

\. 表示.

\/ 表示/

../img/gifts/imgXX.jpg (XX表示一位數(shù)或者兩位數(shù)或者多位數(shù))

四萨赁,lambda表達式

lambda表達式省去了定義函數(shù)的麻煩,直接用兆龙!findAll支持lambda表達式杖爽,但是!有一個前提紫皇,這個lambda的參數(shù)是tag慰安,返回值是邏輯值boolean。

舉個栗子



P.S.:沒能上車的小伙伴歡迎留言聪铺,如果我會我直接回答你化焕!如果不會,我谷歌后回答你铃剔!如果要加我微信撒桨,不行。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末键兜,一起剝皮案震驚了整個濱河市元莫,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌蝶押,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,843評論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件火欧,死亡現(xiàn)場離奇詭異棋电,居然都是意外死亡,警方通過查閱死者的電腦和手機苇侵,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,538評論 3 392
  • 文/潘曉璐 我一進店門赶盔,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人榆浓,你說我怎么就攤上這事于未。” “怎么了?”我有些...
    開封第一講書人閱讀 163,187評論 0 353
  • 文/不壞的土叔 我叫張陵烘浦,是天一觀的道長抖坪。 經(jīng)常有香客問我,道長闷叉,這世上最難降的妖魔是什么擦俐? 我笑而不...
    開封第一講書人閱讀 58,264評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮握侧,結果婚禮上蚯瞧,老公的妹妹穿的比我還像新娘。我一直安慰自己品擎,他們只是感情好埋合,可當我...
    茶點故事閱讀 67,289評論 6 390
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著萄传,像睡著了一般甚颂。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上盲再,一...
    開封第一講書人閱讀 51,231評論 1 299
  • 那天西设,我揣著相機與錄音,去河邊找鬼答朋。 笑死贷揽,一個胖子當著我的面吹牛,可吹牛的內容都是我干的梦碗。 我是一名探鬼主播禽绪,決...
    沈念sama閱讀 40,116評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼洪规!你這毒婦竟也來了印屁?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 38,945評論 0 275
  • 序言:老撾萬榮一對情侶失蹤斩例,失蹤者是張志新(化名)和其女友劉穎雄人,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體念赶,經(jīng)...
    沈念sama閱讀 45,367評論 1 313
  • 正文 獨居荒郊野嶺守林人離奇死亡础钠,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,581評論 2 333
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了叉谜。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片旗吁。...
    茶點故事閱讀 39,754評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖停局,靈堂內的尸體忽然破棺而出很钓,到底是詐尸還是另有隱情香府,我是刑警寧澤,帶...
    沈念sama閱讀 35,458評論 5 344
  • 正文 年R本政府宣布码倦,位于F島的核電站企孩,受9級特大地震影響,放射性物質發(fā)生泄漏叹洲。R本人自食惡果不足惜柠硕,卻給世界環(huán)境...
    茶點故事閱讀 41,068評論 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望运提。 院中可真熱鬧蝗柔,春花似錦、人聲如沸民泵。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,692評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽栈妆。三九已至胁编,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間鳞尔,已是汗流浹背嬉橙。 一陣腳步聲響...
    開封第一講書人閱讀 32,842評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留寥假,地道東北人市框。 一個月前我還...
    沈念sama閱讀 47,797評論 2 369
  • 正文 我出身青樓,卻偏偏與公主長得像糕韧,于是被迫代替她去往敵國和親枫振。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,654評論 2 354

推薦閱讀更多精彩內容