爬蟲課程(七)|豆瓣:使用PyCharm+Scrapy爬取豆瓣讀書書籍信息示例

從現(xiàn)在開始漓帅,我們將進(jìn)入實(shí)戰(zhàn)階段,本課程主要知識點(diǎn)包括三個:

1)一個簡單的爬取豆瓣讀書內(nèi)容示例

2)使用PyCharm進(jìn)行代碼調(diào)試方法

3)初步學(xué)會使用XPath提取html元素

一番官、一個簡單的爬取豆瓣讀書內(nèi)容示例

我們現(xiàn)在要爬取豆瓣讀書中的新書速遞中的書籍信息,主要提取它們的書籍標(biāo)題肴捉、書籍內(nèi)容鏈接以及發(fā)布時(shí)間鬓长。如下圖:

(圖一)豆瓣讀書html

1為我們要爬取的豆瓣讀書的URL地址,2為我們要爬取的具體內(nèi)容的HTML元素區(qū)塊巍糯。那么對照我們使用Scrapy應(yīng)該怎么寫呢啸驯?

第一步:在scrapy中,我們把要爬取的目標(biāo)網(wǎng)頁的URL放在start_urls中祟峦,start_urls是可以存放多個url地址的罚斗,至于它們是怎么一個個加載這些url的,我會在后面講解源碼的課程中會詳細(xì)講解宅楞。第二步就是獲取ul標(biāo)簽下的所有l(wèi)i標(biāo)簽的內(nèi)容针姿,因?yàn)槲覀冃枰臅畔⒍荚谶@些li里面。

(圖二)豆瓣讀書爬蟲源代碼

從上面的第二個紅色框厌衙,我們發(fā)現(xiàn)它是先通過找到id為content距淫,然后找出子div,再找出這個子div下的第二個子div婶希,再就是ul/li榕暇。這個只是其中一種方法,這種方法主要是直接使用瀏覽器自帶的“Copy XPath”功能來實(shí)現(xiàn)的(Chrome瀏覽器的實(shí)現(xiàn)方式為選中區(qū)域喻杈,右擊彤枢,Copy,選擇Copy XPath)筒饰。

瀏覽器自帶的“Copy XPath”功能

實(shí)際上我們完全可以使用另一種方法獲取到這個li缴啡,方法很多,下面任舉一例子:

(圖三)獲取li的兩種方法

在(圖二)豆瓣讀書爬蟲源代碼中有一個name ="douban_book"龄砰,這個是每個爬蟲文件的唯一名稱盟猖,我們在執(zhí)行爬蟲時(shí)就會用到它。

二换棚、使用PyCharm進(jìn)行代碼調(diào)試

對于程序員來說式镐,我們深知代碼調(diào)試的重要性,那么我們?nèi)绾问褂肞yCharm來調(diào)試爬蟲代碼呢固蚤?

我們新建一個main.py文件娘汞,如下圖:

(圖四)利用main進(jìn)行代碼調(diào)試

我們只要使用debug方法執(zhí)行這個main.py,就會進(jìn)入我們在對應(yīng)的douban_book文件的斷點(diǎn)中夕玩。

(圖五)Debug執(zhí)行main

到此你弦,一個簡單的Scrapy使用的“hello world”已經(jīng)完成惊豺。接下來我會在這個“hello world”基礎(chǔ)上去講解XPath選擇器的詳細(xì)用法,items的設(shè)計(jì)禽作,以及如何使用pipeline把item中的數(shù)據(jù)保存到Mysql數(shù)據(jù)庫表中尸昧。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市旷偿,隨后出現(xiàn)的幾起案子烹俗,更是在濱河造成了極大的恐慌,老刑警劉巖萍程,帶你破解...
    沈念sama閱讀 206,214評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件幢妄,死亡現(xiàn)場離奇詭異,居然都是意外死亡茫负,警方通過查閱死者的電腦和手機(jī)蕉鸳,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來忍法,“玉大人潮尝,你說我怎么就攤上這事〉拊” “怎么了衍锚?”我有些...
    開封第一講書人閱讀 152,543評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長嗤堰。 經(jīng)常有香客問我戴质,道長,這世上最難降的妖魔是什么踢匣? 我笑而不...
    開封第一講書人閱讀 55,221評論 1 279
  • 正文 為了忘掉前任告匠,我火速辦了婚禮,結(jié)果婚禮上离唬,老公的妹妹穿的比我還像新娘后专。我一直安慰自己,他們只是感情好输莺,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,224評論 5 371
  • 文/花漫 我一把揭開白布戚哎。 她就那樣靜靜地躺著,像睡著了一般嫂用。 火紅的嫁衣襯著肌膚如雪型凳。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,007評論 1 284
  • 那天嘱函,我揣著相機(jī)與錄音甘畅,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛疏唾,可吹牛的內(nèi)容都是我干的蓄氧。 我是一名探鬼主播,決...
    沈念sama閱讀 38,313評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼槐脏,長吁一口氣:“原來是場噩夢啊……” “哼喉童!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起顿天,我...
    開封第一講書人閱讀 36,956評論 0 259
  • 序言:老撾萬榮一對情侶失蹤泄朴,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后露氮,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,441評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡钟沛,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,925評論 2 323
  • 正文 我和宋清朗相戀三年畔规,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片恨统。...
    茶點(diǎn)故事閱讀 38,018評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡叁扫,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出畜埋,到底是詐尸還是另有隱情莫绣,我是刑警寧澤,帶...
    沈念sama閱讀 33,685評論 4 322
  • 正文 年R本政府宣布悠鞍,位于F島的核電站对室,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏咖祭。R本人自食惡果不足惜掩宜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,234評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望么翰。 院中可真熱鬧牺汤,春花似錦、人聲如沸浩嫌。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,240評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽码耐。三九已至追迟,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間伐坏,已是汗流浹背怔匣。 一陣腳步聲響...
    開封第一講書人閱讀 31,464評論 1 261
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人每瞒。 一個月前我還...
    沈念sama閱讀 45,467評論 2 352
  • 正文 我出身青樓金闽,卻偏偏與公主長得像,于是被迫代替她去往敵國和親剿骨。 傳聞我的和親對象是個殘疾皇子代芜,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,762評論 2 345

推薦閱讀更多精彩內(nèi)容