爬蟲課程（七）｜豆瓣：使用PyCharm＋Scrapy爬取豆瓣讀書書籍信息示例

從現(xiàn)在開始漓帅，我們將進(jìn)入實(shí)戰(zhàn)階段，本課程主要知識點(diǎn)包括三個：

1）一個簡單的爬取豆瓣讀書內(nèi)容示例

2）使用PyCharm進(jìn)行代碼調(diào)試方法

3）初步學(xué)會使用XPath提取html元素

一番官、一個簡單的爬取豆瓣讀書內(nèi)容示例

我們現(xiàn)在要爬取豆瓣讀書中的新書速遞中的書籍信息，主要提取它們的書籍標(biāo)題肴捉、書籍內(nèi)容鏈接以及發(fā)布時(shí)間鬓长。如下圖：

（圖一）豆瓣讀書html

1為我們要爬取的豆瓣讀書的URL地址，2為我們要爬取的具體內(nèi)容的HTML元素區(qū)塊巍糯。那么對照我們使用Scrapy應(yīng)該怎么寫呢啸驯？

第一步：在scrapy中，我們把要爬取的目標(biāo)網(wǎng)頁的URL放在start_urls中祟峦，start_urls是可以存放多個url地址的罚斗，至于它們是怎么一個個加載這些url的，我會在后面講解源碼的課程中會詳細(xì)講解宅楞。第二步就是獲取ul標(biāo)簽下的所有l(wèi)i標(biāo)簽的內(nèi)容针姿，因?yàn)槲覀冃枰臅畔⒍荚谶@些li里面。

（圖二）豆瓣讀書爬蟲源代碼

從上面的第二個紅色框厌衙，我們發(fā)現(xiàn)它是先通過找到id為content距淫，然后找出子div，再找出這個子div下的第二個子div婶希，再就是ul/li榕暇。這個只是其中一種方法，這種方法主要是直接使用瀏覽器自帶的“Copy XPath”功能來實(shí)現(xiàn)的（Chrome瀏覽器的實(shí)現(xiàn)方式為選中區(qū)域喻杈，右擊彤枢，Copy，選擇Copy XPath）筒饰。

瀏覽器自帶的“Copy XPath”功能

實(shí)際上我們完全可以使用另一種方法獲取到這個li缴啡，方法很多，下面任舉一例子：

（圖三）獲取li的兩種方法

在（圖二）豆瓣讀書爬蟲源代碼中有一個name ="douban_book"龄砰，這個是每個爬蟲文件的唯一名稱盟猖，我們在執(zhí)行爬蟲時(shí)就會用到它。

二换棚、使用PyCharm進(jìn)行代碼調(diào)試

對于程序員來說式镐，我們深知代碼調(diào)試的重要性，那么我們?nèi)绾问褂肞yCharm來調(diào)試爬蟲代碼呢固蚤？

我們新建一個main.py文件娘汞，如下圖：

（圖四）利用main進(jìn)行代碼調(diào)試

我們只要使用debug方法執(zhí)行這個main.py，就會進(jìn)入我們在對應(yīng)的douban_book文件的斷點(diǎn)中夕玩。

（圖五）Debug執(zhí)行main

到此你弦，一個簡單的Scrapy使用的“hello world”已經(jīng)完成惊豺。接下來我會在這個“hello world”基礎(chǔ)上去講解XPath選擇器的詳細(xì)用法，items的設(shè)計(jì)禽作，以及如何使用pipeline把item中的數(shù)據(jù)保存到Mysql數(shù)據(jù)庫表中尸昧。

最后編輯于：2017.12.11 07:54:03

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市旷偿，隨后出現(xiàn)的幾起案子烹俗，更是在濱河造成了極大的恐慌，老刑警劉巖萍程，帶你破解...
沈念sama閱讀 206,214評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件幢妄，死亡現(xiàn)場離奇詭異，居然都是意外死亡茫负，警方通過查閱死者的電腦和手機(jī)蕉鸳，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,307評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來忍法，“玉大人潮尝，你說我怎么就攤上這事〉拊” “怎么了衍锚？”我有些...
開封第一講書人閱讀 152,543評論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長嗤堰。經(jīng)常有香客問我戴质，道長，這世上最難降的妖魔是什么踢匣？我笑而不...
開封第一講書人閱讀 55,221評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任告匠，我火速辦了婚禮，結(jié)果婚禮上离唬，老公的妹妹穿的比我還像新娘后专。我一直安慰自己，他們只是感情好输莺，可當(dāng)我...
茶點(diǎn)故事閱讀 64,224評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布戚哎。她就那樣靜靜地躺著，像睡著了一般嫂用。火紅的嫁衣襯著肌膚如雪型凳。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,007評論 1贊 284
城市分裂傳說
那天嘱函，我揣著相機(jī)與錄音甘畅，去河邊找鬼。笑死，一個胖子當(dāng)著我的面吹牛疏唾，可吹牛的內(nèi)容都是我干的蓄氧。我是一名探鬼主播，決...
沈念sama閱讀 38,313評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼槐脏，長吁一口氣：“原來是場噩夢啊……” “哼喉童！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起顿天，我...
開封第一講書人閱讀 36,956評論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤泄朴，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后露氮，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,441評論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡钟沛，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,925評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年畔规，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片恨统。...
茶點(diǎn)故事閱讀 38,018評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡叁扫，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出畜埋，到底是詐尸還是另有隱情莫绣，我是刑警寧澤，帶...
沈念sama閱讀 33,685評論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布悠鞍，位于F島的核電站对室，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏咖祭。R本人自食惡果不足惜掩宜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,234評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望么翰。院中可真熱鬧牺汤，春花似錦、人聲如沸浩嫌。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,240評論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽码耐。三九已至追迟，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間伐坏，已是汗流浹背怔匣。一陣腳步聲響...
開封第一講書人閱讀 31,464評論 1贊 261
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人每瞒。一個月前我還...
沈念sama閱讀 45,467評論 2贊 352
代替公主和親
正文我出身青樓金闽，卻偏偏與公主長得像，于是被迫代替她去往敵國和親剿骨。傳聞我的和親對象是個殘疾皇子代芜，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,762評論 2贊 345

爬蟲課程（七）｜豆瓣：使用PyCharm＋Scrapy爬取豆瓣讀書書籍信息示例

推薦閱讀更多精彩內(nèi)容