節(jié)約時(shí)間馋缅,不廢話介紹了,直接上例子>畹怼S┿病!輸入以下代碼(共6行)
爬蟲結(jié)束~~~有木有滿滿成就感=缘摹8猜摹!
以上代碼爬取的是這個(gè)頁面费薄,紅色框框里面的數(shù)據(jù)硝全,也就是豆瓣電影本周口碑榜。
下面開始簡(jiǎn)單介紹如何寫爬蟲楞抡。
爬蟲前伟众,我們首先簡(jiǎn)單明確兩點(diǎn):
1. 爬蟲的網(wǎng)址;
2. 需要爬取的內(nèi)容(數(shù)據(jù))召廷。
第一步凳厢,爬蟲的網(wǎng)址,這個(gè)…那就豆瓣吧竞慢,我也不知道為啥爬蟲教程都要拿豆瓣開刀–先紫!
第二部,需要爬取的內(nèi)容(數(shù)據(jù))筹煮。
這也正是上面6行代碼中的最后一行遮精,也可能是新手覺得最難的地方了。代碼的這個(gè)部分就是獲取數(shù)據(jù)败潦。
鼠標(biāo)點(diǎn)擊需要爬取的數(shù)據(jù)本冲,這里我們點(diǎn)“看不見的客人”准脂,如圖所示。
2.看到大紅色框框里的東西眼俊,是不是和我們最“重要”的代碼有很多相似的地方意狠。
再看來最后一行代碼中最“重要”的部分。
‘//td[@class=”title”]//a/text()’
//td :這個(gè)相當(dāng)于指定是大目錄疮胖;
[@class=”title”]:這個(gè)相當(dāng)于指定的小目錄环戈;
//a :這個(gè)相當(dāng)于最小的目錄;
/text():這個(gè)是提取其中的數(shù)據(jù)澎灸。
爬蟲介紹結(jié)束院塞,看完你也該試試手了。
試試爬“即將上映”