??Python用來爬取網(wǎng)頁上的相關(guān)信息很方便丈积,比如抓取相關(guān)網(wǎng)站的評(píng)論捕传,下載鏈接惠拭,圖片,模擬登陸等等庸论,今天初步分享一個(gè)爬取網(wǎng)頁相關(guān)信息的一個(gè)例子职辅。
爬蟲步驟:
?1.獲取想要爬取網(wǎng)頁的源代碼。
?2.解析這些代碼聂示,篩選出想要的信息域携。
?3.將想要的內(nèi)容保存到文件中。
舉例:
?目標(biāo)網(wǎng)頁:https://www.taptap.com/category/e378?page=1
?爬取信息:【游戲名稱】鱼喉,【游戲種類】秀鞭,【游戲鏈接】
第一步:通過requests獲得網(wǎng)頁的源代碼。
Eg1:
import requests #導(dǎo)入requests
html=request.get(url)
第二步:通過etree把這些代碼解析成xpath能夠使用的格式扛禽,通過xpath爬取內(nèi)容锋边。
Eg2:
from lxml import etree #導(dǎo)入etree
selector = etree.HTML(html.text)
??完成上面操作后我們就可以用xpath進(jìn)行讀取代碼了,找到我們想要的內(nèi)容位置编曼。通過chrome的開發(fā)者工具定位信息位置.
??{xpath使用方法:
????//定位根節(jié)點(diǎn)
????/往下層尋找
????提取文本內(nèi)容:/text()
????提取某個(gè)屬性的內(nèi)容:/@XXX}
data = selector.xpath('//div[@class="taptap-app-item"]')
??這里采用了先抓大再抓小的步驟豆巨,我們先把所有的游戲都抓下來,再在這些游戲里提取我們想要的每個(gè)游戲中的信息掐场。
在'div[@class="taptap-app-item"]'中我們?cè)诰唧w定位往扔。
【游戲名稱】:
'div[@class="app-item-caption"]/a[@class="item-caption-title flex-text-overflow"]/h4[@class="flex-text"]/text()’
【游戲種類】:
'div[@class="app-item caption"]/span[@class="item-caption-label"]/a/text()'
【游戲鏈接】:
'a/@href'
這里注意下贩猎,沒有寫根節(jié)點(diǎn)//的原因是我們?cè)?//div[@class="taptap-app-item"]'查找的,所以不需要寫//瓤球。
我們想要的信息爬取完了我們要將數(shù)據(jù)存起來融欧,并且在對(duì)應(yīng)的內(nèi)容前呢加上標(biāo)識(shí)。
第三步:定義存儲(chǔ)的格式卦羡,將爬取內(nèi)容進(jìn)行存儲(chǔ)噪馏。
Eg3:
def towrite(contentdict):
f.towritelines(u'游戲名稱:’ + str(contentdict(game_name)) +'\n' )
f.towritelines(u'游戲種類:’ + str(contentdict(game_kind)) +'\n' )
f.towritelines(u'游戲鏈接:’ + str(contentdict(game_link)) +'\n\n' )
??當(dāng)我們輸入f = open('content.txt', 'a',encoding='utf-8')
時(shí),就會(huì)將爬取下來的內(nèi)容存儲(chǔ)到content.txt中了绿饵。
完整的代碼
from lxml import etree
from multiprocessing.dummy import Pool as ThreadPool #(多線程)
import requests
def towrite(contentdict):
f.writelines(u'游戲名稱:' + str(contentdict['game_name']) + '\n')
f.writelines(u'游戲種類:' + str(contentdict['game_kind']) + '\n')
f.writelines(u'游戲鏈接:' + str(contentdict['game_link']) + '\n\n')
def spider(url):
html = requests.get(url)
selector = etree.HTML(html.text)
data = selector.xpath('//div[@class="taptap-app-item"]')
item = {}
for each in data:
game_name = each.xpath('div[@class="app-item-caption"]/a[@class="item-caption-title flex-text-overflow"]/h4[@class="flex-text"]/text()')[0]
game_kind = each.xpath('div[@class="app-item-caption"]/span[@class="item-caption-label"]/a/text()')[0]
game_link = each.xpath('a/@href')[0]
print(game_name)
print(game_kind)
print(game_link)
item['game_name'] = game_name
item['game_kind'] = game_kind
item['game_link'] = game_link
towrite(item)
if __name__=="__main__": #當(dāng)模塊被直接運(yùn)行時(shí)欠肾,以下代碼塊將被運(yùn)行,當(dāng)模塊是被導(dǎo)入時(shí)拟赊,代碼塊不被運(yùn)行刺桃。
Pool = ThreadPool(4)#根據(jù)電腦的核數(shù)寫的效率高,本電腦是4核的所以寫4吸祟,4個(gè)線程同時(shí)進(jìn)行瑟慈,如過不寫參數(shù)默認(rèn)的是電腦的核數(shù).
f = open('content.txt', 'a',encoding='utf-8')
page = []
for i in range(1,20): #(爬取1-19頁內(nèi)容)
newpage = 'https://www.taptap.com/category/e378?page=' + str(i)
page.append(newpage)
results = Pool.map(spider,page) #Pool.map 是多線路同時(shí)進(jìn)行的意思
Pool.close()
f.close()