Xpath多線程爬取Taptap新游預(yù)約信息

??Python用來爬取網(wǎng)頁上的相關(guān)信息很方便丈积，比如抓取相關(guān)網(wǎng)站的評(píng)論捕传，下載鏈接惠拭，圖片，模擬登陸等等庸论，今天初步分享一個(gè)爬取網(wǎng)頁相關(guān)信息的一個(gè)例子职辅。

爬蟲步驟:

?1.獲取想要爬取網(wǎng)頁的源代碼。

?2.解析這些代碼聂示，篩選出想要的信息域携。

?3.將想要的內(nèi)容保存到文件中。

舉例：

?目標(biāo)網(wǎng)頁：https://www.taptap.com/category/e378?page=1

?爬取信息：【游戲名稱】鱼喉，【游戲種類】秀鞭，【游戲鏈接】

第一步：通過requests獲得網(wǎng)頁的源代碼。

Eg1：

import requests #導(dǎo)入requests
html=request.get(url)

第二步：通過etree把這些代碼解析成xpath能夠使用的格式扛禽，通過xpath爬取內(nèi)容锋边。

Eg2：

from lxml import etree #導(dǎo)入etree
selector = etree.HTML(html.text)

??完成上面操作后我們就可以用xpath進(jìn)行讀取代碼了，找到我們想要的內(nèi)容位置编曼。通過chrome的開發(fā)者工具定位信息位置.
??{xpath使用方法：
????//定位根節(jié)點(diǎn)
????/往下層尋找
????提取文本內(nèi)容：/text（）
????提取某個(gè)屬性的內(nèi)容：/@XXX}

data = selector.xpath('//div[@class="taptap-app-item"]')

??這里采用了先抓大再抓小的步驟豆巨，我們先把所有的游戲都抓下來，再在這些游戲里提取我們想要的每個(gè)游戲中的信息掐场。
在'div[@class="taptap-app-item"]'中我們?cè)诰唧w定位往扔。

【游戲名稱】：

'div[@class="app-item-caption"]/a[@class="item-caption-title flex-text-overflow"]/h4[@class="flex-text"]/text()’

【游戲種類】：

'div[@class="app-item caption"]/span[@class="item-caption-label"]/a/text()'

【游戲鏈接】：

'a/@href'

這里注意下贩猎，沒有寫根節(jié)點(diǎn)//的原因是我們?cè)?//div[@class="taptap-app-item"]'查找的，所以不需要寫//瓤球。
我們想要的信息爬取完了我們要將數(shù)據(jù)存起來融欧，并且在對(duì)應(yīng)的內(nèi)容前呢加上標(biāo)識(shí)。

第三步：定義存儲(chǔ)的格式卦羡，將爬取內(nèi)容進(jìn)行存儲(chǔ)噪馏。

Eg3：

def towrite(contentdict):
    f.towritelines(u'游戲名稱：’ + str(contentdict（game_name）) +'\n' )
    f.towritelines(u'游戲種類：’ + str(contentdict（game_kind）) +'\n' )
    f.towritelines(u'游戲鏈接：’ + str(contentdict（game_link）) +'\n\n' )

??當(dāng)我們輸入f = open('content.txt', 'a',encoding='utf-8')時(shí)，就會(huì)將爬取下來的內(nèi)容存儲(chǔ)到content.txt中了绿饵。

完整的代碼

from lxml import etree
from multiprocessing.dummy import Pool as ThreadPool #(多線程)
import requests
def towrite(contentdict):
    f.writelines(u'游戲名稱：' + str(contentdict['game_name']) + '\n')
    f.writelines(u'游戲種類：' + str(contentdict['game_kind']) + '\n')
    f.writelines(u'游戲鏈接：' + str(contentdict['game_link']) + '\n\n')
def spider(url):
    html = requests.get(url)
    selector = etree.HTML(html.text)
    data = selector.xpath('//div[@class="taptap-app-item"]')
    item = {}
    for each in data:
        game_name = each.xpath('div[@class="app-item-caption"]/a[@class="item-caption-title flex-text-overflow"]/h4[@class="flex-text"]/text()')[0]
        game_kind = each.xpath('div[@class="app-item-caption"]/span[@class="item-caption-label"]/a/text()')[0]
        game_link = each.xpath('a/@href')[0]
        print(game_name)
        print(game_kind)
        print(game_link)
        item['game_name'] = game_name
        item['game_kind'] = game_kind
        item['game_link'] = game_link
        towrite(item)
if __name__=="__main__": #當(dāng)模塊被直接運(yùn)行時(shí)欠肾，以下代碼塊將被運(yùn)行，當(dāng)模塊是被導(dǎo)入時(shí)拟赊，代碼塊不被運(yùn)行刺桃。
    Pool = ThreadPool(4)#根據(jù)電腦的核數(shù)寫的效率高，本電腦是4核的所以寫4吸祟，4個(gè)線程同時(shí)進(jìn)行瑟慈，如過不寫參數(shù)默認(rèn)的是電腦的核數(shù).
    f = open('content.txt', 'a',encoding='utf-8')
    page = []
    for i in range(1,20): #（爬取1-19頁內(nèi)容）
        newpage = 'https://www.taptap.com/category/e378?page=' + str(i)
        page.append(newpage)
    results = Pool.map(spider,page) #Pool.map 是多線路同時(shí)進(jìn)行的意思
    Pool.close() 
    f.close()

運(yùn)行結(jié)果：

最后編輯于：2018.01.25 15:53:09

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市屋匕，隨后出現(xiàn)的幾起案子葛碧，更是在濱河造成了極大的恐慌，老刑警劉巖过吻，帶你破解...
沈念sama閱讀 211,265評(píng)論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件进泼，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡纤虽，警方通過查閱死者的電腦和手機(jī)乳绕，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,078評(píng)論 2贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來逼纸，“玉大人洋措，你說我怎么就攤上這事〗芄簦” “怎么了菠发？”我有些...
開封第一講書人閱讀 156,852評(píng)論 0贊 347
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)专缠。經(jīng)常有香客問我雷酪，道長(zhǎng)，這世上最難降的妖魔是什么涝婉？我笑而不...
開封第一講書人閱讀 56,408評(píng)論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任哥力，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘吩跋。我一直安慰自己寞射，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 65,445評(píng)論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布锌钮。她就那樣靜靜地躺著桥温，像睡著了一般。火紅的嫁衣襯著肌膚如雪梁丘。梳的紋絲不亂的頭發(fā)上侵浸，一...
開封第一講書人閱讀 49,772評(píng)論 1贊 290
城市分裂傳說
那天，我揣著相機(jī)與錄音氛谜，去河邊找鬼掏觉。笑死，一個(gè)胖子當(dāng)著我的面吹牛值漫，可吹牛的內(nèi)容都是我干的澳腹。我是一名探鬼主播，決...
沈念sama閱讀 38,921評(píng)論 3贊 406
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼杨何，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼酱塔！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起危虱，我...
開封第一講書人閱讀 37,688評(píng)論 0贊 266
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤羊娃，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后槽地，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體迁沫，經(jīng)...
沈念sama閱讀 44,130評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡芦瘾，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,467評(píng)論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年捌蚊，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片近弟。...
茶點(diǎn)故事閱讀 38,617評(píng)論 1贊 340
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡缅糟，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出祷愉，到底是詐尸還是另有隱情窗宦，我是刑警寧澤，帶...
沈念sama閱讀 34,276評(píng)論 4贊 329
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布二鳄，位于F島的核電站赴涵，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏订讼。R本人自食惡果不足惜髓窜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,882評(píng)論 3贊 312
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧寄纵，春花似錦鳖敷、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,740評(píng)論 0贊 21
一樁弒父案定踱，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至恃鞋，卻和暖如春崖媚，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背恤浪。一陣腳步聲響...
開封第一講書人閱讀 31,967評(píng)論 1贊 265
情欲美人皮
我被黑心中介騙來泰國(guó)打工至扰，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人资锰。一個(gè)月前我還...
沈念sama閱讀 46,315評(píng)論 2贊 360
代替公主和親
正文我出身青樓敢课，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親绷杜。傳聞我的和親對(duì)象是個(gè)殘疾皇子直秆，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,486評(píng)論 2贊 348