Python scrapy框架爬蟲demo

encoding=utf8

import scrapy
import time
from scrapyLuntan.items import ScrapyluntanItem
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
lis = []
class LunTan(scrapy.Spider):
# 這個爬蟲的識別名稱毕箍，必須是唯一的挂疆，在不同的爬蟲必須定義不同的名字
name='luntan'
# 是搜索的域名范圍髓考，也就是爬蟲的約束區(qū)域炼鞠，
# 規(guī)定爬蟲只爬取這個域名下的網(wǎng)頁茵休，不存在的URL會被忽略嘲碱。
allowd_domains = ['http://dzh2.mop.com/']
#爬取的URL元祖 / 列表煌茬。爬蟲從這里開始抓取數(shù)據(jù)，
# 所以，第一次下載的數(shù)據(jù)將會從這些urls開始急但。其他子URL將會從這些起始URL中繼承性生成澎媒。
start_urls = ('http://www.mop.com/',)
#解析的方法，每個初始URL完成下載后將被調(diào)用羊始，
# 調(diào)用的時候傳入從每一個URL傳回的Response對象來作為唯一參數(shù)
def parse(self, response):
li_list = response.xpath("http://li[@class='mop-item-a']")
print len(li_list)
for i in li_list:
a_href = i.xpath("./a/@href")[0].extract()
a_href = a_href.replace('http://dzh2.mop.com/dzh_index.html#rlink=','')
print a_href
# 發(fā)送新的url請求加入待爬隊列旱幼，并調(diào)用回調(diào)函數(shù) self.parse
yield scrapy.Request(a_href, meta={'a_href': a_href},callback=self.res_detail)

def res_detail(self, response):
    item = ScrapyluntanItem()
    detail_url = response.meta['a_href']
    print response.meta['a_href']
    if 'http://dzh2.mop.com/' in detail_url:
        text = response.xpath("http://div[@class='post-date fl mr15']/span/text()")[0].extract()
    else:
        text = response.xpath("http://div[@class='mr20 inlineBlock']/span/text()")[0].extract()

    text = text.strip()
    print text
    if '年' in text:
        print 88888
        text = text.replace('年','-')
        text = text.replace('月','-')
        text = text.replace('日','')

    timeArray = time.strptime(text,"%Y-%m-%d %H:%M:%S")
    item['time'] = int(time.mktime(timeArray))
    open('./time.txt','a+').write(str(item['time'])+"\r\n")
    yield item

    # print timeStamp

最后編輯于：2017.12.08 07:42:45

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市突委，隨后出現(xiàn)的幾起案子柏卤，更是在濱河造成了極大的恐慌，老刑警劉巖匀油，帶你破解...
沈念sama閱讀 211,123評論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件缘缚，死亡現(xiàn)場離奇詭異，居然都是意外死亡敌蚜，警方通過查閱死者的電腦和手機桥滨，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,031評論 2贊 384
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來弛车，“玉大人齐媒，你說我怎么就攤上這事》柞耍” “怎么了喻括？”我有些...
開封第一講書人閱讀 156,723評論 0贊 345
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長贫奠。經(jīng)常有香客問我唬血，道長，這世上最難降的妖魔是什么唤崭？我笑而不...
開封第一講書人閱讀 56,357評論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任拷恨，我火速辦了婚禮，結果婚禮上谢肾，老公的妹妹穿的比我還像新娘腕侄。我一直安慰自己，他們只是感情好芦疏，可當我...
茶點故事閱讀 65,412評論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布冕杠。她就那樣靜靜地躺著，像睡著了一般眯分。火紅的嫁衣襯著肌膚如雪拌汇。梳的紋絲不亂的頭發(fā)上柒桑，一...
開封第一講書人閱讀 49,760評論 1贊 289
城市分裂傳說
那天弊决，我揣著相機與錄音，去河邊找鬼。笑死飘诗，一個胖子當著我的面吹牛与倡，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播昆稿，決...
沈念sama閱讀 38,904評論 3贊 405
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼纺座，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了溉潭？” 一聲冷哼從身側響起净响，我...
開封第一講書人閱讀 37,672評論 0贊 266
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎喳瓣，沒想到半個月后馋贤，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 44,118評論 1贊 303
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡畏陕，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,456評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年配乓，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片惠毁。...
茶點故事閱讀 38,599評論 1贊 340
活死人
序言：一個原本活蹦亂跳的男人離奇死亡犹芹，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出鞠绰，到底是詐尸還是另有隱情腰埂，我是刑警寧澤，帶...
沈念sama閱讀 34,264評論 4贊 328
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布洞豁，位于F島的核電站盐固，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏丈挟。R本人自食惡果不足惜刁卜，卻給世界環(huán)境...
茶點故事閱讀 39,857評論 3贊 312
男人毒藥：我在死后第九天來索命
文/蒙蒙一吊说、第九天我趴在偏房一處隱蔽的房頂上張望肆氓。院中可真熱鬧，春花似錦鳖藕、人聲如沸例朱。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,731評論 0贊 21
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽洒嗤。三九已至箫荡，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間渔隶，已是汗流浹背羔挡。一陣腳步聲響...
開封第一講書人閱讀 31,956評論 1贊 264
情欲美人皮
我被黑心中介騙來泰國打工洁奈，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人绞灼。一個月前我還...
沈念sama閱讀 46,286評論 2贊 360
代替公主和親
正文我出身青樓利术，卻偏偏與公主長得像，于是被迫代替她去往敵國和親低矮。傳聞我的和親對象是個殘疾皇子印叁，可洞房花燭夜當晚...
茶點故事閱讀 43,465評論 2贊 348

Python scrapy框架爬蟲demo

encoding=utf8

推薦閱讀更多精彩內(nèi)容