Python scrapy框架爬蟲demo

encoding=utf8

import scrapy
import time
from scrapyLuntan.items import ScrapyluntanItem
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
lis = []
class LunTan(scrapy.Spider):
# 這個爬蟲的識別名稱毕箍,必須是唯一的挂疆,在不同的爬蟲必須定義不同的名字
name='luntan'
# 是搜索的域名范圍髓考,也就是爬蟲的約束區(qū)域炼鞠,
# 規(guī)定爬蟲只爬取這個域名下的網(wǎng)頁茵休,不存在的URL會被忽略嘲碱。
allowd_domains = ['http://dzh2.mop.com/']
#爬取的URL元祖 / 列表煌茬。爬蟲從這里開始抓取數(shù)據(jù),
# 所以,第一次下載的數(shù)據(jù)將會從這些urls開始急但。其他子URL將會從這些起始URL中繼承性生成澎媒。
start_urls = ('http://www.mop.com/',)
#解析的方法,每個初始URL完成下載后將被調(diào)用羊始,
# 調(diào)用的時候傳入從每一個URL傳回的Response對象來作為唯一參數(shù)
def parse(self, response):
li_list = response.xpath("http://li[@class='mop-item-a']")
print len(li_list)
for i in li_list:
a_href = i.xpath("./a/@href")[0].extract()
a_href = a_href.replace('http://dzh2.mop.com/dzh_index.html#rlink=','')
print a_href
# 發(fā)送新的url請求加入待爬隊列旱幼,并調(diào)用回調(diào)函數(shù) self.parse
yield scrapy.Request(a_href, meta={'a_href': a_href},callback=self.res_detail)

def res_detail(self, response):
    item = ScrapyluntanItem()
    detail_url = response.meta['a_href']
    print response.meta['a_href']
    if 'http://dzh2.mop.com/' in detail_url:
        text = response.xpath("http://div[@class='post-date fl mr15']/span/text()")[0].extract()
    else:
        text = response.xpath("http://div[@class='mr20 inlineBlock']/span/text()")[0].extract()

    text = text.strip()
    print text
    if '年' in text:
        print 88888
        text = text.replace('年','-')
        text = text.replace('月','-')
        text = text.replace('日','')

    timeArray = time.strptime(text,"%Y-%m-%d %H:%M:%S")
    item['time'] = int(time.mktime(timeArray))
    open('./time.txt','a+').write(str(item['time'])+"\r\n")
    yield item

    # print timeStamp
最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市突委,隨后出現(xiàn)的幾起案子柏卤,更是在濱河造成了極大的恐慌,老刑警劉巖匀油,帶你破解...
    沈念sama閱讀 211,123評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件缘缚,死亡現(xiàn)場離奇詭異,居然都是意外死亡敌蚜,警方通過查閱死者的電腦和手機桥滨,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,031評論 2 384
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來弛车,“玉大人齐媒,你說我怎么就攤上這事》柞耍” “怎么了喻括?”我有些...
    開封第一講書人閱讀 156,723評論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長贫奠。 經(jīng)常有香客問我唬血,道長,這世上最難降的妖魔是什么唤崭? 我笑而不...
    開封第一講書人閱讀 56,357評論 1 283
  • 正文 為了忘掉前任拷恨,我火速辦了婚禮,結果婚禮上谢肾,老公的妹妹穿的比我還像新娘腕侄。我一直安慰自己,他們只是感情好芦疏,可當我...
    茶點故事閱讀 65,412評論 5 384
  • 文/花漫 我一把揭開白布冕杠。 她就那樣靜靜地躺著,像睡著了一般眯分。 火紅的嫁衣襯著肌膚如雪拌汇。 梳的紋絲不亂的頭發(fā)上柒桑,一...
    開封第一講書人閱讀 49,760評論 1 289
  • 那天弊决,我揣著相機與錄音,去河邊找鬼。 笑死飘诗,一個胖子當著我的面吹牛与倡,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播昆稿,決...
    沈念sama閱讀 38,904評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼纺座,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了溉潭?” 一聲冷哼從身側響起净响,我...
    開封第一講書人閱讀 37,672評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎喳瓣,沒想到半個月后馋贤,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,118評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡畏陕,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,456評論 2 325
  • 正文 我和宋清朗相戀三年配乓,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片惠毁。...
    茶點故事閱讀 38,599評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡犹芹,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出鞠绰,到底是詐尸還是另有隱情腰埂,我是刑警寧澤,帶...
    沈念sama閱讀 34,264評論 4 328
  • 正文 年R本政府宣布洞豁,位于F島的核電站盐固,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏丈挟。R本人自食惡果不足惜刁卜,卻給世界環(huán)境...
    茶點故事閱讀 39,857評論 3 312
  • 文/蒙蒙 一吊说、第九天 我趴在偏房一處隱蔽的房頂上張望肆氓。 院中可真熱鬧,春花似錦鳖藕、人聲如沸例朱。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,731評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽洒嗤。三九已至箫荡,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間渔隶,已是汗流浹背羔挡。 一陣腳步聲響...
    開封第一講書人閱讀 31,956評論 1 264
  • 我被黑心中介騙來泰國打工洁奈, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人绞灼。 一個月前我還...
    沈念sama閱讀 46,286評論 2 360
  • 正文 我出身青樓利术,卻偏偏與公主長得像,于是被迫代替她去往敵國和親低矮。 傳聞我的和親對象是個殘疾皇子印叁,可洞房花燭夜當晚...
    茶點故事閱讀 43,465評論 2 348

推薦閱讀更多精彩內(nèi)容

  • scrapy學習筆記(有示例版) 我的博客 scrapy學習筆記1.使用scrapy1.1創(chuàng)建工程1.2創(chuàng)建爬蟲模...
    陳思煜閱讀 12,668評論 4 46
  • Scrapy,Python開發(fā)的一個快速,高層次的屏幕抓取和web抓取框架军掂,用于抓取web站點并從頁面中提取結構化...
    Evtion閱讀 5,839評論 12 18
  • 可以看我的博客 lmwen.top 或者訂閱我的公眾號 簡介有稍微接觸python的人就會知道轮蜕,python中...
    ayuLiao閱讀 3,097評論 1 5
  • 請點擊藍字淑女薔薇免費關注!感恩感謝! 今天正月初七,是“人日”和“立春”同一天,可謂雙喜臨門! 傳說人類始祖女媧...
    徐淑英柔情婉淑女薔薇閱讀 387評論 2 1
  • 大家好,我是新手寶媽蝗锥,剛剛才找到這個平臺肠虽,很高興認識你,大家.我沒啥說玛追,只想和你們大家税课,隨便的拉拉家常,聊一聊痊剖,人...
    yuhuashi閱讀 1,105評論 0 1