爬蟲scrapy框架學習(三)

? ? 3.示例2RedisSpider:

?? ??? ?? ? ? a.使用方法:它與示例1只有一個地方不同,就是將start_url存入redis中见坑,代碼如下:


?? ??? ?? ? ?b.總結:該示例很簡單捏检,只是將start_url存入redis_key中,就可實現(xiàn)分布式爬蟲熊楼,

?? ??? ??? ??? ??? ??? ???多臺電腦共同完成一個爬蟲能犯,數(shù)據(jù)不會重復

? ? 4.示例3RedisCrawlSpider:

?? ??? ??? ?? ? a.使用方法:也是使用redis_key方法,不過使用CrawlSpider組件請求url地址执泰,方便快捷:


十渡蜻、Crontab定時執(zhí)行爬蟲

十一、當當爬蟲實例

? ? 11.1目標:爬取當當網(wǎng)站的圖書數(shù)據(jù)

? ? 11.2實現(xiàn):

?? ??? ?? ? ?setting.py的配置如下:


十二顿苇、收獲總結感悟

?? ??? ???到此,關于Python爬蟲的知識點就學完了凑队,總結一下爬蟲的知識點漩氨,核心就是4個步驟遗增,

構建請求-》獲取響應-》提取數(shù)據(jù)-》保存數(shù)據(jù)

? ? ? ? ? 只要實現(xiàn)了這四步就是一個完整的爬蟲做修,其他所有的知識點都是為了實現(xiàn)這四步操作,

- 項目名字:scarpy爬蟲

- 項目介紹:

? ?爬了京東饰及,當當燎含,亞馬遜等網(wǎng)站,獲取網(wǎng)站上的圖書數(shù)據(jù)绘梦,每個月定時抓取圖書數(shù)據(jù)卸奉,使用該數(shù)據(jù)實現(xiàn)了圖書信息的匯總择卦,比對和篩選

- 開發(fā)環(huán)境

? ?linux+pycharm+requests+mongodb+redis+crontab+scrapy_redis+ scarpy + mysql+gevent+celery+threading

- 使用技術

??- 使用requests...把數(shù)據(jù)存儲在mongodb中

??- 使用crontab實現(xiàn)程序的定時啟動抓取

??- url地址的去重

????- 使用redis的集合敲长,把request對象的XXX字段通過sha1生成指紋祈噪,放入redis的集合中進行去重辑鲤,實現(xiàn)基于url地址的增量式爬蟲

????- 布隆過濾

??- 對數(shù)據(jù)的去重

????- 把數(shù)據(jù)的XXX字段通過sha1生成指紋,放入redis的集合中進行去重弛随,實現(xiàn)增量式爬蟲

??- 反扒

????- 代理ip

??????- 購買了第三的代理ip,組成代理ip池栓票,其中的ip沒兩天更新一次愕够,同時使用單獨的程序來檢查代理ip的可用

????- cookie

??????- 準備了XX個賬號,使用requests獲取賬號的對應的cookie坠狡,存儲在redis中,后續(xù)發(fā)送請求的時候隨機選擇cookie

??????- 使用selenium來進行模擬登陸遂跟,獲取cookie逃沿,保存在Redis中

????- 數(shù)據(jù)通過js生成

??????- 分析js,通過chrome瀏覽器定位js的位置幻锁,尋找js生成數(shù)據(jù)的方式

??????- 通過selenium來模擬頁面的加載內容感挥,獲取頁面動態(tài)加載后的數(shù)據(jù)

??- 提高爬蟲效率

????- 使用多線,線程池越败,協(xié)程触幼,celery來完成爬蟲

????- 使用scrapy框架來實現(xiàn)爬蟲,

??????- 不能斷點續(xù)爬究飞,請求過的url地址不能持久化

????????- 使用scrapy_redis

??????- 不能對數(shù)據(jù)進行去重

????????- 把數(shù)據(jù)的XXX字段通過sha1生成指紋置谦,放入redis的集合中進行去重,實現(xiàn)增量式爬蟲

????- scrapy_redis

??????- domz實現(xiàn)增量式亿傅,持久化的爬蟲

??????- 實現(xiàn)分布式爬蟲

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末媒峡,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子葵擎,更是在濱河造成了極大的恐慌签餐,老刑警劉巖氯檐,帶你破解...
    沈念sama閱讀 218,204評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異沃呢,居然都是意外死亡,警方通過查閱死者的電腦和手機黄锤,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,091評論 3 395
  • 文/潘曉璐 我一進店門负甸,熙熙樓的掌柜王于貴愁眉苦臉地迎上來呻待,“玉大人奏篙,你說我怎么就攤上這事》蜗。” “怎么了?”我有些...
    開封第一講書人閱讀 164,548評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長改备。 經常有香客問我悬钳,道長,這世上最難降的妖魔是什么母剥? 我笑而不...
    開封第一講書人閱讀 58,657評論 1 293
  • 正文 為了忘掉前任朵耕,我火速辦了婚禮伪阶,結果婚禮上栅贴,老公的妹妹穿的比我還像新娘檐薯。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 67,689評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著勇皇,像睡著了一般。 火紅的嫁衣襯著肌膚如雪兄淫。 梳的紋絲不亂的頭發(fā)上慨丐,一...
    開封第一講書人閱讀 51,554評論 1 305
  • 那天晌端,我揣著相機與錄音伶唯,去河邊找鬼乳幸。 笑死,一個胖子當著我的面吹牛瓶埋,可吹牛的內容都是我干的。 我是一名探鬼主播晕粪,決...
    沈念sama閱讀 40,302評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼尚氛,長吁一口氣:“原來是場噩夢啊……” “哼载迄!你這毒婦竟也來了?” 一聲冷哼從身側響起捏卓,我...
    開封第一講書人閱讀 39,216評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎稿械,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體梯捕,經...
    沈念sama閱讀 45,661評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,851評論 3 336
  • 正文 我和宋清朗相戀三年哩都,在試婚紗的時候發(fā)現(xiàn)自己被綠了判哥。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,977評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖惨撇,靈堂內的尸體忽然破棺而出魁衙,到底是詐尸還是另有隱情纤房,我是刑警寧澤,帶...
    沈念sama閱讀 35,697評論 5 347
  • 正文 年R本政府宣布棚蓄,位于F島的核電站,受9級特大地震影響,放射性物質發(fā)生泄漏河闰。R本人自食惡果不足惜髓考,卻給世界環(huán)境...
    茶點故事閱讀 41,306評論 3 330
  • 文/蒙蒙 一榜贴、第九天 我趴在偏房一處隱蔽的房頂上張望秆麸。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,898評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春啦撮,著一層夾襖步出監(jiān)牢的瞬間劫乱,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,019評論 1 270
  • 我被黑心中介騙來泰國打工疲吸, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人蹂喻。 一個月前我還...
    沈念sama閱讀 48,138評論 3 370
  • 正文 我出身青樓窃祝,卻偏偏與公主長得像探膊,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,927評論 2 355

推薦閱讀更多精彩內容