爬蟲scrapy框架學習（三）

? ? 3.示例2RedisSpider：

?? ??? ?? ? ? a.使用方法：它與示例1只有一個地方不同，就是將start_url存入redis中见坑，代碼如下：

?? ??? ?? ? ?b.總結：該示例很簡單捏检，只是將start_url存入redis_key中，就可實現(xiàn)分布式爬蟲熊楼，

?? ??? ??? ??? ??? ??? ???多臺電腦共同完成一個爬蟲能犯，數(shù)據(jù)不會重復

? ? 4.示例3RedisCrawlSpider：

?? ??? ??? ?? ? a.使用方法：也是使用redis_key方法，不過使用CrawlSpider組件請求url地址执泰，方便快捷：

十渡蜻、Crontab定時執(zhí)行爬蟲

十一、當當爬蟲實例

? ? 11.1目標：爬取當當網(wǎng)站的圖書數(shù)據(jù)

? ? 11.2實現(xiàn)：

?? ??? ?? ? ?setting.py的配置如下：

十二顿苇、收獲總結感悟

?? ??? ???到此，關于Python爬蟲的知識點就學完了凑队，總結一下爬蟲的知識點漩氨，核心就是4個步驟遗增，

構建請求-》獲取響應-》提取數(shù)據(jù)-》保存數(shù)據(jù)

? ? ? ? ? 只要實現(xiàn)了這四步就是一個完整的爬蟲做修，其他所有的知識點都是為了實現(xiàn)這四步操作，

- 項目名字：scarpy爬蟲

- 項目介紹：

? ?爬了京東饰及，當當燎含，亞馬遜等網(wǎng)站，獲取網(wǎng)站上的圖書數(shù)據(jù)绘梦，每個月定時抓取圖書數(shù)據(jù)卸奉，使用該數(shù)據(jù)實現(xiàn)了圖書信息的匯總择卦，比對和篩選

- 開發(fā)環(huán)境

? ?linux+pycharm+requests+mongodb+redis+crontab+scrapy_redis+ scarpy + mysql+gevent+celery+threading

- 使用技術

??- 使用requests...把數(shù)據(jù)存儲在mongodb中

??- 使用crontab實現(xiàn)程序的定時啟動抓取

??- url地址的去重

????- 使用redis的集合敲长，把request對象的XXX字段通過sha1生成指紋祈噪，放入redis的集合中進行去重辑鲤，實現(xiàn)基于url地址的增量式爬蟲

????- 布隆過濾

??- 對數(shù)據(jù)的去重

????- 把數(shù)據(jù)的XXX字段通過sha1生成指紋，放入redis的集合中進行去重弛随，實現(xiàn)增量式爬蟲

??- 反扒

????- 代理ip

??????- 購買了第三的代理ip，組成代理ip池栓票，其中的ip沒兩天更新一次愕够，同時使用單獨的程序來檢查代理ip的可用

????- cookie

??????- 準備了XX個賬號，使用requests獲取賬號的對應的cookie坠狡，存儲在redis中，后續(xù)發(fā)送請求的時候隨機選擇cookie

??????- 使用selenium來進行模擬登陸遂跟，獲取cookie逃沿，保存在Redis中

????- 數(shù)據(jù)通過js生成

??????- 分析js，通過chrome瀏覽器定位js的位置幻锁，尋找js生成數(shù)據(jù)的方式

??????- 通過selenium來模擬頁面的加載內容感挥，獲取頁面動態(tài)加載后的數(shù)據(jù)

??- 提高爬蟲效率

????- 使用多線，線程池越败，協(xié)程触幼，celery來完成爬蟲

????- 使用scrapy框架來實現(xiàn)爬蟲，

??????- 不能斷點續(xù)爬究飞，請求過的url地址不能持久化

????????- 使用scrapy_redis

??????- 不能對數(shù)據(jù)進行去重

????????- 把數(shù)據(jù)的XXX字段通過sha1生成指紋置谦，放入redis的集合中進行去重，實現(xiàn)增量式爬蟲

????- scrapy_redis

??????- domz實現(xiàn)增量式亿傅，持久化的爬蟲

??????- 實現(xiàn)分布式爬蟲

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末媒峡，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子葵擎，更是在濱河造成了極大的恐慌签餐，老刑警劉巖氯檐，帶你破解...
沈念sama閱讀 218,204評論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異沃呢，居然都是意外死亡，警方通過查閱死者的電腦和手機黄锤，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,091評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門负甸，熙熙樓的掌柜王于貴愁眉苦臉地迎上來呻待，“玉大人奏篙，你說我怎么就攤上這事》蜗。” “怎么了？”我有些...
開封第一講書人閱讀 164,548評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長改备。經常有香客問我悬钳，道長，這世上最難降的妖魔是什么母剥？我笑而不...
開封第一講書人閱讀 58,657評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任朵耕，我火速辦了婚禮伪阶，結果婚禮上栅贴，老公的妹妹穿的比我還像新娘檐薯。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 67,689評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著勇皇，像睡著了一般。火紅的嫁衣襯著肌膚如雪兄淫。梳的紋絲不亂的頭發(fā)上慨丐，一...
開封第一講書人閱讀 51,554評論 1贊 305
城市分裂傳說
那天晌端，我揣著相機與錄音伶唯，去河邊找鬼乳幸。笑死，一個胖子當著我的面吹牛瓶埋，可吹牛的內容都是我干的。我是一名探鬼主播晕粪，決...
沈念sama閱讀 40,302評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼尚氛，長吁一口氣：“原來是場噩夢啊……” “哼载迄！你這毒婦竟也來了？” 一聲冷哼從身側響起捏卓，我...
開封第一講書人閱讀 39,216評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎稿械，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體梯捕，經...
沈念sama閱讀 45,661評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 37,851評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年哩都，在試婚紗的時候發(fā)現(xiàn)自己被綠了判哥。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 39,977評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖惨撇，靈堂內的尸體忽然破棺而出魁衙，到底是詐尸還是另有隱情纤房，我是刑警寧澤，帶...
沈念sama閱讀 35,697評論 5贊 347
?日本核電站爆炸內幕
正文年R本政府宣布棚蓄，位于F島的核電站，受9級特大地震影響，放射性物質發(fā)生泄漏河闰。R本人自食惡果不足惜髓考，卻給世界環(huán)境...
茶點故事閱讀 41,306評論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一榜贴、第九天我趴在偏房一處隱蔽的房頂上張望秆麸。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,898評論 0贊 22
一樁弒父案纺涤，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春啦撮，著一層夾襖步出監(jiān)牢的瞬間劫乱，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,019評論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工疲吸，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人蹂喻。一個月前我還...
沈念sama閱讀 48,138評論 3贊 370
代替公主和親
正文我出身青樓窃祝，卻偏偏與公主長得像探膊，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 44,927評論 2贊 355

爬蟲scrapy框架學習（三）

推薦閱讀更多精彩內容