180606StartCrawl

記錄項目數(shù)據(jù)采集工作中遇到的問題吆你,改進(jìn)的過程廉赔。

django==1.1.16 python==3.5.3

數(shù)據(jù)來源有三,所以結(jié)構(gòu)設(shè)計大概是下面這種:


django中的app_spider布局

將各源的爬取方法單獨(dú)寫成app_spider下的GetData模塊杈抢,在spider.views中寫總的爬取類SpiderMethod神汹,按照數(shù)據(jù)庫設(shè)計分別從IP/DOMAIN/HASH進(jìn)行匯總爬取庆捺,期間調(diào)用GetData模塊的三個py文件中的爬取方法。注意模塊的import路徑屁魏。

寫完run滔以,順序爬取沒有問題。

之后加了協(xié)程池gevent_pool氓拼,效率提高但是出現(xiàn)了常見爬蟲限制你画。

一開始每次數(shù)據(jù)庫寫入或讀取抵碟、更新操作后都會close(),造成下一次使用受限撬即,所以試著run的時候注釋掉了立磁。感覺量小。沒障礙剥槐。

協(xié)程池加上唱歧,先每輪開了100個協(xié)程,mysql默認(rèn)最大連接數(shù)默認(rèn)100粒竖,不改也不關(guān)就各種開著連接颅崩,理所當(dāng)然的阻塞了。所以修改mysql的my.init文件蕊苗, 修改max_connections為1000(最高)沿后,重啟mysql服務(wù)(管理--服務(wù)或者mysql command line)。

協(xié)程池加上朽砰,先每輪開了100個協(xié)程尖滚,分別出現(xiàn)了api請求頻率和次數(shù)限制。順著這些問題去查了爬蟲常出現(xiàn)的問題:IP限制瞧柔、驗證碼漆弄、身份驗證,大多有解決或緩解了我的問題造锅。但我現(xiàn)在遇到的一個谷歌人機(jī)驗證撼唾,沒找到為何出現(xiàn)驗證,也沒找到能力之內(nèi)的解決方法哥蔚。

下面記錄解決常見限制的一些過程倒谷。在過程中嘗試改用scrapy重寫了一下整個爬蟲。(scrapy默認(rèn)多線程的糙箍,任務(wù)隊列中請求失敗的會一直一直請求渤愁,最后會記錄請求次數(shù),成功任務(wù)數(shù)等等深夯。)所以在scrapy中遇到的這些常見限制也一起說了猴伶。

django多協(xié)程爬蟲/scrapy框架爬蟲開ip代理、頭部請求構(gòu)造塌西、UA代理、模擬登陸(cookies)

scrapy開啟ip代理需要在中間件增加ProxyMiddleware類筝尾,說明代理請求規(guī)則捡需,代理可以放在設(shè)置文件setting.py中手動更新,也可以建立自己的ip代理池筹淫,或者建立自己的ip代理庫站辉,每次從庫中隨機(jī)挑選呢撞,同時配合ip的有效驗證篩選等(還沒做)。

UA代理饰剥,模擬瀏覽器也是一樣的套路殊霞。中間件添加RandomUserAgent類,說明UA獲取方法汰蓉,UA同樣可以放在setting.py中手動更新绷蹲。常見UA網(wǎng)上都有。

頭部請求構(gòu)造放在項目文件py中定義顾孽。直接用祝钢。

使用cookies模擬登陸用到一些包。同樣中間件添加CookiesMiddleware類若厚。然后就是cookies獲取的問題了拦英。有手動有自動(selenium)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末涝开,一起剝皮案震驚了整個濱河市关拒,隨后出現(xiàn)的幾起案子骑丸,更是在濱河造成了極大的恐慌,老刑警劉巖铃拇,帶你破解...
    沈念sama閱讀 206,378評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異肃晚,居然都是意外死亡锚贱,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,356評論 2 382
  • 文/潘曉璐 我一進(jìn)店門关串,熙熙樓的掌柜王于貴愁眉苦臉地迎上來拧廊,“玉大人,你說我怎么就攤上這事晋修“赡耄” “怎么了?”我有些...
    開封第一講書人閱讀 152,702評論 0 342
  • 文/不壞的土叔 我叫張陵墓卦,是天一觀的道長倦春。 經(jīng)常有香客問我,道長落剪,這世上最難降的妖魔是什么睁本? 我笑而不...
    開封第一講書人閱讀 55,259評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮忠怖,結(jié)果婚禮上呢堰,老公的妹妹穿的比我還像新娘。我一直安慰自己凡泣,他們只是感情好枉疼,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,263評論 5 371
  • 文/花漫 我一把揭開白布皮假。 她就那樣靜靜地躺著,像睡著了一般骂维。 火紅的嫁衣襯著肌膚如雪惹资。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,036評論 1 285
  • 那天航闺,我揣著相機(jī)與錄音褪测,去河邊找鬼。 笑死来颤,一個胖子當(dāng)著我的面吹牛汰扭,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播福铅,決...
    沈念sama閱讀 38,349評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼萝毛,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了滑黔?” 一聲冷哼從身側(cè)響起笆包,我...
    開封第一講書人閱讀 36,979評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎略荡,沒想到半個月后庵佣,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,469評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡汛兜,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,938評論 2 323
  • 正文 我和宋清朗相戀三年巴粪,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片粥谬。...
    茶點(diǎn)故事閱讀 38,059評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡肛根,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出漏策,到底是詐尸還是另有隱情派哲,我是刑警寧澤,帶...
    沈念sama閱讀 33,703評論 4 323
  • 正文 年R本政府宣布掺喻,位于F島的核電站芭届,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏感耙。R本人自食惡果不足惜褂乍,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,257評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望即硼。 院中可真熱鬧树叽,春花似錦、人聲如沸谦絮。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,262評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽层皱。三九已至性锭,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間叫胖,已是汗流浹背草冈。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留瓮增,地道東北人怎棱。 一個月前我還...
    沈念sama閱讀 45,501評論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像绷跑,于是被迫代替她去往敵國和親拳恋。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,792評論 2 345

推薦閱讀更多精彩內(nèi)容