Python爬取妹子硫眨,哇!太多了巢块,看不過來了礁阁,我一個G的硬盤要滿了

淘女郎爬蟲巧号,可動態(tài)抓取淘女郎的信息和照片。

分享之前我還是要推薦下我自己建的Python開發(fā)學習群:628979297姥闭,群里都是學Python開發(fā)的丹鸿,如果你正在學習Python ,小編歡迎你加入棚品,今天分享的這個案例已經(jīng)上傳到群文件靠欢,大家都是軟件開發(fā)黨,不定期分享干貨(只有Python軟件開發(fā)相關的)铜跑,包括我自己整理的一份2018最新的Python進階資料和高級開發(fā)教程门怪,歡迎進階中和進想深入Python的小伙伴。

需要額外安裝的第三方庫

requests

pip install requests

pymongo

pip install pymongo

模塊功能

TaoLady.py: 負責發(fā)送POST請求和抓取個人信息和圖片地址并保存到MongoDB中锅纺。

Download_Pic.py: 負責從MongoDB中抽取出淘女郎照片的網(wǎng)址掷空,并下載。

原理

淘女郎的網(wǎng)站使用了AJAX技術囤锉。通過在后臺與服務器進行少量數(shù)據(jù)交換坦弟,AJAX 可以使網(wǎng)頁實現(xiàn)異步更新。這意味著可以在不重新加載整個網(wǎng)頁的情況下嚼锄,對網(wǎng)頁的某部分進行更新减拭。這意味著通過直接抓取網(wǎng)頁源代碼然后分析出信息的方式是行不通的蔽豺,因為網(wǎng)站是動態(tài)加載的区丑,直接抓取的方式只能抓到網(wǎng)頁原始的源代碼,并不能抓到動態(tài)加載出的淘女郎的信息修陡。

對于這一類網(wǎng)站沧侥,一般有兩種抓取辦法:

利用selenium庫來模擬瀏覽器的用戶行為,讓服務器以為是真正的用戶在瀏覽網(wǎng)頁魄鸦,從而獲得完整的網(wǎng)頁源代碼

利用Chrome等瀏覽器自帶的分析工具宴杀,對網(wǎng)頁的Network進行監(jiān)控,分析出數(shù)據(jù)交換的API拾因,從而利用API抓取到數(shù)據(jù)交換的JSON數(shù)據(jù)旺罢,從而進行抓取。

一般來講绢记,第一種方法速度較慢扁达,并且運行時占用較多的系統(tǒng)資源,所以蠢熄,條件允許的情況下跪解,盡量使用第二種方法。

在Chrome瀏覽器中打開淘女郎的主頁https://mm.taobao.com/search_tstar_model.htm? 按F12切換到開發(fā)者模式签孔,在Network一欄選擇XHR可以看到目前沒有網(wǎng)絡活動叉讥,但是窘行,在網(wǎng)頁中按下一頁的時候,會出現(xiàn)一個POST活動图仓,當再次按下下一頁的時候罐盔,會再次出現(xiàn)一次該活動,所以透绩,可以斷定翘骂,數(shù)據(jù)交換使用的就是這個API。然后我們再來對比這兩次請求帚豪,在Headers框的FromData欄中碳竟,可以看到兩次請求的差別在currentPage的不同,一個是2狸臣,一個是3莹桅,這說明,要想得到第幾頁的數(shù)據(jù)烛亦,這個currentPage的值就是多少诈泼。所以我們就根據(jù)這個,來編寫請求煤禽,從而得到全部淘女郎信息的JSON文件铐达。

發(fā)送請求,得到JSON數(shù)據(jù)檬果,將其加工并轉化為Python的字典類型返回

連接到MongoDB瓮孙, 將信息保存

抽取出照片的網(wǎng)址,下載选脊,保存在pic文件夾中

爬完了杭抠,成果斐然啊

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市恳啥,隨后出現(xiàn)的幾起案子偏灿,更是在濱河造成了極大的恐慌,老刑警劉巖钝的,帶你破解...
    沈念sama閱讀 211,948評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件翁垂,死亡現(xiàn)場離奇詭異,居然都是意外死亡硝桩,警方通過查閱死者的電腦和手機沿猜,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,371評論 3 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來亿柑,“玉大人邢疙,你說我怎么就攤上這事。” “怎么了疟游?”我有些...
    開封第一講書人閱讀 157,490評論 0 348
  • 文/不壞的土叔 我叫張陵呼畸,是天一觀的道長。 經(jīng)常有香客問我颁虐,道長蛮原,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,521評論 1 284
  • 正文 為了忘掉前任另绩,我火速辦了婚禮儒陨,結果婚禮上,老公的妹妹穿的比我還像新娘笋籽。我一直安慰自己蹦漠,他們只是感情好,可當我...
    茶點故事閱讀 65,627評論 6 386
  • 文/花漫 我一把揭開白布车海。 她就那樣靜靜地躺著笛园,像睡著了一般。 火紅的嫁衣襯著肌膚如雪侍芝。 梳的紋絲不亂的頭發(fā)上研铆,一...
    開封第一講書人閱讀 49,842評論 1 290
  • 那天,我揣著相機與錄音州叠,去河邊找鬼棵红。 笑死,一個胖子當著我的面吹牛咧栗,可吹牛的內(nèi)容都是我干的逆甜。 我是一名探鬼主播,決...
    沈念sama閱讀 38,997評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼楼熄,長吁一口氣:“原來是場噩夢啊……” “哼忆绰!你這毒婦竟也來了浩峡?” 一聲冷哼從身側響起可岂,我...
    開封第一講書人閱讀 37,741評論 0 268
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎翰灾,沒想到半個月后缕粹,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,203評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡纸淮,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,534評論 2 327
  • 正文 我和宋清朗相戀三年平斩,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片咽块。...
    茶點故事閱讀 38,673評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡绘面,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情揭璃,我是刑警寧澤晚凿,帶...
    沈念sama閱讀 34,339評論 4 330
  • 正文 年R本政府宣布,位于F島的核電站瘦馍,受9級特大地震影響歼秽,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜情组,卻給世界環(huán)境...
    茶點故事閱讀 39,955評論 3 313
  • 文/蒙蒙 一燥筷、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧院崇,春花似錦肆氓、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,770評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至濒持,卻和暖如春键耕,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背柑营。 一陣腳步聲響...
    開封第一講書人閱讀 32,000評論 1 266
  • 我被黑心中介騙來泰國打工屈雄, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人官套。 一個月前我還...
    沈念sama閱讀 46,394評論 2 360
  • 正文 我出身青樓酒奶,卻偏偏與公主長得像,于是被迫代替她去往敵國和親奶赔。 傳聞我的和親對象是個殘疾皇子惋嚎,可洞房花燭夜當晚...
    茶點故事閱讀 43,562評論 2 349

推薦閱讀更多精彩內(nèi)容