Python爬取妹子硫眨，哇！太多了巢块，看不過來了礁阁，我一個G的硬盤要滿了

淘女郎爬蟲巧号，可動態(tài)抓取淘女郎的信息和照片。

分享之前我還是要推薦下我自己建的Python開發(fā)學習群：628979297姥闭，群里都是學Python開發(fā)的丹鸿，如果你正在學習Python ，小編歡迎你加入棚品，今天分享的這個案例已經(jīng)上傳到群文件靠欢，大家都是軟件開發(fā)黨，不定期分享干貨（只有Python軟件開發(fā)相關的）铜跑，包括我自己整理的一份2018最新的Python進階資料和高級開發(fā)教程门怪，歡迎進階中和進想深入Python的小伙伴。

需要額外安裝的第三方庫

requests

pip install requests

pymongo

pip install pymongo

模塊功能

TaoLady.py：負責發(fā)送POST請求和抓取個人信息和圖片地址并保存到MongoDB中锅纺。

Download_Pic.py：負責從MongoDB中抽取出淘女郎照片的網(wǎng)址掷空，并下載。

原理

淘女郎的網(wǎng)站使用了AJAX技術囤锉。通過在后臺與服務器進行少量數(shù)據(jù)交換坦弟，AJAX 可以使網(wǎng)頁實現(xiàn)異步更新。這意味著可以在不重新加載整個網(wǎng)頁的情況下嚼锄，對網(wǎng)頁的某部分進行更新减拭。這意味著通過直接抓取網(wǎng)頁源代碼然后分析出信息的方式是行不通的蔽豺，因為網(wǎng)站是動態(tài)加載的区丑，直接抓取的方式只能抓到網(wǎng)頁原始的源代碼，并不能抓到動態(tài)加載出的淘女郎的信息修陡。

對于這一類網(wǎng)站沧侥，一般有兩種抓取辦法：

利用selenium庫來模擬瀏覽器的用戶行為，讓服務器以為是真正的用戶在瀏覽網(wǎng)頁魄鸦，從而獲得完整的網(wǎng)頁源代碼

利用Chrome等瀏覽器自帶的分析工具宴杀，對網(wǎng)頁的Network進行監(jiān)控，分析出數(shù)據(jù)交換的API拾因，從而利用API抓取到數(shù)據(jù)交換的JSON數(shù)據(jù)旺罢，從而進行抓取。

一般來講绢记，第一種方法速度較慢扁达，并且運行時占用較多的系統(tǒng)資源，所以蠢熄，條件允許的情況下跪解，盡量使用第二種方法。

在Chrome瀏覽器中打開淘女郎的主頁https://mm.taobao.com/search_tstar_model.htm? 按F12切換到開發(fā)者模式签孔，在Network一欄選擇XHR可以看到目前沒有網(wǎng)絡活動叉讥，但是窘行，在網(wǎng)頁中按下一頁的時候，會出現(xiàn)一個POST活動图仓，當再次按下下一頁的時候罐盔，會再次出現(xiàn)一次該活動，所以透绩，可以斷定翘骂，數(shù)據(jù)交換使用的就是這個API。然后我們再來對比這兩次請求帚豪，在Headers框的FromData欄中碳竟，可以看到兩次請求的差別在currentPage的不同，一個是2狸臣，一個是3莹桅，這說明，要想得到第幾頁的數(shù)據(jù)烛亦，這個currentPage的值就是多少诈泼。所以我們就根據(jù)這個，來編寫請求煤禽，從而得到全部淘女郎信息的JSON文件铐达。

發(fā)送請求，得到JSON數(shù)據(jù)檬果，將其加工并轉化為Python的字典類型返回

連接到MongoDB瓮孙，將信息保存

抽取出照片的網(wǎng)址，下載选脊，保存在pic文件夾中

爬完了杭抠，成果斐然啊

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市恳啥，隨后出現(xiàn)的幾起案子偏灿，更是在濱河造成了極大的恐慌，老刑警劉巖钝的，帶你破解...
沈念sama閱讀 211,948評論 6贊 492
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件翁垂，死亡現(xiàn)場離奇詭異，居然都是意外死亡硝桩，警方通過查閱死者的電腦和手機沿猜，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,371評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來亿柑，“玉大人邢疙，你說我怎么就攤上這事。” “怎么了疟游？”我有些...
開封第一講書人閱讀 157,490評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵呼畸，是天一觀的道長。經(jīng)常有香客問我颁虐，道長蛮原，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 56,521評論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任另绩，我火速辦了婚禮儒陨，結果婚禮上，老公的妹妹穿的比我還像新娘笋籽。我一直安慰自己蹦漠，他們只是感情好，可當我...
茶點故事閱讀 65,627評論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布车海。她就那樣靜靜地躺著笛园，像睡著了一般。火紅的嫁衣襯著肌膚如雪侍芝。梳的紋絲不亂的頭發(fā)上研铆，一...
開封第一講書人閱讀 49,842評論 1贊 290
城市分裂傳說
那天，我揣著相機與錄音州叠，去河邊找鬼棵红。笑死，一個胖子當著我的面吹牛咧栗，可吹牛的內(nèi)容都是我干的逆甜。我是一名探鬼主播，決...
沈念sama閱讀 38,997評論 3贊 408
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼楼熄，長吁一口氣：“原來是場噩夢啊……” “哼忆绰！你這毒婦竟也來了浩峡？” 一聲冷哼從身側響起可岂，我...
開封第一講書人閱讀 37,741評論 0贊 268
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎翰灾，沒想到半個月后缕粹，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 44,203評論 1贊 303
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡纸淮，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,534評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年平斩，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片咽块。...
茶點故事閱讀 38,673評論 1贊 341
活死人
序言：一個原本活蹦亂跳的男人離奇死亡绘面，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情揭璃，我是刑警寧澤晚凿，帶...
沈念sama閱讀 34,339評論 4贊 330
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站瘦馍，受9級特大地震影響歼秽，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜情组，卻給世界環(huán)境...
茶點故事閱讀 39,955評論 3贊 313
男人毒藥：我在死后第九天來索命
文/蒙蒙一燥筷、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧院崇，春花似錦肆氓、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,770評論 0贊 21
一樁弒父案做院，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至濒持，卻和暖如春键耕，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背柑营。一陣腳步聲響...
開封第一講書人閱讀 32,000評論 1贊 266
情欲美人皮
我被黑心中介騙來泰國打工屈雄，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人官套。一個月前我還...
沈念sama閱讀 46,394評論 2贊 360
代替公主和親
正文我出身青樓酒奶，卻偏偏與公主長得像，于是被迫代替她去往敵國和親奶赔。傳聞我的和親對象是個殘疾皇子惋嚎，可洞房花燭夜當晚...
茶點故事閱讀 43,562評論 2贊 349

Python爬取妹子饲化，哇莽鸭！太多了，看不過來了吃靠，我一個G的硬盤要滿了

Python爬取妹子硫眨，哇！太多了巢块，看不過來了礁阁，我一個G的硬盤要滿了

推薦閱讀更多精彩內(nèi)容