一個實現(xiàn)批量抓取淘女郎寫真圖片的爬蟲

淘女郎茉帅,也被很多人稱作“網(wǎng)絡(luò)模特”,就是專門給淘寶、天貓等線上商家拍攝圖片的平面模特苗踪。

我們將用Python3和Selenium Webdriver抓取每一個美眉的個人主頁內(nèi)的寫真圖片触机,把每一個美眉的寫真圖片按照文件夾保存到本地帚戳。

先說一下網(wǎng)頁爬取的一般步驟:

1.查看目標網(wǎng)站頁面的源代碼,找到需要爬取的內(nèi)容

2.用正則或其他如xpath/bs4的工具獲取爬取內(nèi)容

3.寫出完整的python代碼儡首,實現(xiàn)爬取過程

查看網(wǎng)站源碼片任,火狐瀏覽器右鍵-查看源代碼即可獲取


代碼編寫的關(guān)鍵步驟:

①需要用到的模塊

②解析目標網(wǎng)頁的 Html 源碼

bsObj = BeautifulSoup(driver.page_source, parser)

③用正則表達式獲取美女圖片

imagesUrl = re.findall('\/\/gtd\.alicdn\.com\/sns_logo.*\.jpg',driver.page_source)

④解析出個人主頁地址等信息

girlsUrl = bsObj.find_all("a",{"href":re.compile("\/\/.*\.htm\?(userId=)\d*")})

⑤獲取所有美女的圖片url

girlsHURL = [('http:' + i['href']) for i in girlsUrl]

⑥判斷路徑文件夾是否創(chuàng)建,如果未創(chuàng)建則創(chuàng)建文件夾保存圖片

defmkdir(path):

# 判斷路徑是否存在

isExists=os.path.exists(path)

# 判斷結(jié)果

ifnotisExists:

# 如果不存在則創(chuàng)建目錄

print(" ? ?[*]新建了文件夾",path)

# 創(chuàng)建目錄操作函數(shù)

os.makedirs(path)

else:

# 如果目錄存在則不創(chuàng)建蔬胯,并提示目錄已存在

print(' ? ?[+]文件夾',path,'已創(chuàng)建')

if__name__=='__main__':

ifnotos.path.exists(outputDir):

os.makedirs(outputDir)

main()

Python執(zhí)行文件后抓取的效果如下圖所示:

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末对供,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子氛濒,更是在濱河造成了極大的恐慌产场,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件泼橘,死亡現(xiàn)場離奇詭異涝动,居然都是意外死亡,警方通過查閱死者的電腦和手機炬灭,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進店門醋粟,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人重归,你說我怎么就攤上這事米愿。” “怎么了鼻吮?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵育苟,是天一觀的道長。 經(jīng)常有香客問我椎木,道長违柏,這世上最難降的妖魔是什么博烂? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮漱竖,結(jié)果婚禮上禽篱,老公的妹妹穿的比我還像新娘。我一直安慰自己馍惹,他們只是感情好躺率,可當我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著万矾,像睡著了一般悼吱。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上良狈,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天后添,我揣著相機與錄音,去河邊找鬼们颜。 笑死吕朵,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的窥突。 我是一名探鬼主播努溃,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼阻问!你這毒婦竟也來了梧税?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤称近,失蹤者是張志新(化名)和其女友劉穎第队,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體刨秆,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡凳谦,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了衡未。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片尸执。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖缓醋,靈堂內(nèi)的尸體忽然破棺而出如失,到底是詐尸還是另有隱情,我是刑警寧澤送粱,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布褪贵,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏脆丁。R本人自食惡果不足惜世舰,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望槽卫。 院中可真熱鬧冯乘,春花似錦、人聲如沸晒夹。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽丐怯。三九已至,卻和暖如春翔横,著一層夾襖步出監(jiān)牢的瞬間读跷,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工禾唁, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留效览,地道東北人。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓荡短,卻偏偏與公主長得像丐枉,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子掘托,可洞房花燭夜當晚...
    茶點故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內(nèi)容

  • ¥開啟¥ 【iAPP實現(xiàn)進入界面執(zhí)行逐一顯】 〖2017-08-25 15:22:14〗 《//首先開一個線程瘦锹,因...
    小菜c閱讀 6,358評論 0 17
  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 171,520評論 25 707
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn)闪盔,斷路器弯院,智...
    卡卡羅2017閱讀 134,600評論 18 139
  • 爬蟲初探-Scrapy Scrapy 資料 官方文檔永遠是首選,建議把 tutorial 完整的過一遍泪掀。 網(wǎng)址:h...
    廖少少閱讀 2,060評論 0 3
  • 許三觀是城里的工人听绳,在三觀爺爺生活的村子里流傳有一句話:“在這地方?jīng)]有賣過血的男人都娶不到女人……”且還有這么一條...
    涉水漁石閱讀 424評論 3 2