Python爬取花瓣網美女圖片(動態(tài)網站)

摘要: 利用python, requests, xpath爬取花瓣網美女標簽全部圖片

# -*- coding: utf-8 -*-

'''
python 2.7.12
'''

import requests
from parsel import Selector
import time
import re, random, os


def scraw_pin_ids():

    pin_ids = []
    pin_id = '1068018182'

    flag = True
    while flag:
        try:
            url = "http://huaban.com/favorite/beauty/"
            headers1 = {
            'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36',
            'Accept':'application/json',
            'X-Request':'JSON',
            'X-Requested-With':'XMLHttpRequest',
            }

            params = {
                'j0l4lymf':'',
                'max':pin_id,
                'limit':'20',
                'wfl':'1',
            }

            z1 = requests.get(url, params=params, headers=headers1)

            if z1.json()['pins']:
                for i in z1.json()['pins']:
                    pin_ids.append(i['pin_id'])
                    pin_id = pin_ids[-1]
                    print i['pin_id']
                    # with open("pin_ids.txt",'ab') as f:
                    #   f.write(str(i['pin_id'])+"\n")
                    #   f.close()
                    time.sleep(0.001)
            else:
                flag = False
                return set(pin_ids)
        except:
            continue

def scraw_urls(pin_ids):

    urls = []

    urlss = ['http://huaban.com/pins/' + str(i) +'/' for i in pin_ids]
    for url in urlss:
        try:
            headers = {
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
            }

            z3 = requests.get(url, headers=headers)

            text = z3.text

            pattern = re.compile('"key":"(.*?)"', re.S)
            items = re.findall(pattern, text)

            urls.extend(items)
            print items
            print '============================================================================================================'
        except:
            continue
    return set(urls)

def download(urls):
    headers1 = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
    }
    n = 1
    urls = set(urls)
    for url in urls:
        try:
            if not os.path.exists(os.path.join(file_path, "huaban")):
                os.makedirs(os.path.join(file_path, "huaban"))
            os.chdir(file_path + '\\' + "huaban")
            try:
                url = 'http://img.hb.aicdn.com/' + url
                r = requests.get(url, headers=headers1)
                if len(r.content)>40000:
                    with open(str(n)+".jpg", 'wb') as f:
                        f.write(r.content)
                        f.close()
                        print u"第" + str(n) + u"張圖片下載成功"
                        n+=1
                        # time.sleep(3)
            except:
                continue
        except:
            continue

# 圖片存儲路徑
file_path = 'E:\selfprogress\programming\project\huaban'
pin_ids = scraw_pin_ids()
urls = scraw_urls(pin_ids)
download(urls)
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末奸例,一起剝皮案震驚了整個濱河市捏境,隨后出現的幾起案子摇肌,更是在濱河造成了極大的恐慌忍啤,老刑警劉巖帚呼,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現場離奇詭異忘伞,居然都是意外死亡库糠,警方通過查閱死者的電腦和手機,發(fā)現死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進店門剥纷,熙熙樓的掌柜王于貴愁眉苦臉地迎上來痹籍,“玉大人,你說我怎么就攤上這事晦鞋《撞” “怎么了?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵鳖宾,是天一觀的道長吼砂。 經常有香客問我,道長鼎文,這世上最難降的妖魔是什么渔肩? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮拇惋,結果婚禮上周偎,老公的妹妹穿的比我還像新娘。我一直安慰自己撑帖,他們只是感情好蓉坎,可當我...
    茶點故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著胡嘿,像睡著了一般蛉艾。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上衷敌,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天勿侯,我揣著相機與錄音,去河邊找鬼缴罗。 笑死助琐,一個胖子當著我的面吹牛,可吹牛的內容都是我干的面氓。 我是一名探鬼主播兵钮,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼蛆橡,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了掘譬?” 一聲冷哼從身側響起泰演,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎屁药,沒想到半個月后粥血,有當地人在樹林里發(fā)現了一具尸體,經...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡酿箭,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年复亏,在試婚紗的時候發(fā)現自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片缭嫡。...
    茶點故事閱讀 40,030評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡缔御,死狀恐怖,靈堂內的尸體忽然破棺而出妇蛀,到底是詐尸還是另有隱情耕突,我是刑警寧澤,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布评架,位于F島的核電站眷茁,受9級特大地震影響,放射性物質發(fā)生泄漏纵诞。R本人自食惡果不足惜上祈,卻給世界環(huán)境...
    茶點故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望浙芙。 院中可真熱鬧登刺,春花似錦、人聲如沸嗡呼。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽南窗。三九已至揍很,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間万伤,已是汗流浹背窒悔。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留壕翩,地道東北人蛉迹。 一個月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓傅寡,卻偏偏與公主長得像放妈,于是被迫代替她去往敵國和親北救。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,976評論 2 355

推薦閱讀更多精彩內容

  • 聲明:本文講解的實戰(zhàn)內容芜抒,均僅用于學習交流珍策,請勿用于任何商業(yè)用途! 一宅倒、前言 強烈建議:請在電腦的陪同下攘宙,閱讀本文...
    Bruce_Szh閱讀 12,707評論 6 28
  • 長這么大,還是第一次來上海拐迁。之前沒有一定要來的理由蹭劈,既沒有充足的消費能力,也無特別想逛的景點线召。因事第一次來铺韧,竟也喜...
    榕樹下的童話閱讀 273評論 0 0
  • A1:簡述之前的目標是如何定的,最后的結果是怎么樣缓淹? ①每個月定好的月度銷售目標到了月底都不能完成哈打。 ②因為沒有如...
    4aa227d4084b閱讀 107評論 1 0
  • 【師北辰一塊聽聽寫作課】 上周剛剛寫了寫作宣言——007踐行宣言,本以為自己對寫作動機或者說寫作意義想的比較清楚了...
    封兄胖胖熊007閱讀 315評論 0 1