Python 爬蟲實戰(zhàn)(二):使用 requests-html

Python 爬蟲實戰(zhàn)(一):使用 requests 和 BeautifulSoup斩芭,我們使用了 requests 做網(wǎng)絡(luò)請求,拿到網(wǎng)頁數(shù)據(jù)再用 BeautifulSoup 解析,就在前不久闽寡,requests 作者 kennethreitz 出了一個新庫 requests-html吠冤,Pythonic HTML Parsing for Humans?,它可以用于解析 HTML 文檔的秽梅。requests-html 是基于現(xiàn)有的框架 PyQuery抹蚀、Requests、lxml 等庫進行了二次封裝企垦,更加方便開發(fā)者調(diào)用环壤。

安裝

Mac:

pip3 install requests-html

Windows:

pip install requests-html

實例

image

代碼擼多了,讓我們看會妹紙竹观,爬的網(wǎng)站我選的是 http://www.win4000.com/zt/xinggan.html 镐捧,打開網(wǎng)站潜索,觀察到這是個列表,圖片是縮略圖懂酱,要想保存圖片到本地竹习,當(dāng)然需要高清大圖,因此得進入列表詳情列牺,進一步解析整陌,完整代碼如下:

from requests_html import HTMLSession
import requests
import time

session = HTMLSession()


# 解析圖片列表
def get_girl_list():
    # 返回一個 response 對象
    response = session.get('http://www.win4000.com/zt/xinggan.html')  # 單位秒數(shù)

    content = response.html.find('div.Left_bar', first=True)

    li_list = content.find('li')

    for li in li_list:
        url = li.find('a', first=True).attrs['href']
        get_girl_detail(url)


# 解析圖片詳細(xì)
def get_girl_detail(url):
    # 返回一個 response 對象
    response = session.get(url)  # 單位秒數(shù)
    content = response.html.find('div.scroll-img-cont', first=True)
    li_list = content.find('li')
    for li in li_list:
        img_url = li.find('img', first=True).attrs['data-original']
        img_url = img_url[0:img_url.find('_')] + '.jpg'
        print(img_url + '.jpg')
        save_image(img_url)


# 保持大圖
def save_image(img_url):
    img_response = requests.get(img_url)
    t = int(round(time.time() * 1000))  # 毫秒級時間戳
    f = open('/Users/wuxiaolong/Desktop/Girl/%d.jpg' % t, 'ab')  # 存儲圖片,多媒體文件需要參數(shù)b(二進制文件)
    f.write(img_response.content)  # 多媒體存儲content
    f.close()


if __name__ == '__main__':
    get_girl_list()

代碼就這么多瞎领,是不是感覺很簡單啊泌辫。

說明:

1、requests-html 與 BeautifulSoup 不同九默,可以直接通過標(biāo)簽來 find震放,一般如下:
標(biāo)簽
標(biāo)簽.someClass
標(biāo)簽#someID
標(biāo)簽[target=_blank]
參數(shù) first 是 True,表示只返回 Element 找到的第一個驼修,更多使用:http://html.python-requests.org/ 殿遂;

2、這里保存本地路徑 /Users/wuxiaolong/Desktop/Girl/我寫死了乙各,需要讀者改成自己的墨礁,如果直接是文件名,保存路徑將是項目目錄下耳峦。

遺留問題

示例所爬網(wǎng)站是分頁的恩静,沒有做,可以定時循環(huán)來爬妹紙哦蹲坷,有興趣的讀者自己玩下驶乾。

參考

requests-html

今天用了一下Requests-HTML庫(Python爬蟲)

公眾號

我的公眾號:吳小龍同學(xué),歡迎交流~


image
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末冠句,一起剝皮案震驚了整個濱河市轻掩,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌懦底,老刑警劉巖唇牧,帶你破解...
    沈念sama閱讀 212,542評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異聚唐,居然都是意外死亡丐重,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,596評論 3 385
  • 文/潘曉璐 我一進店門杆查,熙熙樓的掌柜王于貴愁眉苦臉地迎上來扮惦,“玉大人,你說我怎么就攤上這事亲桦⊙旅郏” “怎么了浊仆?”我有些...
    開封第一講書人閱讀 158,021評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長豫领。 經(jīng)常有香客問我抡柿,道長,這世上最難降的妖魔是什么等恐? 我笑而不...
    開封第一講書人閱讀 56,682評論 1 284
  • 正文 為了忘掉前任洲劣,我火速辦了婚禮,結(jié)果婚禮上课蔬,老公的妹妹穿的比我還像新娘囱稽。我一直安慰自己,他們只是感情好二跋,可當(dāng)我...
    茶點故事閱讀 65,792評論 6 386
  • 文/花漫 我一把揭開白布战惊。 她就那樣靜靜地躺著,像睡著了一般同欠。 火紅的嫁衣襯著肌膚如雪样傍。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,985評論 1 291
  • 那天铺遂,我揣著相機與錄音,去河邊找鬼茎刚。 笑死襟锐,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的膛锭。 我是一名探鬼主播粮坞,決...
    沈念sama閱讀 39,107評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼初狰!你這毒婦竟也來了莫杈?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,845評論 0 268
  • 序言:老撾萬榮一對情侶失蹤奢入,失蹤者是張志新(化名)和其女友劉穎筝闹,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體腥光,經(jīng)...
    沈念sama閱讀 44,299評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡关顷,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,612評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了武福。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片议双。...
    茶點故事閱讀 38,747評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖捉片,靈堂內(nèi)的尸體忽然破棺而出平痰,到底是詐尸還是另有隱情汞舱,我是刑警寧澤,帶...
    沈念sama閱讀 34,441評論 4 333
  • 正文 年R本政府宣布宗雇,位于F島的核電站兵拢,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏逾礁。R本人自食惡果不足惜说铃,卻給世界環(huán)境...
    茶點故事閱讀 40,072評論 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望嘹履。 院中可真熱鬧腻扇,春花似錦、人聲如沸砾嫉。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,828評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽焕刮。三九已至舶沿,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間配并,已是汗流浹背括荡。 一陣腳步聲響...
    開封第一講書人閱讀 32,069評論 1 267
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留溉旋,地道東北人畸冲。 一個月前我還...
    沈念sama閱讀 46,545評論 2 362
  • 正文 我出身青樓,卻偏偏與公主長得像观腊,于是被迫代替她去往敵國和親邑闲。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,658評論 2 350

推薦閱讀更多精彩內(nèi)容

  • 聲明:本文講解的實戰(zhàn)內(nèi)容梧油,均僅用于學(xué)習(xí)交流苫耸,請勿用于任何商業(yè)用途! 一儡陨、前言 強烈建議:請在電腦的陪同下褪子,閱讀本文...
    Bruce_Szh閱讀 12,685評論 6 28
  • # Python 資源大全中文版 我想很多程序員應(yīng)該記得 GitHub 上有一個 Awesome - XXX 系列...
    aimaile閱讀 26,454評論 6 428
  • # Python 資源大全中文版 我想很多程序員應(yīng)該記得 GitHub 上有一個 Awesome - XXX 系列...
    小邁克閱讀 2,965評論 1 3
  • 穿過交錯復(fù)雜的街道,在一家已經(jīng)破敗的整形醫(yī)院附近的小路上集中著很多酒吧迄委,“明日憂傷”便是其中一家褐筛。走入其中,你會發(fā)...
    鬼冢閱讀 177評論 0 0
  • 有人說 酒窩是羈絆 是前世的記號 來苦尋今世的戀人 而有人說 酒窩是一盞酒杯 盛滿了馥郁的佳釀 讓人心蕩漾 我卻覺...
    大貴貴丿閱讀 501評論 2 2