requests-html

requests-html是requests的升級版恢口,出自同一個作者之手。

requests-html是對requests,lxml,pyppeteer等的封裝,git地址

中文文檔手冊,剛發(fā)現(xiàn)的
安裝 pip install requests-html可能會報錯叁征,重復(fù)裝幾次
全面支持解析JavaScript
CSS 選擇器.
XPath 選擇器
自定義user-agent
自動追蹤重定向.
連接池與cookie持久化.

首先要求的版本必須是python3.6版本以上才能使用【assert(python斷言)】
源碼要求

1纳账、簡單使用 HTMLSession

from requests_html import HTMLSession #一般請求使用HTMLSession
session = HTMLSession()
# 對京東數(shù)據(jù)進行拿取
r = session.get('https://search.jd.com/Search?keyword=x1&enc=utf-8&wq=x1&pvid=add52cb63f7e4887b5ba29406a5756ba')
#直接通過css進行標簽定位
link_list = r.html.find('.gl-item')
for i in link_list:
    print(i.text)

如上逛薇,簡單的幾行代碼就可以操作出如下的結(jié)果


結(jié)果

2、javascript加載 render

render加載的過程中疏虫,需要下載chromium,這是利用pyppeteer使用chromium進行加載永罚,對網(wǎng)頁上后邊需要渲染的異步j(luò)s進行加載。由于不是國內(nèi)鏡像卧秘,下載看個人網(wǎng)絡(luò)環(huán)境呢袱。在公司直接下載成功的,這里不行了翅敌,就先不更新了


一直等待

更新 (公司環(huán)境)

這是對簡書文章的拿刃吒!(我的個人主頁
簡書的文章是明顯的ajax加載的異步請求,鼠標滑動進行多次請求

ajax

這里的代理是進行一次普通的請求,

from requests_html import HTMLSession
session = HTMLSession()
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'
}
res = session.get('http://www.reibang.com/u/01b1488fd0b8', headers=headers)
titles = res.html.find('a.title')
for i, title in enumerate(titles):
    print(f'{i + 1} [{title.text}](http://www.reibang.com{title.attrs["href"]})')
請求結(jié)果

通過render進行多次下滑加載

from requests_html import HTMLSession
session = HTMLSession()
r = session.get('http://www.reibang.com/u/01b1488fd0b8')
r.html.render(scrolldown=70, sleep=.2)  # scrolldown向下滑動的參數(shù)
titles = r.html.find('a.title')
for i, title in enumerate(titles):
    print(f'{i + 1} [{title.text}](http://www.reibang.com{title.attrs["href"]})')

結(jié)果

由上可見蚯涮,reqeusts_html對異步加載也具有良好的支持
它就是一個微型的框架治专,直接攜程并發(fā)操作,但是由于試用Chrome內(nèi)核進行加載js遭顶,所以說響應(yīng)比較慢點张峰,但是對于一些復(fù)雜的js來說據(jù)十分好用了。

2.1 render內(nèi)部方法(使用持續(xù)更新)

retries: 加載頁面失敗的次數(shù)
script: 頁面上需要執(zhí)行的JS腳本(可選)
wait: 加載頁面錢的等待時間(秒)棒旗,防止超時(可選)
scrolldown: 頁面向下滾動的次數(shù)
sleep: 在頁面初次渲染之后的等待時間
reload: 如果為假喘批,那么頁面不會從瀏覽器中加載,而是從內(nèi)存中加載
keep_page: 如果為真铣揉,允許你用r.html.page訪問頁面

3饶深、源碼解析(部分,主要是實力不允許啊逛拱,隨著技術(shù)見長會更新認知)

下邊是導(dǎo)入的包敌厘,通過導(dǎo)入的包進行了解用到的模塊

from fake_useragent import UserAgent 不用手動封裝請求頭了

import sys
import asyncio  
from urllib.parse import urlparse, urlunparse, urljoin
from concurrent.futures import ThreadPoolExecutor
from concurrent.futures._base import TimeoutError
from functools import partial
from typing import Set, Union, List, MutableMapping, Optional

import pyppeteer  #這是進行javascript加載的核心,無頭瀏覽器
import requests
from pyquery import PyQuery

from fake_useragent import UserAgent
from lxml.html.clean import Cleaner
import lxml
from lxml import etree
from lxml.html import HtmlElement
from lxml.html import tostring as lxml_html_tostring
from lxml.html.soupparser import fromstring as soup_parse
from parse import search as parse_search
from parse import findall, Result
from w3lib.encoding import html_to_unicode

BaseSession是整個框架的核心橘券,繼承了requests.Session保證cookie一直在鏈接的過程中

class BaseSession(requests.Session):
    """ A consumable session, for cookie persistence and connection pooling,
    amongst other things.(一個可消費會話额湘,用于cookie持久性和連接池卿吐,
    在其他的事情)
    """

    def __init__(self, mock_browser : bool = True, verify : bool = True,
                 browser_args : list = ['--no-sandbox']):
        super().__init__()

        # Mock a web browser's user agent.
        if mock_browser:
            self.headers['User-Agent'] = user_agent()

        self.hooks['response'].append(self.response_hook)
        self.verify = verify

        self.__browser_args = browser_args


    def response_hook(self, response, **kwargs) -> HTMLResponse:
        """ Change response enconding and replace it by a HTMLResponse. """
        if not response.encoding:
            response.encoding = DEFAULT_ENCODING
        return HTMLResponse._from_response(response, self)

    @property
    async def browser(self):
        if not hasattr(self, "_browser"):
            self._browser = await pyppeteer.launch(ignoreHTTPSErrors=not(self.verify), headless=True, args=self.__browser_args)

        return self._browser

HTMLSession 繼承了BaseSession,進行并發(fā)操作

class HTMLSession(BaseSession):

    def __init__(self, **kwargs):
        super(HTMLSession, self).__init__(**kwargs)

    @property
    def browser(self):
        if not hasattr(self, "_browser"):
            self.loop = asyncio.get_event_loop()
            if self.loop.is_running():
                raise RuntimeError("Cannot use HTMLSession within an existing event loop. Use AsyncHTMLSession instead.")
            self._browser = self.loop.run_until_complete(super().browser)
        return self._browser

    def close(self):
        """ If a browser was created close it first. """
        if hasattr(self, "_browser"):
            self.loop.run_until_complete(self._browser.close())
        super().close()
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末锋华,一起剝皮案震驚了整個濱河市嗡官,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌毯焕,老刑警劉巖衍腥,帶你破解...
    沈念sama閱讀 216,591評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異纳猫,居然都是意外死亡婆咸,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,448評論 3 392
  • 文/潘曉璐 我一進店門芜辕,熙熙樓的掌柜王于貴愁眉苦臉地迎上來尚骄,“玉大人,你說我怎么就攤上這事侵续【笳桑” “怎么了?”我有些...
    開封第一講書人閱讀 162,823評論 0 353
  • 文/不壞的土叔 我叫張陵状蜗,是天一觀的道長需五。 經(jīng)常有香客問我,道長轧坎,這世上最難降的妖魔是什么宏邮? 我笑而不...
    開封第一講書人閱讀 58,204評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮缸血,結(jié)果婚禮上蜜氨,老公的妹妹穿的比我還像新娘。我一直安慰自己属百,他們只是感情好记劝,可當我...
    茶點故事閱讀 67,228評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著族扰,像睡著了一般厌丑。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上渔呵,一...
    開封第一講書人閱讀 51,190評論 1 299
  • 那天怒竿,我揣著相機與錄音,去河邊找鬼扩氢。 笑死耕驰,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的录豺。 我是一名探鬼主播朦肘,決...
    沈念sama閱讀 40,078評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼饭弓,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了媒抠?” 一聲冷哼從身側(cè)響起弟断,我...
    開封第一講書人閱讀 38,923評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎趴生,沒想到半個月后阀趴,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,334評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡苍匆,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,550評論 2 333
  • 正文 我和宋清朗相戀三年刘急,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片浸踩。...
    茶點故事閱讀 39,727評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡叔汁,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出民轴,到底是詐尸還是另有隱情攻柠,我是刑警寧澤,帶...
    沈念sama閱讀 35,428評論 5 343
  • 正文 年R本政府宣布后裸,位于F島的核電站,受9級特大地震影響冒滩,放射性物質(zhì)發(fā)生泄漏微驶。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,022評論 3 326
  • 文/蒙蒙 一开睡、第九天 我趴在偏房一處隱蔽的房頂上張望因苹。 院中可真熱鬧,春花似錦篇恒、人聲如沸扶檐。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,672評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽款筑。三九已至,卻和暖如春腾么,著一層夾襖步出監(jiān)牢的瞬間奈梳,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,826評論 1 269
  • 我被黑心中介騙來泰國打工解虱, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留攘须,地道東北人。 一個月前我還...
    沈念sama閱讀 47,734評論 2 368
  • 正文 我出身青樓殴泰,卻偏偏與公主長得像于宙,于是被迫代替她去往敵國和親浮驳。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,619評論 2 354

推薦閱讀更多精彩內(nèi)容