requests-html

requests-html是requests的升級版恢口，出自同一個作者之手。

requests-html是對requests,lxml,pyppeteer等的封裝，git地址

中文文檔手冊，剛發(fā)現(xiàn)的
安裝 pip install requests-html可能會報錯叁征，重復(fù)裝幾次
全面支持解析JavaScript
CSS 選擇器.
XPath 選擇器
自定義user-agent
自動追蹤重定向.
連接池與cookie持久化.

首先要求的版本必須是python3.6版本以上才能使用【assert（python斷言）】

源碼要求

1纳账、簡單使用 HTMLSession

from requests_html import HTMLSession #一般請求使用HTMLSession
session = HTMLSession()
# 對京東數(shù)據(jù)進行拿取
r = session.get('https://search.jd.com/Search?keyword=x1&enc=utf-8&wq=x1&pvid=add52cb63f7e4887b5ba29406a5756ba')
#直接通過css進行標簽定位
link_list = r.html.find('.gl-item')
for i in link_list:
    print(i.text)

如上逛薇，簡單的幾行代碼就可以操作出如下的結(jié)果

結(jié)果

2、javascript加載 render

render加載的過程中疏虫，需要下載chromium,這是利用pyppeteer使用chromium進行加載永罚，對網(wǎng)頁上后邊需要渲染的異步j(luò)s進行加載。由于不是國內(nèi)鏡像卧秘，下載看個人網(wǎng)絡(luò)環(huán)境呢袱。在公司直接下載成功的，這里不行了翅敌，就先不更新了

一直等待

更新（公司環(huán)境）

這是對簡書文章的拿刃吒！（我的個人主頁）
簡書的文章是明顯的ajax加載的異步請求,鼠標滑動進行多次請求

ajax

這里的代理是進行一次普通的請求，

from requests_html import HTMLSession
session = HTMLSession()
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'
}
res = session.get('http://www.reibang.com/u/01b1488fd0b8', headers=headers)
titles = res.html.find('a.title')
for i, title in enumerate(titles):
    print(f'{i + 1} [{title.text}](http://www.reibang.com{title.attrs["href"]})')

請求結(jié)果

通過render進行多次下滑加載

from requests_html import HTMLSession
session = HTMLSession()
r = session.get('http://www.reibang.com/u/01b1488fd0b8')
r.html.render(scrolldown=70, sleep=.2)  # scrolldown向下滑動的參數(shù)
titles = r.html.find('a.title')
for i, title in enumerate(titles):
    print(f'{i + 1} [{title.text}](http://www.reibang.com{title.attrs["href"]})')

結(jié)果

由上可見蚯涮，reqeusts_html對異步加載也具有良好的支持
它就是一個微型的框架治专，直接攜程并發(fā)操作，但是由于試用Chrome內(nèi)核進行加載js遭顶，所以說響應(yīng)比較慢點张峰，但是對于一些復(fù)雜的js來說據(jù)十分好用了。

2.1 render內(nèi)部方法（使用持續(xù)更新）

retries: 加載頁面失敗的次數(shù)
script: 頁面上需要執(zhí)行的JS腳本（可選）
wait: 加載頁面錢的等待時間（秒）棒旗，防止超時（可選）
scrolldown: 頁面向下滾動的次數(shù)
sleep: 在頁面初次渲染之后的等待時間
reload: 如果為假喘批，那么頁面不會從瀏覽器中加載，而是從內(nèi)存中加載
keep_page: 如果為真铣揉，允許你用r.html.page訪問頁面

3饶深、源碼解析（部分，主要是實力不允許啊逛拱，隨著技術(shù)見長會更新認知）

下邊是導(dǎo)入的包敌厘，通過導(dǎo)入的包進行了解用到的模塊

from fake_useragent import UserAgent 不用手動封裝請求頭了

import sys
import asyncio  
from urllib.parse import urlparse, urlunparse, urljoin
from concurrent.futures import ThreadPoolExecutor
from concurrent.futures._base import TimeoutError
from functools import partial
from typing import Set, Union, List, MutableMapping, Optional

import pyppeteer  #這是進行javascript加載的核心，無頭瀏覽器
import requests
from pyquery import PyQuery

from fake_useragent import UserAgent
from lxml.html.clean import Cleaner
import lxml
from lxml import etree
from lxml.html import HtmlElement
from lxml.html import tostring as lxml_html_tostring
from lxml.html.soupparser import fromstring as soup_parse
from parse import search as parse_search
from parse import findall, Result
from w3lib.encoding import html_to_unicode

BaseSession是整個框架的核心橘券，繼承了requests.Session保證cookie一直在鏈接的過程中

class BaseSession(requests.Session):
    """ A consumable session, for cookie persistence and connection pooling,
    amongst other things.（一個可消費會話额湘，用于cookie持久性和連接池卿吐，
    在其他的事情）
    """

    def __init__(self, mock_browser : bool = True, verify : bool = True,
                 browser_args : list = ['--no-sandbox']):
        super().__init__()

        # Mock a web browser's user agent.
        if mock_browser:
            self.headers['User-Agent'] = user_agent()

        self.hooks['response'].append(self.response_hook)
        self.verify = verify

        self.__browser_args = browser_args


    def response_hook(self, response, **kwargs) -> HTMLResponse:
        """ Change response enconding and replace it by a HTMLResponse. """
        if not response.encoding:
            response.encoding = DEFAULT_ENCODING
        return HTMLResponse._from_response(response, self)

    @property
    async def browser(self):
        if not hasattr(self, "_browser"):
            self._browser = await pyppeteer.launch(ignoreHTTPSErrors=not(self.verify), headless=True, args=self.__browser_args)

        return self._browser

HTMLSession 繼承了BaseSession，進行并發(fā)操作

class HTMLSession(BaseSession):

    def __init__(self, **kwargs):
        super(HTMLSession, self).__init__(**kwargs)

    @property
    def browser(self):
        if not hasattr(self, "_browser"):
            self.loop = asyncio.get_event_loop()
            if self.loop.is_running():
                raise RuntimeError("Cannot use HTMLSession within an existing event loop. Use AsyncHTMLSession instead.")
            self._browser = self.loop.run_until_complete(super().browser)
        return self._browser

    def close(self):
        """ If a browser was created close it first. """
        if hasattr(self, "_browser"):
            self.loop.run_until_complete(self._browser.close())
        super().close()

最后編輯于：2019.06.15 08:51:39

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末锋华，一起剝皮案震驚了整個濱河市嗡官，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌毯焕，老刑警劉巖衍腥，帶你破解...
沈念sama閱讀 216,591評論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異纳猫，居然都是意外死亡婆咸，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,448評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門芜辕，熙熙樓的掌柜王于貴愁眉苦臉地迎上來尚骄，“玉大人，你說我怎么就攤上這事侵续【笳桑” “怎么了？”我有些...
開封第一講書人閱讀 162,823評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵状蜗，是天一觀的道長需五。經(jīng)常有香客問我，道長轧坎，這世上最難降的妖魔是什么宏邮？我笑而不...
開封第一講書人閱讀 58,204評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮缸血，結(jié)果婚禮上蜜氨，老公的妹妹穿的比我還像新娘。我一直安慰自己属百，他們只是感情好记劝，可當我...
茶點故事閱讀 67,228評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著族扰，像睡著了一般厌丑。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上渔呵，一...
開封第一講書人閱讀 51,190評論 1贊 299
城市分裂傳說
那天怒竿，我揣著相機與錄音，去河邊找鬼扩氢。笑死耕驰，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的录豺。我是一名探鬼主播朦肘，決...
沈念sama閱讀 40,078評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼饭弓，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了媒抠？” 一聲冷哼從身側(cè)響起弟断，我...
開封第一講書人閱讀 38,923評論 0贊 274
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎趴生，沒想到半個月后阀趴，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,334評論 1贊 310
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡苍匆，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,550評論 2贊 333
?白月光啟示錄
正文我和宋清朗相戀三年刘急，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片浸踩。...
茶點故事閱讀 39,727評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡叔汁，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出民轴，到底是詐尸還是另有隱情攻柠，我是刑警寧澤，帶...
沈念sama閱讀 35,428評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布后裸，位于F島的核電站，受9級特大地震影響冒滩，放射性物質(zhì)發(fā)生泄漏微驶。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,022評論 3贊 326
男人毒藥：我在死后第九天來索命
文/蒙蒙一开睡、第九天我趴在偏房一處隱蔽的房頂上張望因苹。院中可真熱鬧，春花似錦篇恒、人聲如沸扶檐。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,672評論 0贊 22
一樁弒父案胁艰，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽款筑。三九已至，卻和暖如春腾么，著一層夾襖步出監(jiān)牢的瞬間奈梳，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,826評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工解虱，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留攘须，地道東北人。一個月前我還...
沈念sama閱讀 47,734評論 2贊 368
代替公主和親
正文我出身青樓殴泰，卻偏偏與公主長得像于宙，于是被迫代替她去往敵國和親浮驳。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 44,619評論 2贊 354