python下載小說

????最近正好在看這本小說,網上廣告屬實多了點杆勇,而且好多存在斷章的情況贪壳,所以自己去網上下載下來電腦或者手機上看最實際了

1. 首頁

????對沒錯,就是這本都市小說《道德天書》蚜退,從首頁還是很容易能夠獲取到章節(jié)鏈接的

image.png

2. 內容頁

????內容頁面有點小陷阱闰靴,雖然看著簡單,但是實際將頁面的內容打印出來是殘缺的钻注,他只構建了部分文本內容蚂且,實際的內容是需要自己抓包獲取,不信的話可以打印頁面內容看看,是不完整的

image.png

3. 抓包

這里規(guī)則還是比較簡單的幅恋,很容易就找到了對應的數(shù)據包

image.png

我們選擇數(shù)據包的headers進入里面顯示的真實鏈接就可以看到具體的內容了

image.png

4. 數(shù)據獲取

???? 所有的數(shù)據來源我們都知道了杏死,就著手開始建設了,首先從首頁遍歷所有章節(jié)的頁面鏈接捆交,從每個章節(jié)的頁面中獲取到標題和內容淑翼,沒錯,這里的內容需要去數(shù)據包中獲取零渐,仔細觀察會發(fā)現(xiàn)數(shù)據包的鏈接恰巧就是網頁主頁鏈接+章節(jié)鏈接的后兩項窒舟,所以能夠很輕易的組合出來,后面的內容無非是獲取诵盼,寫入惠豺。

  • 這里因為內容中還是存在廣告银还,所以用replace將它剔除了,其他的就是xpath解析洁墙,寫入了
#!/usr/bin/env python
# -*- coding:utf-8 -*-
'''
@author: maya
@software: Pycharm
@file: tqdm.py
@time: 2019/8/20 14:08
@desc:
'''
import requests
from lxml import etree

headers = {
    'cookie': 'Hm_lvt_33b927fed41089db72f5d741701b24f2=1566285504; SL_GWPT_Show_Hide_tmp=1; SL_wptGlobTipTmp=1; Hm_lpvt_33b927fed41089db72f5d741701b24f2=1566285551',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36',
    'upgrade-insecure-request': '1',
    'referer': 'https://www.rzlib.net/b/73/73530/',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3'
}

def get_html(url):
    return requests.get(url, headers=headers)\
        .text.replace('如果您覺得《周睿道德天書》還不錯的話蛹疯,請粘貼以下網址分享給你的QQ、'
                      '微信或微博好友热监,謝謝支持捺弦!', '').replace('( 本書網址:https://www.'
                                                   'rzlib.net/b/73/73530/ )', '')


def get_data(url):
    html = etree.HTML(get_html(url))
    title = html.xpath('//h1/text()')[0].replace('.', '_')
    content_url = get_url(url)
    content_html = etree.HTML(get_html(content_url)).xpath('//body//text()')
    content = ["".join(data.split()) for data in content_html]
    return title, content


def get_url(url):
    return "https://www.rzlib.net/b/txtt5552/" + url.split('/')[-2] + "/" + url.split('/')[-1]


def write_data(url):
    title, content = get_data(url)
    with open('books/' + title + '.txt', 'w', encoding='utf-8') as f:
        f.write(title.replace('_', '. ') + '\n')
        for data in content:
            if data != "":
                f.write('  ' + data + '\n')
    with open('books/books.txt', 'a', encoding='utf-8') as p:
        p.write(title.replace('_', '. ') + '\n')
        for data in content:
            if data != "":
                p.write('  ' + data + '\n')
        p.write('\n')



def get_total(index_utl):
    html = etree.HTML(get_html(index_utl))
    urls = html.xpath('//div[@class="ListChapter"][2]/ul/li/a/@href')
    for url in urls:
        write_data("https://www.rzlib.net" + url)
        print("第{}章已完成寫入".format(urls.index(url) + 1))


if __name__ == '__main__':
    get_total("https://www.rzlib.net/b/73/73530/")

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市孝扛,隨后出現(xiàn)的幾起案子列吼,更是在濱河造成了極大的恐慌,老刑警劉巖苦始,帶你破解...
    沈念sama閱讀 221,695評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件寞钥,死亡現(xiàn)場離奇詭異,居然都是意外死亡陌选,警方通過查閱死者的電腦和手機理郑,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,569評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來咨油,“玉大人您炉,你說我怎么就攤上這事∫鄣纾” “怎么了赚爵?”我有些...
    開封第一講書人閱讀 168,130評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長宴霸。 經常有香客問我囱晴,道長膏蚓,這世上最難降的妖魔是什么瓢谢? 我笑而不...
    開封第一講書人閱讀 59,648評論 1 297
  • 正文 為了忘掉前任,我火速辦了婚禮驮瞧,結果婚禮上氓扛,老公的妹妹穿的比我還像新娘。我一直安慰自己论笔,他們只是感情好采郎,可當我...
    茶點故事閱讀 68,655評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著狂魔,像睡著了一般蒜埋。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上最楷,一...
    開封第一講書人閱讀 52,268評論 1 309
  • 那天整份,我揣著相機與錄音待错,去河邊找鬼。 笑死烈评,一個胖子當著我的面吹牛火俄,可吹牛的內容都是我干的。 我是一名探鬼主播讲冠,決...
    沈念sama閱讀 40,835評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼瓜客,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了竿开?” 一聲冷哼從身側響起谱仪,我...
    開封第一講書人閱讀 39,740評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎否彩,沒想到半個月后芽卿,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 46,286評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡胳搞,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,375評論 3 340
  • 正文 我和宋清朗相戀三年卸例,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片肌毅。...
    茶點故事閱讀 40,505評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡筷转,死狀恐怖,靈堂內的尸體忽然破棺而出悬而,到底是詐尸還是另有隱情呜舒,我是刑警寧澤,帶...
    沈念sama閱讀 36,185評論 5 350
  • 正文 年R本政府宣布笨奠,位于F島的核電站袭蝗,受9級特大地震影響,放射性物質發(fā)生泄漏般婆。R本人自食惡果不足惜到腥,卻給世界環(huán)境...
    茶點故事閱讀 41,873評論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望蔚袍。 院中可真熱鬧乡范,春花似錦、人聲如沸啤咽。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,357評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽宇整。三九已至瓶佳,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間鳞青,已是汗流浹背霸饲。 一陣腳步聲響...
    開封第一講書人閱讀 33,466評論 1 272
  • 我被黑心中介騙來泰國打工索赏, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人贴彼。 一個月前我還...
    沈念sama閱讀 48,921評論 3 376
  • 正文 我出身青樓潜腻,卻偏偏與公主長得像,于是被迫代替她去往敵國和親器仗。 傳聞我的和親對象是個殘疾皇子融涣,可洞房花燭夜當晚...
    茶點故事閱讀 45,515評論 2 359

推薦閱讀更多精彩內容

  • 使用了requests,下載的筆趣閣的小說 # -*- coding: utf-8 -*- import requ...
    Blue_Color閱讀 554評論 0 0
  • 下載新筆趣閣小說 采用了requests庫精钮,代碼修改一下文件存放的文章威鹿,以及添加一下小說目錄就可以使用.代碼百度云
    知識學者閱讀 1,074評論 4 0
  • 簡介 用簡單的話來定義tcpdump,就是:dump the traffic on a network轨香,根據使用者...
    JasonShi6306421閱讀 1,244評論 0 1
  • 簡介 用簡單的話來定義tcpdump忽你,就是:dump the traffic on a network,根據使用者...
    保川閱讀 5,961評論 1 13
  • 我不知你去了哪里 文/古爾邦 我從未見過的爺爺 聽說無常于我的父親還在襁褓中的歲月 我不知你去了哪里 我小學的老師...
    古爾邦閱讀 601評論 3 29