python下載小說

????最近正好在看這本小說，網上廣告屬實多了點杆勇，而且好多存在斷章的情況贪壳，所以自己去網上下載下來電腦或者手機上看最實際了

1. 首頁

????對沒錯，就是這本都市小說《道德天書》蚜退，從首頁還是很容易能夠獲取到章節(jié)鏈接的

image.png

2. 內容頁

????內容頁面有點小陷阱闰靴，雖然看著簡單，但是實際將頁面的內容打印出來是殘缺的钻注，他只構建了部分文本內容蚂且，實際的內容是需要自己抓包獲取,不信的話可以打印頁面內容看看，是不完整的

image.png

3. 抓包

這里規(guī)則還是比較簡單的幅恋，很容易就找到了對應的數(shù)據包

image.png

我們選擇數(shù)據包的headers進入里面顯示的真實鏈接就可以看到具體的內容了

image.png

4. 數(shù)據獲取

???? 所有的數(shù)據來源我們都知道了杏死，就著手開始建設了，首先從首頁遍歷所有章節(jié)的頁面鏈接捆交，從每個章節(jié)的頁面中獲取到標題和內容淑翼，沒錯，這里的內容需要去數(shù)據包中獲取零渐，仔細觀察會發(fā)現(xiàn)數(shù)據包的鏈接恰巧就是網頁主頁鏈接+章節(jié)鏈接的后兩項窒舟，所以能夠很輕易的組合出來，后面的內容無非是獲取诵盼，寫入惠豺。

這里因為內容中還是存在廣告银还，所以用replace將它剔除了，其他的就是xpath解析洁墙，寫入了

#!/usr/bin/env python
# -*- coding：utf-8 -*-
'''
@author: maya
@software: Pycharm
@file: tqdm.py
@time: 2019/8/20 14:08
@desc:
'''
import requests
from lxml import etree

headers = {
    'cookie': 'Hm_lvt_33b927fed41089db72f5d741701b24f2=1566285504; SL_GWPT_Show_Hide_tmp=1; SL_wptGlobTipTmp=1; Hm_lpvt_33b927fed41089db72f5d741701b24f2=1566285551',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36',
    'upgrade-insecure-request': '1',
    'referer': 'https://www.rzlib.net/b/73/73530/',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3'
}

def get_html(url):
    return requests.get(url, headers=headers)\
        .text.replace('如果您覺得《周睿道德天書》還不錯的話蛹疯，請粘貼以下網址分享給你的QQ、'
                      '微信或微博好友热监，謝謝支持捺弦！', '').replace('（ 本書網址：https://www.'
                                                   'rzlib.net/b/73/73530/ ）', '')


def get_data(url):
    html = etree.HTML(get_html(url))
    title = html.xpath('//h1/text()')[0].replace('.', '_')
    content_url = get_url(url)
    content_html = etree.HTML(get_html(content_url)).xpath('//body//text()')
    content = ["".join(data.split()) for data in content_html]
    return title, content


def get_url(url):
    return "https://www.rzlib.net/b/txtt5552/" + url.split('/')[-2] + "/" + url.split('/')[-1]


def write_data(url):
    title, content = get_data(url)
    with open('books/' + title + '.txt', 'w', encoding='utf-8') as f:
        f.write(title.replace('_', '. ') + '\n')
        for data in content:
            if data != "":
                f.write('  ' + data + '\n')
    with open('books/books.txt', 'a', encoding='utf-8') as p:
        p.write(title.replace('_', '. ') + '\n')
        for data in content:
            if data != "":
                p.write('  ' + data + '\n')
        p.write('\n')



def get_total(index_utl):
    html = etree.HTML(get_html(index_utl))
    urls = html.xpath('//div[@class="ListChapter"][2]/ul/li/a/@href')
    for url in urls:
        write_data("https://www.rzlib.net" + url)
        print("第{}章已完成寫入".format(urls.index(url) + 1))


if __name__ == '__main__':
    get_total("https://www.rzlib.net/b/73/73530/")

代碼參考Github

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市孝扛，隨后出現(xiàn)的幾起案子列吼，更是在濱河造成了極大的恐慌，老刑警劉巖苦始，帶你破解...
沈念sama閱讀 221,695評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件寞钥，死亡現(xiàn)場離奇詭異，居然都是意外死亡陌选，警方通過查閱死者的電腦和手機理郑，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,569評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來咨油，“玉大人您炉，你說我怎么就攤上這事∫鄣纾” “怎么了赚爵？”我有些...
開封第一講書人閱讀 168,130評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長宴霸。經常有香客問我囱晴，道長膏蚓，這世上最難降的妖魔是什么瓢谢？我笑而不...
開封第一講書人閱讀 59,648評論 1贊 297
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮驮瞧，結果婚禮上氓扛，老公的妹妹穿的比我還像新娘。我一直安慰自己论笔，他們只是感情好采郎，可當我...
茶點故事閱讀 68,655評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著狂魔，像睡著了一般蒜埋。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上最楷，一...
開封第一講書人閱讀 52,268評論 1贊 309
城市分裂傳說
那天整份，我揣著相機與錄音待错，去河邊找鬼。笑死烈评，一個胖子當著我的面吹牛火俄，可吹牛的內容都是我干的。我是一名探鬼主播讲冠，決...
沈念sama閱讀 40,835評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼瓜客，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了竿开？” 一聲冷哼從身側響起谱仪，我...
開封第一講書人閱讀 39,740評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎否彩，沒想到半個月后芽卿，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經...
沈念sama閱讀 46,286評論 1贊 318
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡胳搞，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 38,375評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年卸例，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片肌毅。...
茶點故事閱讀 40,505評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡筷转，死狀恐怖，靈堂內的尸體忽然破棺而出悬而，到底是詐尸還是另有隱情呜舒，我是刑警寧澤，帶...
沈念sama閱讀 36,185評論 5贊 350
?日本核電站爆炸內幕
正文年R本政府宣布笨奠，位于F島的核電站袭蝗，受9級特大地震影響，放射性物質發(fā)生泄漏般婆。R本人自食惡果不足惜到腥，卻給世界環(huán)境...
茶點故事閱讀 41,873評論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望蔚袍。院中可真熱鬧乡范，春花似錦、人聲如沸啤咽。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,357評論 0贊 24
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽宇整。三九已至瓶佳，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間鳞青，已是汗流浹背霸饲。一陣腳步聲響...
開封第一講書人閱讀 33,466評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工索赏，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人贴彼。一個月前我還...
沈念sama閱讀 48,921評論 3贊 376
代替公主和親
正文我出身青樓潜腻，卻偏偏與公主長得像，于是被迫代替她去往敵國和親器仗。傳聞我的和親對象是個殘疾皇子融涣，可洞房花燭夜當晚...
茶點故事閱讀 45,515評論 2贊 359

python下載小說

1. 首頁

2. 內容頁

3. 抓包

4. 數(shù)據獲取

推薦閱讀更多精彩內容