python requests 爬小說

遇到了編碼錯誤真的很蛋疼窍霞，卡了2個小時才解決！
參考文獻1拯坟，參考文獻2但金，參考文獻3

網(wǎng)站示例一：

# -*- coding: utf-8 -*-

import requests, re
from bs4 import BeautifulSoup

content='http://www.8shuw.com/BookReader/24-24559.html'  #目錄頁
resp = requests.get(content)
resp.encoding = 'gbk'
soup=BeautifulSoup(resp.text,'lxml')
tbody = soup.find('table',{'border':'0','class':'acss'}).find('tbody')
trs = tbody.find_all('a',{'itemprop':'url','href': True})
trs = [tr for tr in trs if re.match(u'^第.*$',tr.text) != None]  #排除一些沒用的章節(jié)
#print('Count:',len(trs))
#print(trs[-1].text,'href =',trs[-1].get('href'))

with open ('novel.txt', 'w') as f:
    for chapter in reversed(trs):
        f.write(chapter.text+'\n')
        resp = requests.get(chapter.get('href'))
        resp.encoding = 'gbk'
        soup=BeautifulSoup(resp.text,'lxml')
        texts = soup.find('div',{'id':'readtext','class':'fontm'}).find_all('p')
        print(trs.index(chapter),chapter.text)
        for line in texts:
            #解決錯誤關鍵點，encode后再decode郁季，加上ignore參數(shù)忽略一些解碼錯誤
            f.write(re.sub(r'CNZZ_SLOT_RENDER\(\"\d{3,8}\"\)\;','',line.text.encode('gb18030').decode('gbk','ignore'))+'\n') 
    f.close()

網(wǎng)站示例二：

import requests, re
from bs4 import BeautifulSoup

content='http://www.piaotian.com/html/5/5896/'

resp = requests.get(content)
resp.encoding = 'gbk'
soup=BeautifulSoup(resp.text,'lxml')
tbody = soup.find('div',{'class':'centent'})
trs = tbody.find_all('a',{'href': True})
trs = [tr for tr in trs if re.match(u'^第.*$',tr.text) != None]
print('Count:',len(trs))
print(trs[1980].text,'href =',trs[1980].get('href'))

#print(re.sub(r'CNZZ_SLOT_RENDER\(\"\d{3,8}\"\)\;','',texts[1].text))
with open ('novel.txt', 'w') as f:
    for chapter in trs[1980:]: # 倒序目錄 reversed(trs):
        print(trs.index(chapter),chapter.text)
        f.write(chapter.text+'\n')  # 章節(jié)標題
        resp = requests.get(content + chapter.get('href'))
        #resp.encoding = 'gb18030'
        soup=BeautifulSoup(resp.text,'html.parser')  #這里解析器不同于前例
        texts = soup.find_all('br')
        #print(soup.get_text())
        for line in texts:
            if len(line.text)>0:
                f.write(line.text.encode('utf-8').decode('gbk','ignore')+'\n')
    f.close()

最后編輯于：2017.12.07 02:26:33

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末冷溃，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子梦裂，更是在濱河造成了極大的恐慌似枕，老刑警劉巖，帶你破解...
沈念sama閱讀 217,406評論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件年柠，死亡現(xiàn)場離奇詭異凿歼，居然都是意外死亡，警方通過查閱死者的電腦和手機冗恨，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,732評論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門答憔，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人掀抹，你說我怎么就攤上這事虐拓。” “怎么了傲武？”我有些...
開封第一講書人閱讀 163,711評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵蓉驹，是天一觀的道長。經(jīng)常有香客問我谱轨，道長戒幔，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,380評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任土童，我火速辦了婚禮诗茎，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己敢订，他們只是感情好王污，可當我...
茶點故事閱讀 67,432評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著楚午，像睡著了一般昭齐。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上矾柜，一...
開封第一講書人閱讀 51,301評論 1贊 301
城市分裂傳說
那天阱驾，我揣著相機與錄音，去河邊找鬼怪蔑。笑死里覆，一個胖子當著我的面吹牛，可吹牛的內容都是我干的缆瓣。我是一名探鬼主播喧枷，決...
沈念sama閱讀 40,145評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼弓坞！你這毒婦竟也來了隧甚？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 39,008評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤渡冻，失蹤者是張志新（化名）和其女友劉穎戚扳，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體菩帝，經(jīng)...
沈念sama閱讀 45,443評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡咖城，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 37,649評論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了呼奢。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片宜雀。...
茶點故事閱讀 39,795評論 1贊 347
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖握础，靈堂內的尸體忽然破棺而出辐董，到底是詐尸還是另有隱情，我是刑警寧澤禀综，帶...
沈念sama閱讀 35,501評論 5贊 345
?日本核電站爆炸內幕
正文年R本政府宣布简烘，位于F島的核電站，受9級特大地震影響定枷，放射性物質發(fā)生泄漏孤澎。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,119評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一欠窒、第九天我趴在偏房一處隱蔽的房頂上張望覆旭。院中可真熱鬧，春花似錦、人聲如沸型将。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,731評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽七兜。三九已至丸凭，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間腕铸，已是汗流浹背惜犀。一陣腳步聲響...
開封第一講書人閱讀 32,865評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留狠裹，地道東北人向拆。一個月前我還...
沈念sama閱讀 47,899評論 2贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像酪耳，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子刹缝，可洞房花燭夜當晚...
茶點故事閱讀 44,724評論 2贊 354

python requests 爬小說

網(wǎng)站示例一：

網(wǎng)站示例二：

推薦閱讀更多精彩內容