python requests 爬小說

遇到了編碼錯誤真的很蛋疼窍霞,卡了2個小時才解決!
參考文獻1拯坟,參考文獻2但金,參考文獻3

網(wǎng)站示例一:
# -*- coding: utf-8 -*-

import requests, re
from bs4 import BeautifulSoup

content='http://www.8shuw.com/BookReader/24-24559.html'  #目錄頁
resp = requests.get(content)
resp.encoding = 'gbk'
soup=BeautifulSoup(resp.text,'lxml')
tbody = soup.find('table',{'border':'0','class':'acss'}).find('tbody')
trs = tbody.find_all('a',{'itemprop':'url','href': True})
trs = [tr for tr in trs if re.match(u'^第.*$',tr.text) != None]  #排除一些沒用的章節(jié)
#print('Count:',len(trs))
#print(trs[-1].text,'href =',trs[-1].get('href'))

with open ('novel.txt', 'w') as f:
    for chapter in reversed(trs):
        f.write(chapter.text+'\n')
        resp = requests.get(chapter.get('href'))
        resp.encoding = 'gbk'
        soup=BeautifulSoup(resp.text,'lxml')
        texts = soup.find('div',{'id':'readtext','class':'fontm'}).find_all('p')
        print(trs.index(chapter),chapter.text)
        for line in texts:
            #解決錯誤關鍵點,encode后再decode郁季,加上ignore參數(shù)忽略一些解碼錯誤
            f.write(re.sub(r'CNZZ_SLOT_RENDER\(\"\d{3,8}\"\)\;','',line.text.encode('gb18030').decode('gbk','ignore'))+'\n') 
    f.close()
網(wǎng)站示例二:
import requests, re
from bs4 import BeautifulSoup

content='http://www.piaotian.com/html/5/5896/'

resp = requests.get(content)
resp.encoding = 'gbk'
soup=BeautifulSoup(resp.text,'lxml')
tbody = soup.find('div',{'class':'centent'})
trs = tbody.find_all('a',{'href': True})
trs = [tr for tr in trs if re.match(u'^第.*$',tr.text) != None]
print('Count:',len(trs))
print(trs[1980].text,'href =',trs[1980].get('href'))

#print(re.sub(r'CNZZ_SLOT_RENDER\(\"\d{3,8}\"\)\;','',texts[1].text))
with open ('novel.txt', 'w') as f:
    for chapter in trs[1980:]: # 倒序目錄 reversed(trs):
        print(trs.index(chapter),chapter.text)
        f.write(chapter.text+'\n')  # 章節(jié)標題
        resp = requests.get(content + chapter.get('href'))
        #resp.encoding = 'gb18030'
        soup=BeautifulSoup(resp.text,'html.parser')  #這里解析器不同于前例
        texts = soup.find_all('br')
        #print(soup.get_text())
        for line in texts:
            if len(line.text)>0:
                f.write(line.text.encode('utf-8').decode('gbk','ignore')+'\n')
    f.close()
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末冷溃,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子梦裂,更是在濱河造成了極大的恐慌似枕,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,406評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件年柠,死亡現(xiàn)場離奇詭異凿歼,居然都是意外死亡,警方通過查閱死者的電腦和手機冗恨,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,732評論 3 393
  • 文/潘曉璐 我一進店門答憔,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人掀抹,你說我怎么就攤上這事虐拓。” “怎么了傲武?”我有些...
    開封第一講書人閱讀 163,711評論 0 353
  • 文/不壞的土叔 我叫張陵蓉驹,是天一觀的道長。 經(jīng)常有香客問我谱轨,道長戒幔,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,380評論 1 293
  • 正文 為了忘掉前任土童,我火速辦了婚禮诗茎,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己敢订,他們只是感情好王污,可當我...
    茶點故事閱讀 67,432評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著楚午,像睡著了一般昭齐。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上矾柜,一...
    開封第一講書人閱讀 51,301評論 1 301
  • 那天阱驾,我揣著相機與錄音,去河邊找鬼怪蔑。 笑死里覆,一個胖子當著我的面吹牛,可吹牛的內容都是我干的缆瓣。 我是一名探鬼主播喧枷,決...
    沈念sama閱讀 40,145評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼弓坞!你這毒婦竟也來了隧甚?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 39,008評論 0 276
  • 序言:老撾萬榮一對情侶失蹤渡冻,失蹤者是張志新(化名)和其女友劉穎戚扳,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體菩帝,經(jīng)...
    沈念sama閱讀 45,443評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡咖城,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,649評論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了呼奢。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片宜雀。...
    茶點故事閱讀 39,795評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖握础,靈堂內的尸體忽然破棺而出辐董,到底是詐尸還是另有隱情,我是刑警寧澤禀综,帶...
    沈念sama閱讀 35,501評論 5 345
  • 正文 年R本政府宣布简烘,位于F島的核電站,受9級特大地震影響定枷,放射性物質發(fā)生泄漏孤澎。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,119評論 3 328
  • 文/蒙蒙 一欠窒、第九天 我趴在偏房一處隱蔽的房頂上張望覆旭。 院中可真熱鬧,春花似錦、人聲如沸型将。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,731評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽七兜。三九已至丸凭,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間腕铸,已是汗流浹背惜犀。 一陣腳步聲響...
    開封第一講書人閱讀 32,865評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留狠裹,地道東北人向拆。 一個月前我還...
    沈念sama閱讀 47,899評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像酪耳,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子刹缝,可洞房花燭夜當晚...
    茶點故事閱讀 44,724評論 2 354

推薦閱讀更多精彩內容

  • Spring Cloud為開發(fā)人員提供了快速構建分布式系統(tǒng)中一些常見模式的工具(例如配置管理碗暗,服務發(fā)現(xiàn),斷路器梢夯,智...
    卡卡羅2017閱讀 134,654評論 18 139
  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,110評論 25 707
  • 發(fā)現(xiàn) 關注 消息 iOS 第三方庫言疗、插件、知名博客總結 作者大灰狼的小綿羊哥哥關注 2017.06.26 09:4...
    肇東周閱讀 12,102評論 4 62
  • HDR下的風景大片 大家在拍照的時候有木有注意到相機設置里一個叫“HDR”的選項勤篮,大家知道它真正的作用是什么嗎?還...
    SMU_黑科技閱讀 1,286評論 3 1
  • 2016/01/31 『縱』 渴望隨心所欲的自己像是終于被松了綁似的色罚,毫無顧及的揮斥著自己的利劍肆意縱橫碰缔。卻忘了提...
    蒙奇奇_阿蒙蠻好的閱讀 282評論 0 1