最近看小說總是有一堆不堪入目的廣告骗污,于是決定爬下來放閱讀器里看吧崇猫。
偷偷的爬上你的心頭~
一言不合上代碼
from bs4 import BeautifulSoup
import requests
url_header = 'https://www.tianxiabachang.cn'
default_mark = '/0_804/1877579.html'
f = open('csjxs.txt', 'a')
def core_met():
html = requests.get(url_header + default_mark)
soup = BeautifulSoup(html.content, features='html.parser')
bookname = soup.findAll('div', attrs={"class": "bookname"})
f.write("\n===============================新的章節(jié)===================================\n")
f.write(bookname[0].contents[1].text + "\n")
f.write("===============================現(xiàn)在開始===================================\n")
content = soup.find('div', id='content')
content = str(content.text)
f.write(content.replace('<br>', '').replace('<br/>', '').replace("\\n", ''))
items = soup.find_all('a')
for i in items:
if i.text == '下一章':
return i.get("href")
if __name__ == '__main__':
while default_mark is not None:
default_mark = core_met()
邏輯非常簡單,主要就是去掉文章里的換行符
以及捕獲下一章鏈接然后遞歸就好身堡。
扔到手機閱讀器里邓尤,一口氣看完吧。