Python爬蟲html轉(zhuǎn)markdown
說明
動態(tài)博客轉(zhuǎn)靜態(tài)博客(例如typecho轉(zhuǎn)hexo)颠焦,在上傳靜態(tài)博客文章時往往需要md文件
通過這個程序我我們可以很方便地以爬蟲的方式獲取markdown文檔
代碼
下面給出代碼框架秕重,根據(jù)需要進行修改即可運行
import requests
from bs4 import BeautifulSoup
import html2text as ht
url = '' #此處寫你要爬蟲的url
#爬蟲
res = requests.get(url)
data = res.content
cont = BeautifulSoup(data, 'html.parser')
#獲取包含文章內(nèi)容的標(biāo)簽 attrs后跟的是最外層標(biāo)簽屬性,根據(jù)爬取網(wǎng)站的實際情況進行修改
data = cont.find('div',attrs={'id':'post'}).text
#對上述字符串data進行處理皇忿,去除不能轉(zhuǎn)換成markdown的標(biāo)簽翘魄,比如div等
#該部分代碼根據(jù)需要自行添加呢铆,此處不給出
#轉(zhuǎn)換
text_maker = ht.HTML2Text()
text_maker.bypass_tables = False
text = text_maker.handle(data)
#對獲取的md格式的文本進行操作贷屎,比如寫入到一個文件中罢防,此處作為演示直接輸出
print(text)