本周又和大家見面了颁独,首先說一下兩周之后要進(jìn)行研究生的期末考試彩届,所以這次可能是考試之前的最后一更,我要忙著復(fù)習(xí)了誓酒,還請(qǐng)大家見諒樟蠕,一般情況下我都是每周更新一篇技術(shù)原創(chuàng)。
好了靠柑,廢話不多說坯墨,咱們進(jìn)入今天的主題。由于我在簡(jiǎn)書也有自己的基地病往,所以每次在博客園文章更新完捣染,還要在簡(jiǎn)書進(jìn)行更新。由于簡(jiǎn)書文章的編輯格式是MarkDown停巷,所以前幾次更新修改格式都是非常麻煩耍攘,浪費(fèi)時(shí)間,尤其是有了圖片之后畔勤。于是蕾各,為了不讓自己的時(shí)間浪費(fèi)在這么無聊的事情上,我就用學(xué)到的爬蟲知識(shí)庆揪,對(duì)我寫的文章進(jìn)行格式的轉(zhuǎn)化(當(dāng)然我只是按照我文章的格式進(jìn)行解析的式曲,不具有通用性,之后可以完善通用性)缸榛。
咱們就按照我寫的上面文章Scrapy爬取美女圖片第四集 突破反爬蟲(上)為例吝羞,進(jìn)行格式的轉(zhuǎn)化。
來到這個(gè)界面:
你會(huì)發(fā)現(xiàn)文章中主要包含這幾種特殊對(duì)象:段落文本(有顏色和無顏色之分),圖片(主要是提取圖片鏈接)内颗,代碼框中的代碼钧排。所以咱們需要對(duì)這幾種對(duì)象進(jìn)行分別提取和轉(zhuǎn)化。
老規(guī)矩均澳,打開firebug,輸入鏈接恨溜,這次不僅需要觀察HTML結(jié)構(gòu),還要觀察網(wǎng)絡(luò)這個(gè)選項(xiàng)找前,捕獲這個(gè)get請(qǐng)求糟袁,會(huì)發(fā)現(xiàn)很大的不同。
同樣是表現(xiàn)的代碼內(nèi)容躺盛,發(fā)現(xiàn)網(wǎng)絡(luò)請(qǐng)求返回的標(biāo)簽和最后生成的標(biāo)簽是不一樣的项戴。這就是通過javascript動(dòng)態(tài)修改html。那咱們?cè)撘允裁礊闇?zhǔn)呢颗品?當(dāng)然是以網(wǎng)絡(luò)請(qǐng)求的格式為準(zhǔn)肯尺,因?yàn)樵趯?shí)際的網(wǎng)絡(luò)訪問中就是獲取的這個(gè)內(nèi)容沃缘。
通過上面的可以看到代碼都是由pre標(biāo)簽進(jìn)行包裹,其他內(nèi)容都是由p標(biāo)簽進(jìn)行包裹则吟。所以為了統(tǒng)一格式槐臀,先將獲取到的pre標(biāo)簽換成p標(biāo)簽,并添加code屬性進(jìn)行區(qū)分。當(dāng)然用到的還是bs4這個(gè)神器氓仲。直接看一下代碼:
soup = BeautifulSoup(response)#,'html.parser',from_encoding='utf-8'
pres = soup.findAll('pre')
for pre in pres:
pre.name ='p'
pre['code']='yes'
首先提取其中圖片的鏈接,并按照標(biāo)簽的順序添加到list中存儲(chǔ):
ps = soup.findAll('p')
for p in ps:
img = p.img
if img !=None:
self.content={'tag':'img','content':img['src']}
self.papers.append(self.content)
接著提取code的代碼內(nèi)容水慨,并按照標(biāo)簽的順序添加到list中存儲(chǔ):
if p.get('code')=='yes':
self.content={'tag':'code','content':p.text.replace('&nbsp:','').strip()}
self.papers.append(self.content)
然后將正常段落中的顏色部分進(jìn)行標(biāo)注,我習(xí)慣是將加顏色的文字敬扛,最后轉(zhuǎn)化為加粗形式晰洒。從格式中看到,加顏色的字體使用span標(biāo)簽進(jìn)行包裹的啥箭。
咱們將標(biāo)簽進(jìn)行替換和標(biāo)注谍珊,以便后續(xù)處理。
elif p.span != None:
spans = p.findAll('span')#找到所有的span標(biāo)簽
for span in spans:
# print span.text
if span.get('style').find('color')!=-1:
# del span['style']
# span.name='color'
if span.string!=None:
span.string = 'c_start'+span.string+'c_end' #對(duì)有顏色的文本進(jìn)行標(biāo)注
有時(shí)候會(huì)發(fā)現(xiàn)急侥,文本中有鏈接砌滞,咱們還要把鏈接進(jìn)行按次序提取。
links =p.findAll('a')
for link in links:
if link.string!=None:
link.string = '['+link.string+']'+'('+link.string+')'
self.content={'tag':'text','content':p.text.replace('&nbsp:','').strip()} self.papers.append(self.content)
經(jīng)過這幾個(gè)步驟就將所有要提取的內(nèi)容都分離出來了坏怪,接下來進(jìn)行轉(zhuǎn)化為markdown格式贝润。
#coding:utf-8
class Convert(object):
@classmethod
def convert(self,papers):
str = ''
with open('D:\markdown.txt','w') as file_writer:
for p in papers:
if p['tag']=='text':
str = p['content'].replace('c_start','**').replace('c_end','**') #這個(gè)是替換顏色,使用加粗
pass
elif p['tag']=='code':
str = '```'+'\r\n'+p['content']+'\r\n'+'```' #這個(gè)是代碼框的添加
else:
#![](http://upload-images.jianshu.io/upload_images/1823443-7c4c920514b8f0cf.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)#這個(gè)是圖片鏈接的轉(zhuǎn)化
str = '[站外圖片上傳中……(6)]'%(p['content'])
str = '\r\n'+str+'\r\n'
file_writer.write(str.encode('utf-8'))
file_writer.write('\r\n'.encode('utf-8'))
file_writer.close()
最后咱們看一下效果,將生成的markdown文本復(fù)制到簡(jiǎn)書上去铝宵,是否顯示正確打掘。這個(gè)就是最后簡(jiǎn)書文章鏈接:http://www.reibang.com/p/9159111bcd87。效果還是不錯(cuò)的鹏秋,可能需要一些微調(diào)尊蚁,以前整理格式要花10幾分鐘,不超過兩分鐘就搞定
[站外圖片上傳中……(7)]
完整的代碼我已經(jīng)上傳到github上:https://github.com/qiyeboy/html2Md
今天的分享就到這里拼岳,如果大家覺得還可以呀枝誊,記得打賞呦。
[站外圖片上傳中……(8)]