python爬蟲:將本人博客園文章轉(zhuǎn)化為MarkDown格式

本周又和大家見面了颁独,首先說一下兩周之后要進(jìn)行研究生的期末考試彩届,所以這次可能是考試之前的最后一更,我要忙著復(fù)習(xí)了誓酒,還請(qǐng)大家見諒樟蠕,一般情況下我都是每周更新一篇技術(shù)原創(chuàng)。

好了靠柑,廢話不多說坯墨,咱們進(jìn)入今天的主題。由于我在簡(jiǎn)書也有自己的基地病往,所以每次在博客園文章更新完捣染,還要在簡(jiǎn)書進(jìn)行更新。由于簡(jiǎn)書文章的編輯格式是MarkDown停巷,所以前幾次更新修改格式都是非常麻煩耍攘,浪費(fèi)時(shí)間,尤其是有了圖片之后畔勤。于是蕾各,為了不讓自己的時(shí)間浪費(fèi)在這么無聊的事情上,我就用學(xué)到的爬蟲知識(shí)庆揪,對(duì)我寫的文章進(jìn)行格式的轉(zhuǎn)化(當(dāng)然我只是按照我文章的格式進(jìn)行解析的式曲,不具有通用性,之后可以完善通用性)缸榛。

咱們就按照我寫的上面文章Scrapy爬取美女圖片第四集 突破反爬蟲(上)為例吝羞,進(jìn)行格式的轉(zhuǎn)化。

來到這個(gè)界面:

你會(huì)發(fā)現(xiàn)文章中主要包含這幾種特殊對(duì)象:段落文本(有顏色和無顏色之分),圖片(主要是提取圖片鏈接)内颗,代碼框中的代碼钧排。所以咱們需要對(duì)這幾種對(duì)象進(jìn)行分別提取和轉(zhuǎn)化

老規(guī)矩均澳,打開firebug,輸入鏈接恨溜,這次不僅需要觀察HTML結(jié)構(gòu),還要觀察網(wǎng)絡(luò)這個(gè)選項(xiàng)找前,捕獲這個(gè)get請(qǐng)求糟袁,會(huì)發(fā)現(xiàn)很大的不同。

同樣是表現(xiàn)的代碼內(nèi)容躺盛,發(fā)現(xiàn)網(wǎng)絡(luò)請(qǐng)求返回的標(biāo)簽和最后生成的標(biāo)簽是不一樣的项戴。這就是通過javascript動(dòng)態(tài)修改html。那咱們?cè)撘允裁礊闇?zhǔn)呢颗品?當(dāng)然是以網(wǎng)絡(luò)請(qǐng)求的格式為準(zhǔn)肯尺,因?yàn)樵趯?shí)際的網(wǎng)絡(luò)訪問中就是獲取的這個(gè)內(nèi)容沃缘。

通過上面的可以看到代碼都是由pre標(biāo)簽進(jìn)行包裹,其他內(nèi)容都是由p標(biāo)簽進(jìn)行包裹则吟。所以為了統(tǒng)一格式槐臀,先將獲取到的pre標(biāo)簽換成p標(biāo)簽,并添加code屬性進(jìn)行區(qū)分。當(dāng)然用到的還是bs4這個(gè)神器氓仲。直接看一下代碼:


soup = BeautifulSoup(response)#,'html.parser',from_encoding='utf-8'

        pres = soup.findAll('pre')

        for pre in pres:

            pre.name ='p'  

            pre['code']='yes'

首先提取其中圖片的鏈接,并按照標(biāo)簽的順序添加到list中存儲(chǔ):


ps = soup.findAll('p')

        for p in ps:

            img = p.img

            if img !=None:

                self.content={'tag':'img','content':img['src']}

                self.papers.append(self.content)

接著提取code的代碼內(nèi)容水慨,并按照標(biāo)簽的順序添加到list中存儲(chǔ):


if p.get('code')=='yes':

                self.content={'tag':'code','content':p.text.replace('&nbsp:','').strip()}

                self.papers.append(self.content)

然后將正常段落中的顏色部分進(jìn)行標(biāo)注,我習(xí)慣是將加顏色的文字敬扛,最后轉(zhuǎn)化為加粗形式晰洒。從格式中看到,加顏色的字體使用span標(biāo)簽進(jìn)行包裹的啥箭。

咱們將標(biāo)簽進(jìn)行替換和標(biāo)注谍珊,以便后續(xù)處理。


elif p.span != None:

                spans = p.findAll('span')#找到所有的span標(biāo)簽

                for span in spans:

                    # print span.text

                    if span.get('style').find('color')!=-1:

                        # del span['style']

                        # span.name='color'

                        if span.string!=None:

                            span.string = 'c_start'+span.string+'c_end' #對(duì)有顏色的文本進(jìn)行標(biāo)注

有時(shí)候會(huì)發(fā)現(xiàn)急侥,文本中有鏈接砌滞,咱們還要把鏈接進(jìn)行按次序提取。


links =p.findAll('a')

                for link in links:

                    if link.string!=None:

                        link.string = '['+link.string+']'+'('+link.string+')'

                self.content={'tag':'text','content':p.text.replace('&nbsp:','').strip()} self.papers.append(self.content)

經(jīng)過這幾個(gè)步驟就將所有要提取的內(nèi)容都分離出來了坏怪,接下來進(jìn)行轉(zhuǎn)化為markdown格式贝润。


#coding:utf-8



class Convert(object):

    @classmethod

    def convert(self,papers):

        str = ''

        with open('D:\markdown.txt','w') as file_writer:

            for p in papers:

                if p['tag']=='text':

                    str = p['content'].replace('c_start','**').replace('c_end','**')  #這個(gè)是替換顏色,使用加粗

                    pass

                elif p['tag']=='code':

                    str = '```'+'\r\n'+p['content']+'\r\n'+'```'  #這個(gè)是代碼框的添加



                else:

                    #![](http://upload-images.jianshu.io/upload_images/1823443-7c4c920514b8f0cf.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)#這個(gè)是圖片鏈接的轉(zhuǎn)化

                    str = '[站外圖片上傳中……(6)]'%(p['content'])

                    str = '\r\n'+str+'\r\n'



                file_writer.write(str.encode('utf-8'))

                file_writer.write('\r\n'.encode('utf-8'))



        file_writer.close()

最后咱們看一下效果,將生成的markdown文本復(fù)制到簡(jiǎn)書上去铝宵,是否顯示正確打掘。這個(gè)就是最后簡(jiǎn)書文章鏈接:http://www.reibang.com/p/9159111bcd87效果還是不錯(cuò)的鹏秋,可能需要一些微調(diào)尊蚁,以前整理格式要花10幾分鐘不超過兩分鐘就搞定

[站外圖片上傳中……(7)]


完整的代碼我已經(jīng)上傳到github上:https://github.com/qiyeboy/html2Md


今天的分享就到這里拼岳,如果大家覺得還可以呀枝誊,記得打賞呦。

[站外圖片上傳中……(8)]

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末惜纸,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子绝骚,更是在濱河造成了極大的恐慌耐版,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,496評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件压汪,死亡現(xiàn)場(chǎng)離奇詭異粪牲,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)止剖,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,407評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門腺阳,熙熙樓的掌柜王于貴愁眉苦臉地迎上來落君,“玉大人,你說我怎么就攤上這事亭引∫锼伲” “怎么了?”我有些...
    開封第一講書人閱讀 162,632評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵焙蚓,是天一觀的道長(zhǎng)纹冤。 經(jīng)常有香客問我,道長(zhǎng)购公,這世上最難降的妖魔是什么萌京? 我笑而不...
    開封第一講書人閱讀 58,180評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮宏浩,結(jié)果婚禮上知残,老公的妹妹穿的比我還像新娘。我一直安慰自己比庄,他們只是感情好求妹,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,198評(píng)論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著印蔗,像睡著了一般。 火紅的嫁衣襯著肌膚如雪华嘹。 梳的紋絲不亂的頭發(fā)上吧趣,一...
    開封第一講書人閱讀 51,165評(píng)論 1 299
  • 那天,我揣著相機(jī)與錄音耙厚,去河邊找鬼强挫。 笑死,一個(gè)胖子當(dāng)著我的面吹牛薛躬,可吹牛的內(nèi)容都是我干的俯渤。 我是一名探鬼主播,決...
    沈念sama閱讀 40,052評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼型宝,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼八匠!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起趴酣,我...
    開封第一講書人閱讀 38,910評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤梨树,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后岖寞,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體抡四,經(jīng)...
    沈念sama閱讀 45,324評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,542評(píng)論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了指巡。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片淑履。...
    茶點(diǎn)故事閱讀 39,711評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖藻雪,靈堂內(nèi)的尸體忽然破棺而出秘噪,到底是詐尸還是另有隱情,我是刑警寧澤阔涉,帶...
    沈念sama閱讀 35,424評(píng)論 5 343
  • 正文 年R本政府宣布缆娃,位于F島的核電站,受9級(jí)特大地震影響瑰排,放射性物質(zhì)發(fā)生泄漏贯要。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,017評(píng)論 3 326
  • 文/蒙蒙 一椭住、第九天 我趴在偏房一處隱蔽的房頂上張望崇渗。 院中可真熱鬧,春花似錦京郑、人聲如沸宅广。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,668評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽跟狱。三九已至,卻和暖如春户魏,著一層夾襖步出監(jiān)牢的瞬間驶臊,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,823評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工叼丑, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留关翎,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,722評(píng)論 2 368
  • 正文 我出身青樓鸠信,卻偏偏與公主長(zhǎng)得像纵寝,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子星立,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,611評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢(shì)1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,074評(píng)論 25 707
  • 發(fā)現(xiàn) 關(guān)注 消息 iOS 第三方庫(kù)爽茴、插件、知名博客總結(jié) 作者大灰狼的小綿羊哥哥關(guān)注 2017.06.26 09:4...
    肇東周閱讀 12,094評(píng)論 4 62
  • 史蒂芬柯維在高效能人士的七個(gè)習(xí)慣中將積極主動(dòng)列為第一個(gè)習(xí)慣绰垂,是由內(nèi)到外全面打造自己的基礎(chǔ)闹啦。 梭羅說,最令人鼓舞的事...
    向日小葵123閱讀 830評(píng)論 1 1
  • 又是一天荐健,隨著年齡的增長(zhǎng)酱畅,時(shí)間真的是一天過的比一天快琳袄,來到了北京之后,回家纺酸,真的不知道算是怎樣一個(gè)名詞窖逗。 記得剛來...
    第八族閱讀 207評(píng)論 0 0