calibre抓取電子書

1. 環(huán)境準(zhǔn)備

安裝calibre

點(diǎn)擊這里去官網(wǎng)下載對應(yīng)自己系統(tǒng)的版本蝗锥,三個(gè)平臺(tái)都支持(就喜歡這樣跨平臺(tái)的軟件)。

驗(yàn)證安裝是否成功

打開terminal (如果是瘟都死系統(tǒng)可以打開cmd 或者 power shell)你画,輸入ebook-convert 出現(xiàn)如下提示,說明安裝成功了桃漾。

深度截圖_選擇區(qū)域_20191230171159.png

2. 腳本編寫

原理

calibre使用Python來抓取網(wǎng)頁數(shù)據(jù)坏匪,.recipe文件其實(shí)就是Python腳本。如果懂一些Python撬统,那最好不過了适滓。這個(gè)腳本關(guān)鍵點(diǎn)就兩個(gè):
繼承BasicNewsRecipe類
實(shí)現(xiàn)parse_index(self)方法

干貨來了

新建一個(gè)后綴為.recipe文件,將以下代碼復(fù)制粘貼進(jìn)去恋追。編輯的時(shí)候凭迹,記得當(dāng)成Python腳本,否則縮進(jìn)造成的坑苦囱,你懂得嗅绸。

#!/usr/bin/env python
# vim:fileencoding=utf-8
from __future__ import unicode_literals, division, absolute_import, print_function
from calibre.web.feeds.news import BasicNewsRecipe

class E_Book(BasicNewsRecipe):
    title          = 'GO web 編程'
    description = 'go語言教程'
    max_articles_per_feed = 500
    url_prefix = 'https://astaxie.gitbooks.io/build-web-application-with-golang/content/zh/'
    no_stylesheets = True
    remove_javascript = True
    keep_only_tags = [{ 'class': 'book-body' }]
    # remove_tags=[{'class':'x-wiki-info'}]

    # remove_tags_after=[{'class':'x-wiki-content x-content'}]
    
    def get_title(self, link):
        return link.get_text().replace('\n',"").replace(' ',"")
    
    def parse_index(self):
        soup = self.index_to_soup(self.url_prefix)
 
        div = soup.find('ul', { 'class': 'summary' })
 
        articles = []
        for link in div.findAll('a'):
            til = self.get_title(link)
            url = self.url_prefix + link['href']
            a = { 'title': til, 'url': url }
 
            articles.append(a)
 
        tutorial = [(self.title, articles)]
 
        return tutorial

腳本說明

哈哈,明明就是Python的語法撕彤!

  • E_book 自定義的類鱼鸠,必須繼承BasicNewsRecipe (劃重點(diǎn))。名字符合命名規(guī)范即可羹铅。
  • title 父類中的成員變量蚀狰。書名,值可以任意修改睦裳。
  • description父類中的成員變量造锅。 對生成電子書的描述,值可以任意修改廉邑。
  • max_articles_per_feed父類中的成員變量哥蔚。 目錄索引的最大數(shù)目倒谷,就是目錄中指向文章的鏈接數(shù)目。自己大概估算下就好糙箍,一般的500就夠了(當(dāng)然渤愁,你要抓取《本草綱目》就遠(yuǎn)遠(yuǎn)超過500了)。
  • url_prefix這個(gè)就要抓取電子書的地址深夯,視情況而定抖格。跟后面的parse_index方法中抓取的文章鏈接拼接成完整的URL。
  • keep_only_tags 父類中的成員變量咕晋。生成的電子書要保留的節(jié)點(diǎn)內(nèi)容,畢竟整個(gè)網(wǎng)頁上多余的東西太多了掌呜,我們只需要保留書本正文內(nèi)容即可滓玖。可以有多個(gè)质蕉。例如:keep_only_tags = [{'class':'book-body},{'id':"abc"}]势篡。這個(gè)根據(jù)具體情況修改,示例中是針對gitbook電子書的節(jié)點(diǎn)設(shè)置的模暗。
  • remove_tagsremove_tags_after 這兩個(gè)酌情使用禁悠,跟keep_only_tags相反,目的是移除無用的節(jié)點(diǎn)兑宇。自己可以試試修改移除每章后面的link標(biāo)簽后面的內(nèi)容碍侦,看看效果。
  • parse_index (加粗劃重點(diǎn))必須實(shí)現(xiàn)的方法顾孽,返回一個(gè)內(nèi)容為元組(書名和目錄列表的鏈接地址)的list祝钢,注意元組中的鏈接要拼接成完整的地址。具體實(shí)現(xiàn)要看對應(yīng)的a標(biāo)簽如何過濾若厚。
  • get_title 這個(gè)是自定義的方法拦英,目的是拿到a標(biāo)簽中的標(biāo)題內(nèi)容。這里有個(gè)大坑测秸,就是內(nèi)容里面有換行符是不行的疤估,否則抓出來的目錄標(biāo)題都是未知

3. 運(yùn)行腳本

腳本編好了之后霎冯,我們把他保存為go_web.recipe 铃拇。
打開terminal,輸入 ebook-convert go_web.recipe GoWeb.epub
等待執(zhí)行結(jié)束沈撞,我們就看到生成了GoWeb.epub這本電子書慷荔。當(dāng)然我們也可以輸出個(gè)pdf文件(GoWeb.pdf)或者mobi文件(GoWeb.mobi

總結(jié)

只要修改url_prefix的值,就可以抓取gitbook生成的在線電子書了缠俺。
如果你覺得對你油幫助显晶,請支持下作者哦贷岸!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市磷雇,隨后出現(xiàn)的幾起案子偿警,更是在濱河造成了極大的恐慌轰绵,老刑警劉巖堕油,帶你破解...
    沈念sama閱讀 207,113評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異艇劫,居然都是意外死亡崩掘,警方通過查閱死者的電腦和手機(jī)七嫌,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評論 2 381
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來呢堰,“玉大人抄瑟,你說我怎么就攤上這事凡泣⊥魈郏” “怎么了?”我有些...
    開封第一講書人閱讀 153,340評論 0 344
  • 文/不壞的土叔 我叫張陵鞋拟,是天一觀的道長骂维。 經(jīng)常有香客問我,道長贺纲,這世上最難降的妖魔是什么航闺? 我笑而不...
    開封第一講書人閱讀 55,449評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮猴誊,結(jié)果婚禮上潦刃,老公的妹妹穿的比我還像新娘。我一直安慰自己懈叹,他們只是感情好乖杠,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,445評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著澄成,像睡著了一般胧洒。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上墨状,一...
    開封第一講書人閱讀 49,166評論 1 284
  • 那天卫漫,我揣著相機(jī)與錄音,去河邊找鬼肾砂。 笑死列赎,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的镐确。 我是一名探鬼主播包吝,決...
    沈念sama閱讀 38,442評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼肛根,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了漏策?” 一聲冷哼從身側(cè)響起派哲,我...
    開封第一講書人閱讀 37,105評論 0 261
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎掺喻,沒想到半個(gè)月后芭届,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,601評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡感耙,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,066評論 2 325
  • 正文 我和宋清朗相戀三年褂乍,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片即硼。...
    茶點(diǎn)故事閱讀 38,161評論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡逃片,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出只酥,到底是詐尸還是另有隱情褥实,我是刑警寧澤,帶...
    沈念sama閱讀 33,792評論 4 323
  • 正文 年R本政府宣布裂允,位于F島的核電站损离,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏绝编。R本人自食惡果不足惜僻澎,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,351評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望十饥。 院中可真熱鬧窟勃,春花似錦、人聲如沸逗堵。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,352評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽砸捏。三九已至谬运,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間垦藏,已是汗流浹背梆暖。 一陣腳步聲響...
    開封第一講書人閱讀 31,584評論 1 261
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留掂骏,地道東北人轰驳。 一個(gè)月前我還...
    沈念sama閱讀 45,618評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親级解。 傳聞我的和親對象是個(gè)殘疾皇子冒黑,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,916評論 2 344

推薦閱讀更多精彩內(nèi)容