python爬蟲入門(1):爬萬本書籍

最近閑的無聊,想爬點書看看纹笼。 于是我選擇了這個網(wǎng)站雨楓軒

STEP1.分析網(wǎng)站


一開始我想通過一篇文章引用的鏈接苟跪,將書爬完廷痘,后來發(fā)現(xiàn)并不需要這樣做蔓涧。比如我們可以打開人生哲學(xué)這個欄目。


如圖1所示笋额,會把頁面數(shù)全列出來元暴。
并且這個url

http://txt.rain8.com/txtzx/list_93_1.html

也非常的有規(guī)律。
可以看出是由

'http://txt.rain8.com/txt'+'欄目名稱'+'list_欄目編號_頁數(shù).html'

組成的鳞陨。
知道了這點后昨寞,我們就能輕松的把網(wǎng)站爬完了。

STEP2.初始化

首先我們來理清思路厦滤。

這是我們需要的庫

import requests
import re
import os

其實這個項目用urllib2也能完成援岩。
我們首先來初始化,在self.urls里,我們定義一些需要fetch的欄目掏导。(比如言情享怀,恐怖仙俠之類的書就可以跳過)。然后寫一些正則表達式趟咆,供其他的method使用添瓷。

class fetchBook:
    def __init__(self):
        self.header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:47.0) Gecko/20100101 Firefox/47.0'}
        self.urls = [
                     'http://txt.rain8.com/txtgw/',
                     'http://txt.rain8.com/txtzj/',
                     'http://txt.rain8.com/txtzx/',
                     'http://txt.rain8.com/txtsh/'
                     ]
        self.rePageIndex = re.compile('list_\d+_\d+.html')#得到欄目編號
        self.rePageCount = re.compile('<strong>\d+</strong>')#得到頁面數(shù)目
        self.reDownloadGet1 = re.compile('href=.http://txt.rain8.com/plus/xiazai_yfx.php?[^>]+')#得到下載鏈接
        self.reGetTitle = re.compile('<title>.+</title>')#得到標(biāo)題
        self.reGetAuthor = re.compile("</small><span>[^>]+")#得到作者名稱
        self.reBookGetNew = re.compile('')#得到書籍鏈接
        self.reBookGetOld = re.compile('')
        self.cnt = 0

STEP3.獲取所有的頁面

我們可以查看人生哲學(xué)源代碼≈瞪矗可以找到總共的頁數(shù)鳞贷。


然后我們就能得到每一頁的數(shù)據(jù)。
代碼如下

    def viewAllPage(self,url):
        """
        函數(shù)功能為把該欄目下所有頁面全過一遍虐唠。
        """
        req = requests.get(url,headers = self.header)
        pageIndex = self.rePageIndex.findall(req.text)[0][5:7]
        pageCount = int(self.rePageCount.findall(req.text)[0][8:-9])
        urlToFetch = [url,'list_',pageIndex,'_','1','.html']
        foldname = self.reGetTitle.findall(req.text)[0][7:]
        foldname = foldname.encode('unicode_escape').decode('string_escape')
        foldname = foldname.split('|')[0]
        self.createDir(foldname)
        for page in range(1,pageCount+1):
            urlToFetch[4] = str(page)
            url_to_get = ''.join(urlToFetch)#得到所有頁面的url

STEP4.得到下載鏈接

然后我們用上面寫好的正則表達式搀愧,來匹配她的下載鏈接。

    def fetchDownloadUrl(self,bookurl):
        req = requests.get(bookurl,headers = self.header)
        result = self.reDownloadGet1.findall(req.text)
        result = result[0][6:-17]
        authorname = self.reGetAuthor.findall(req.text)[0][14:-6].encode('unicode_escape').decode('string_escape')
        req = requests.get(result,headers = self.header)
        bookname = self.reGetTitle.findall(req.text)[0][7:-24]
        downloadurl = self.reDownloadGet1.findall(req.text)[0][6:-17]
        return downloadurl,bookname,authorname

STEP5.下載

下載的時候疆偿,由于該網(wǎng)站下載的書都是rar格式的咱筛。所以我們只要用二進制的方式寫就可以了。
我們調(diào)用

self.req = requests.get(downloadUrl,headers = self.header)

然后

f = open(posi+'/'+bookname+'.rar','wb')

就可以寫進去了杆故。

STEP6.編碼問題

之前一直被python的編碼問題搞的頭大迅箩,這次又遇見了。于是找了點資料看了看处铛。
因為python工作使用的編碼是unicode饲趋,如果要在編碼間進行轉(zhuǎn)化,推薦要先decode成unicode撤蟆,然后再encode成別的編碼奕塑。
然后我在爬內(nèi)容的過程中碰到了這個問題:

s = u'\xb9\xc5\xca\xab\xb4\xca\xc3\xfb\xd6\xf8'

\xb9這樣的很明顯應(yīng)該是gbk編碼。而python卻在字符串前加了個u枫疆。然后我對這串字符encode還是decode都會報錯爵川。或者打印出來亂碼息楔。
經(jīng)過查閱資料寝贡,我找到了一種解決辦法

s.encode('unicode_escape').decode('string_escape')

經(jīng)過這樣處理后

>>> print repr(s)
>>> '\xb9\xc5\xca\xab\xb4\xca\xc3\xfb\xd6\xf8'

很明顯就恢復(fù)了正常扒披。這時我們只要decode('gb2312')就能轉(zhuǎn)換成unicode編碼了。

STEP7.結(jié)果展示

github地址
喜歡的可以點一下喜歡圃泡。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末碟案,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子颇蜡,更是在濱河造成了極大的恐慌价说,老刑警劉巖远荠,帶你破解...
    沈念sama閱讀 217,185評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件岩馍,死亡現(xiàn)場離奇詭異,居然都是意外死亡姜钳,警方通過查閱死者的電腦和手機缤弦,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,652評論 3 393
  • 文/潘曉璐 我一進店門领迈,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人碍沐,你說我怎么就攤上這事狸捅。” “怎么了累提?”我有些...
    開封第一講書人閱讀 163,524評論 0 353
  • 文/不壞的土叔 我叫張陵尘喝,是天一觀的道長。 經(jīng)常有香客問我斋陪,道長朽褪,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,339評論 1 293
  • 正文 為了忘掉前任鳍贾,我火速辦了婚禮鞍匾,結(jié)果婚禮上交洗,老公的妹妹穿的比我還像新娘骑科。我一直安慰自己,他們只是感情好构拳,可當(dāng)我...
    茶點故事閱讀 67,387評論 6 391
  • 文/花漫 我一把揭開白布咆爽。 她就那樣靜靜地躺著,像睡著了一般置森。 火紅的嫁衣襯著肌膚如雪斗埂。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,287評論 1 301
  • 那天凫海,我揣著相機與錄音呛凶,去河邊找鬼。 笑死行贪,一個胖子當(dāng)著我的面吹牛漾稀,可吹牛的內(nèi)容都是我干的模闲。 我是一名探鬼主播,決...
    沈念sama閱讀 40,130評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼崭捍,長吁一口氣:“原來是場噩夢啊……” “哼尸折!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起殷蛇,我...
    開封第一講書人閱讀 38,985評論 0 275
  • 序言:老撾萬榮一對情侶失蹤实夹,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后粒梦,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體亮航,經(jīng)...
    沈念sama閱讀 45,420評論 1 313
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,617評論 3 334
  • 正文 我和宋清朗相戀三年匀们,在試婚紗的時候發(fā)現(xiàn)自己被綠了塞赂。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,779評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡昼蛀,死狀恐怖宴猾,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情叼旋,我是刑警寧澤仇哆,帶...
    沈念sama閱讀 35,477評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站夫植,受9級特大地震影響讹剔,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜详民,卻給世界環(huán)境...
    茶點故事閱讀 41,088評論 3 328
  • 文/蒙蒙 一延欠、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧沈跨,春花似錦由捎、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,716評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至涧窒,卻和暖如春心肪,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背纠吴。 一陣腳步聲響...
    開封第一講書人閱讀 32,857評論 1 269
  • 我被黑心中介騙來泰國打工硬鞍, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 47,876評論 2 370
  • 正文 我出身青樓固该,卻偏偏與公主長得像碑隆,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子蹬音,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,700評論 2 354

推薦閱讀更多精彩內(nèi)容

  • 可以看我的博客 lmwen.top 或者訂閱我的公眾號 簡介有稍微接觸python的人就會知道上煤,python中...
    ayuLiao閱讀 3,113評論 1 5
  • 字符集和編碼簡介 在編程中常常可以見到各種字符集和編碼著淆,包括ASCII,MBCS,Unicode等字符集劫狠。確切的說...
    蘭山小亭閱讀 8,490評論 0 13
  • Python 二三事 面向初學(xué)者介紹Python相關(guān)的一些工具,以及可能遇到的常見問題永部。 最后更新 2013.5....
    hzyido閱讀 67,755評論 2 42
  • 引言 在這里我假設(shè)你已經(jīng)看完了一篇Python教程独泞,基本熟悉了Python的結(jié)構(gòu)和語法,在命令行下的Python互...
    Programmer客棧閱讀 65,132評論 0 17