爬取起點(diǎn)中文網(wǎng)的免費(fèi)圖書

17553828-c507eef2269e4b24.png

import requests, os
from multiprocessing import Pool
from bs4 import BeautifulSoup


class QidianSpider:
    # 初始化
    def __init__(self, pages, url, localPath):
        self.pages = pages
        self.url = url
        self.localPath = localPath
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1',
            'Connection': 'close'
        }

    # 一頁(yè)一頁(yè)的下載圖書,每頁(yè)有20本
    def download_book(self):
        self.create_folder()
        for i in range(self.pages):
            param = {
                "orderId": '',
                "vip": 'hidden',
                "style": 1,
                'pageSize': 20,
                "siteid": 1,
                "pubflag": 0,
                "hiddenField": 1,
                "page": i + 1
            }
            try:
                # 訪問(wèn)每頁(yè)獲取的數(shù)據(jù)
                data_responses = self.get_responses(param)
                # 從每頁(yè)結(jié)果中獲取所有圖書信息佑女，后面根據(jù)ID獲取每本書的具體內(nèi)容
                book_info_list = self.get_book_info(data_responses)
                # 多進(jìn)程下載
                self.multiprocess_download(book_info_list, 10)
            except Exception as e:
                print(e)

    # 判斷文件夾是否存在，不存在創(chuàng)建文件夾
    def create_folder(self):
        if not os.path.exists(self.localPath):
            try:
                os.makedirs(self.localPath)
            except Exception as e:
                raise (e)

    # 訪問(wèn)每頁(yè)獲取的數(shù)據(jù)
    def get_responses(self, param):
        try:
            data_responses = requests.get(self.url, params=param, headers=self.headers)
            return data_responses
        except Exception as e:
            print(e)

    # 從每頁(yè)結(jié)果中獲取圖書信息藤抡，后面根據(jù)ID獲取每本書的具體內(nèi)容
    def get_book_info(self, data_responses):
        soup = BeautifulSoup(data_responses.text, 'lxml')
        book_info_raw = soup.select('div.book-mid-info')
        book_info_list = []
        for book_info_raw_single in book_info_raw:
            book_info_dict = dict()
            book_info_dict["title"] = book_info_raw_single.select('h4 > a')[0].get_text()
            book_info_dict["id"] = book_info_raw_single.select('h4 > a')[0].get('data-bid')
            book_info_dict['author'] = book_info_raw_single.select('.name')[0].get_text()
            book_info_list.append(book_info_dict)
        return book_info_list

    # 多進(jìn)程下載
    def multiprocess_download(self, book_info_list, process):
        pool = Pool(process)
        for book_info_dict in book_info_list:
            pool.apply_async(self.download_one, (book_info_dict,))
        pool.close()
        pool.join()

    # 單個(gè)進(jìn)程下,下載圖書詳細(xì)信息
    def download_one(self, book_info_dict):
        if os.path.exists(self.localPath + book_info_dict["title"]):
            print('exists:', self.localPath + book_info_dict["title"])
            return
        # 捕獲異常
        try:
            book_catalog_responses = requests.get("https://book.qidian.com/info/%s#Catalog" % book_info_dict["id"],
                                                  timeout=10, headers=self.headers)
            if book_catalog_responses.status_code == 200:
                print("當(dāng)前進(jìn)程ID：{}膊畴，圖書信息：{}".format(os.getpid(), book_info_dict))
                self.get_book_catalog_url(book_catalog_responses, book_info_dict)
                self.save_book_content(book_info_dict)
        except Exception as e:
            print("異常：{}".format(book_info_dict), e)

    # 獲取目錄url
    def get_book_catalog_url(self, book_catalog_responses, book_info_dict):
        soup = BeautifulSoup(book_catalog_responses.text, 'html.parser')
        book_catalog_info_raw = soup.select('.volume-wrap li[data-rid] a[href]')
        book_catalog_url_list = []
        for book_catalog_info_raw_single in book_catalog_info_raw:
            book_catalog_url_list.append(book_catalog_info_raw_single['href'])
        book_info_dict['bookCatalogUrl'] = book_catalog_url_list

    # 獲取圖書內(nèi)容并保存
    def save_book_content(self, book_info_dict):
        with open(self.localPath + '{}.txt'.format(book_info_dict["title"]), 'w', encoding='utf-8') as f:
            f.write(book_info_dict['title'] + '\n')
            f.write("作者：" + book_info_dict['author'] + '\n')
            for url in book_info_dict['bookCatalogUrl']:
                try:
                    book_content_responses = requests.get("https:" + url, headers=self.headers)
                    if book_content_responses.status_code == 200:
                        soup = BeautifulSoup(book_content_responses.text, 'html.parser')
                        book_catalog = soup.find('h3', attrs={'class': 'j_chapterName'}).get_text()
                        f.write('\n' + book_catalog + '\n')
                        book_content = soup.find('div', attrs={'class': "read-content j_readContent"})
                        f.write('\t' + book_content.get_text() + '\n')
                except Exception as e:
                    print('異常：{}章節(jié)獲取失敗'.format(book_info_dict['title']), e)


if __name__ == '__main__':
    spider = QidianSpider(100, 'https://www.qidian.com/free/all', 'E://book//')
    spider.download_book()

最后編輯于：2019.06.24 17:12:59

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末捌袜，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌猎提，老刑警劉巖，帶你破解...
沈念sama閱讀 218,525評(píng)論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件旁蔼，死亡現(xiàn)場(chǎng)離奇詭異锨苏，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)棺聊，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,203評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門伞租，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人限佩，你說(shuō)我怎么就攤上這事葵诈。” “怎么了祟同？”我有些...
開封第一講書人閱讀 164,862評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵作喘，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我晕城，道長(zhǎng)泞坦，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,728評(píng)論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任砖顷，我火速辦了婚禮贰锁，結(jié)果婚禮上主之，老公的妹妹穿的比我還像新娘。我一直安慰自己李根，他們只是感情好槽奕，可當(dāng)我...
茶點(diǎn)故事閱讀 67,743評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布。她就那樣靜靜地躺著房轿，像睡著了一般粤攒。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上囱持，一...
開封第一講書人閱讀 51,590評(píng)論 1贊 305
城市分裂傳說(shuō)
那天夯接，我揣著相機(jī)與錄音，去河邊找鬼纷妆。笑死盔几，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的掩幢。我是一名探鬼主播逊拍，決...
沈念sama閱讀 40,330評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼际邻！你這毒婦竟也來(lái)了芯丧？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,244評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤世曾，失蹤者是張志新（化名）和其女友劉穎缨恒，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體轮听，經(jīng)...
沈念sama閱讀 45,693評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡骗露，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,885評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了血巍。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片萧锉。...
茶點(diǎn)故事閱讀 40,001評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖藻茂，靈堂內(nèi)的尸體忽然破棺而出驹暑，到底是詐尸還是另有隱情，我是刑警寧澤辨赐，帶...
沈念sama閱讀 35,723評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站掀序，受9級(jí)特大地震影響帆焕，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜叶雹，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,343評(píng)論 3贊 330
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望折晦。院中可真熱鬧钥星，春花似錦、人聲如沸满着。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,919評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)风喇。三九已至宁改，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間魂莫，已是汗流浹背还蹲。一陣腳步聲響...
開封第一講書人閱讀 33,042評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留耙考，地道東北人谜喊。一個(gè)月前我還...
沈念sama閱讀 48,191評(píng)論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像琳骡，于是被迫代替她去往敵國(guó)和親锅论。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,955評(píng)論 2贊 355