使用Python抓抓海賊王離線看漫畫

簡單描述一下爬取的基本思路:

  1. 在google上搜索海賊王绍坝,選定風(fēng)之動(dòng)漫網(wǎng)為目標(biāo)進(jìn)行爬取數(shù)據(jù),如:http://manhua.fzdm.com/2/846/index_1.html
  2. 觀察每個(gè)頁面url規(guī)律,846是代表話數(shù)涮因,index_page.html代表是多少頁
  3. 檢查頁面的圖片便簽呵俏,找出唯一能指定該圖片的CSS表達(dá)式
  4. 使用requests來get到頁面的報(bào)文畔师,使用BeautifulSoup來解析報(bào)文
  5. 原計(jì)劃使用MongoDB存儲(chǔ)圖片地址薄霜,處于暫時(shí)操作mongodb還不夠熟練,直接使用了列表操作
  6. 使用urllib來進(jìn)行下載圖片到本地
from bs4 import BeautifulSoup
import requests
import time
import pymongo
import urllib.request
import os
path = '/Users/meixuhong/OnePiece/'

# ================================== 設(shè)計(jì)數(shù)據(jù)庫 ====================================
client = pymongo.MongoClient('localhost',27017)
onepiece = client['onepiece']
onepiece_pic = onepiece['onepiece_pic']

# ================================== 抓取多頁數(shù)據(jù) ==================================
def parseMultiplePages(chapter,page_num):
    img_urls = []
    for page_num in range(1,page_num+1):
        time.sleep(4)
        wb_data = requests.get('http://manhua.fzdm.com/2/{}/index_{}.html'.format(chapter,page_num))
        soup = BeautifulSoup(wb_data.text,'lxml')
        imgs = soup.select('div#mh > li > a > img')

        for img in imgs:
            data = {
                'img': img.get('src')
            }
            print(data)
            # onepiece_pic.insert_one(data)
            img_urls.append(data['img'])
    print('img_urls is a list as:',img_urls)
    return img_urls

# 837話的前16頁
# parseMultiplePages(837,16)

# ================================== 下載漫畫并命名 ==================================
def dl_images(chapter,img_urls):
    #==判斷并創(chuàng)建目錄==
    subPath = path + str(chapter) + '/'
    isExists = os.path.exists(subPath)
    if not isExists:
        print('create the path: {}...'.format(subPath))
        os.mkdir(subPath)
    else:
        print('the path already exsiting ...')
    # ==判斷并創(chuàng)建目錄==

    for i in range(1,len(img_urls)+1):
        # 使用urllib.request.urlretrieve(url, fine_path_name)下載文件
        urllib.request.urlretrieve(img_urls[i-1],subPath+str(i)+'_'+img_urls[i-1].split('/')[-1])
        print('\n{} downloaded and has been named as {}.\n'.format(img_urls[i-1],subPath+str(i)+'_'+img_urls[i-1].split('/')[-1]))

# ================================== 下載多話漫畫 ==================================
def dl_chapters(chapter_from_,chapter_to_):
    for i in range(chapter_from_ , chapter_to_ + 1):
        dl_images(i,parseMultiplePages(i,18))

dl_chapters(800,848)

程序完全只考慮了功能實(shí)現(xiàn)漱凝,沒有考慮多做考慮疮蹦,以后海賊王更新的時(shí)候不用到處找資源慢慢等待了,滿足我個(gè)人需求碉哑。

OnePiece
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末挚币,一起剝皮案震驚了整個(gè)濱河市亮蒋,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌妆毕,老刑警劉巖慎玖,帶你破解...
    沈念sama閱讀 206,214評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異笛粘,居然都是意外死亡趁怔,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門薪前,熙熙樓的掌柜王于貴愁眉苦臉地迎上來润努,“玉大人,你說我怎么就攤上這事示括∑探剑” “怎么了?”我有些...
    開封第一講書人閱讀 152,543評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵垛膝,是天一觀的道長鳍侣。 經(jīng)常有香客問我,道長吼拥,這世上最難降的妖魔是什么倚聚? 我笑而不...
    開封第一講書人閱讀 55,221評(píng)論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮凿可,結(jié)果婚禮上惑折,老公的妹妹穿的比我還像新娘。我一直安慰自己枯跑,他們只是感情好惨驶,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,224評(píng)論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著全肮,像睡著了一般敞咧。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上辜腺,一...
    開封第一講書人閱讀 49,007評(píng)論 1 284
  • 那天,我揣著相機(jī)與錄音乍恐,去河邊找鬼评疗。 笑死,一個(gè)胖子當(dāng)著我的面吹牛茵烈,可吹牛的內(nèi)容都是我干的百匆。 我是一名探鬼主播,決...
    沈念sama閱讀 38,313評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼呜投,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼加匈!你這毒婦竟也來了存璃?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,956評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤雕拼,失蹤者是張志新(化名)和其女友劉穎纵东,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體啥寇,經(jīng)...
    沈念sama閱讀 43,441評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡偎球,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,925評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了辑甜。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片衰絮。...
    茶點(diǎn)故事閱讀 38,018評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖磷醋,靈堂內(nèi)的尸體忽然破棺而出猫牡,到底是詐尸還是另有隱情,我是刑警寧澤邓线,帶...
    沈念sama閱讀 33,685評(píng)論 4 322
  • 正文 年R本政府宣布镊掖,位于F島的核電站,受9級(jí)特大地震影響褂痰,放射性物質(zhì)發(fā)生泄漏亩进。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,234評(píng)論 3 307
  • 文/蒙蒙 一缩歪、第九天 我趴在偏房一處隱蔽的房頂上張望归薛。 院中可真熱鬧,春花似錦匪蝙、人聲如沸主籍。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,240評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽千元。三九已至,卻和暖如春颤绕,著一層夾襖步出監(jiān)牢的瞬間幸海,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,464評(píng)論 1 261
  • 我被黑心中介騙來泰國打工奥务, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留物独,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,467評(píng)論 2 352
  • 正文 我出身青樓氯葬,卻偏偏與公主長得像挡篓,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子帚称,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,762評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容