抓取貓眼TOP100電影

1.導(dǎo)入需要的庫

import requests
import re
import json
from requests.exceptions import RequestException

2.定義一個網(wǎng)頁抓取函數(shù)

def get_one_page(url):
    try : # 異常處理
        response=requests.get(url)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        return None

3.定義一個網(wǎng)頁解析函數(shù)

def parse_one_page(html):
    pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'
                         +'.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
                          +'.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',re.S) #正則表達式解析HTML
    items=re.findall(pattern,html)
    for item in items:
        yield {
            'index':item[0],
            'image':item[1],
            'title':item[2],
            'actor':item[3].strip()[3:],
            'time':item[4].strip()[5:],
            'score':item[5]+item[6]
        }

4.把得到的數(shù)據(jù)存儲到文檔中

def write_to_file(content):
    with open('result.txt','a',encoding='utf-8') as f:
        f.write(json.dumps(content,ensure_ascii=False) +'\n')
        f.close()
#參數(shù)encoding和ensure_ascii使得中文正常顯示

5.調(diào)用以上函數(shù)羊娃,完成一個數(shù)據(jù)抓取過程

def main(offset):
    url = 'https://maoyan.com/board/4?offset='+ str(offset)
    html = get_one_page(url)
    for item in parse_one_page(html):
        print(item)
        write_to_file(item)

if __name__ == '__main__':
    for i in range(10):
        main(i*10) #設(shè)置網(wǎng)頁URL遞推,實現(xiàn)多個網(wǎng)頁一次抓取

6.得到存儲數(shù)據(jù)的文檔

抓取數(shù)據(jù)前十行
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市沫换,隨后出現(xiàn)的幾起案子鼎天,更是在濱河造成了極大的恐慌水慨,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,542評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件载绿,死亡現(xiàn)場離奇詭異,居然都是意外死亡油航,警方通過查閱死者的電腦和手機崭庸,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,822評論 3 394
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來谊囚,“玉大人怕享,你說我怎么就攤上這事×ぃ” “怎么了函筋?”我有些...
    開封第一講書人閱讀 163,912評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長奠伪。 經(jīng)常有香客問我跌帐,道長首懈,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,449評論 1 293
  • 正文 為了忘掉前任谨敛,我火速辦了婚禮究履,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘佣盒。我一直安慰自己挎袜,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,500評論 6 392
  • 文/花漫 我一把揭開白布肥惭。 她就那樣靜靜地躺著盯仪,像睡著了一般。 火紅的嫁衣襯著肌膚如雪蜜葱。 梳的紋絲不亂的頭發(fā)上全景,一...
    開封第一講書人閱讀 51,370評論 1 302
  • 那天,我揣著相機與錄音牵囤,去河邊找鬼爸黄。 笑死,一個胖子當(dāng)著我的面吹牛揭鳞,可吹牛的內(nèi)容都是我干的炕贵。 我是一名探鬼主播,決...
    沈念sama閱讀 40,193評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼野崇,長吁一口氣:“原來是場噩夢啊……” “哼称开!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起乓梨,我...
    開封第一講書人閱讀 39,074評論 0 276
  • 序言:老撾萬榮一對情侶失蹤鳖轰,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后扶镀,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蕴侣,經(jīng)...
    沈念sama閱讀 45,505評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,722評論 3 335
  • 正文 我和宋清朗相戀三年臭觉,在試婚紗的時候發(fā)現(xiàn)自己被綠了昆雀。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,841評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡蝠筑,死狀恐怖忆肾,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情菱肖,我是刑警寧澤客冈,帶...
    沈念sama閱讀 35,569評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站稳强,受9級特大地震影響场仲,放射性物質(zhì)發(fā)生泄漏和悦。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,168評論 3 328
  • 文/蒙蒙 一渠缕、第九天 我趴在偏房一處隱蔽的房頂上張望鸽素。 院中可真熱鬧,春花似錦亦鳞、人聲如沸馍忽。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,783評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽遭笋。三九已至,卻和暖如春徒探,著一層夾襖步出監(jiān)牢的瞬間瓦呼,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,918評論 1 269
  • 我被黑心中介騙來泰國打工测暗, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留央串,地道東北人。 一個月前我還...
    沈念sama閱讀 47,962評論 2 370
  • 正文 我出身青樓碗啄,卻偏偏與公主長得像质和,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子稚字,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,781評論 2 354

推薦閱讀更多精彩內(nèi)容

  • Swift1> Swift和OC的區(qū)別1.1> Swift沒有地址/指針的概念1.2> 泛型1.3> 類型嚴(yán)謹(jǐn) 對...
    cosWriter閱讀 11,101評論 1 32
  • 第一部分 HTML&CSS整理答案 1. 什么是HTML5饲宿? 答:HTML5是最新的HTML標(biāo)準(zhǔn)。 注意:講述HT...
    kismetajun閱讀 27,485評論 1 45
  • 錢多事少離家近相信是大多數(shù)人心目中的理想職業(yè)尉共,隨著網(wǎng)絡(luò)的高度發(fā)展褒傅,在家工作也成為了可實現(xiàn)的事情弃锐。那么在家工作都有哪...
    森小枝閱讀 4,829評論 9 68
  • 給我一首詩 愿她有孩子的童貞 又有智慧的光芒 給我一首詩 愿她有春天的氣息 又有秋天的果實 給我一首詩 愿她有人間...
    Love_999閱讀 390評論 6 3