requests + re 爬取貓眼電影

import requests
import re
import json

from requests.exceptions import RequestException


def get_one_page(url):
    try:
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3493.3 Safari/537.36'}
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        return None


def parse_one_page(html):
    pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a.*?>(.*?)</a>'
                         +'.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
                         +'.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)
    items = re.findall(pattern, html)
    for item in items:
        yield{
            'index': item[0],
            'image': item[1],
            'title': item[2],
            'actor': item[3].strip()[3:],
            'time': item[4].strip()[5:],
            'score': item[5]+item[6]


        }

def write_in_file(content):
    with open('result.txt','a', encoding='utf-8') as f:
        f.write(json.dumps(content, ensure_ascii=False)+'\n')
        f.close()
def main(offset):
    url = 'http://maoyan.com/board/4?offset='+str(offset)
    html = get_one_page(url)
    for item in parse_one_page(html):
        print(item)
        write_in_file(item)

if __name__ == '__main__':
    for i in range(10):
        main(i*10)
  • ? ?其他爬蟲代碼可參考github
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子伪冰,更是在濱河造成了極大的恐慌滑燃,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,376評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件作烟,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機蝶怔,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,126評論 2 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來兄墅,“玉大人踢星,你說我怎么就攤上這事∠断蹋” “怎么了沐悦?”我有些...
    開封第一講書人閱讀 156,966評論 0 347
  • 文/不壞的土叔 我叫張陵,是天一觀的道長五督。 經(jīng)常有香客問我藏否,道長,這世上最難降的妖魔是什么充包? 我笑而不...
    開封第一講書人閱讀 56,432評論 1 283
  • 正文 為了忘掉前任副签,我火速辦了婚禮,結(jié)果婚禮上基矮,老公的妹妹穿的比我還像新娘淆储。我一直安慰自己,他們只是感情好家浇,可當我...
    茶點故事閱讀 65,519評論 6 385
  • 文/花漫 我一把揭開白布本砰。 她就那樣靜靜地躺著,像睡著了一般钢悲。 火紅的嫁衣襯著肌膚如雪点额。 梳的紋絲不亂的頭發(fā)上舔株,一...
    開封第一講書人閱讀 49,792評論 1 290
  • 那天,我揣著相機與錄音还棱,去河邊找鬼载慈。 笑死,一個胖子當著我的面吹牛诱贿,可吹牛的內(nèi)容都是我干的娃肿。 我是一名探鬼主播,決...
    沈念sama閱讀 38,933評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼珠十,長吁一口氣:“原來是場噩夢啊……” “哼料扰!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起焙蹭,我...
    開封第一講書人閱讀 37,701評論 0 266
  • 序言:老撾萬榮一對情侶失蹤晒杈,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后孔厉,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體拯钻,經(jīng)...
    沈念sama閱讀 44,143評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,488評論 2 327
  • 正文 我和宋清朗相戀三年撰豺,在試婚紗的時候發(fā)現(xiàn)自己被綠了粪般。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,626評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡污桦,死狀恐怖亩歹,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情凡橱,我是刑警寧澤小作,帶...
    沈念sama閱讀 34,292評論 4 329
  • 正文 年R本政府宣布,位于F島的核電站稼钩,受9級特大地震影響顾稀,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜坝撑,卻給世界環(huán)境...
    茶點故事閱讀 39,896評論 3 313
  • 文/蒙蒙 一静秆、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧巡李,春花似錦抚笔、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,742評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蝠引。三九已至阳谍,卻和暖如春蛀柴,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背矫夯。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工鸽疾, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人训貌。 一個月前我還...
    沈念sama閱讀 46,324評論 2 360
  • 正文 我出身青樓制肮,卻偏偏與公主長得像,于是被迫代替她去往敵國和親递沪。 傳聞我的和親對象是個殘疾皇子豺鼻,可洞房花燭夜當晚...
    茶點故事閱讀 43,494評論 2 348

推薦閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 171,757評論 25 707
  • 用兩張圖告訴你,為什么你的 App 會卡頓? - Android - 掘金 Cover 有什么料款慨? 從這篇文章中你...
    hw1212閱讀 12,699評論 2 59
  • # Python 資源大全中文版 我想很多程序員應(yīng)該記得 GitHub 上有一個 Awesome - XXX 系列...
    小邁克閱讀 2,963評論 1 3
  • 【1】 title College is not an ivory tower topic sentence ...
    142馬麗玲閱讀 321評論 3 0
  • 人不能永遠停留在過去檩奠, 新的總會來桩了, 逃避亦無用。 過去的就過去埠戳, 再去懷念井誉,再去肖想, 終究換來的是一場空整胃。 人...
    寂寞的初遇閱讀 117評論 0 0