Python爬蟲入門教程 33-100 電影評論數(shù)據(jù)抓取 scrapy

1. 海王評論數(shù)據(jù)爬取前分析

海王上映了索绪,然后口碑炸了,對咱來說漠其,多了一個可爬可分析的電影嘴高,美哉~

摘錄一個評論

零點場剛看完,溫導的電影一直很不錯和屎,無論是速7拴驮,電鋸驚魂還是招魂都很棒。打斗和音效方面沒話說非常棒柴信,特別震撼套啤。總之随常,DC扳回一分( ̄▽ ̄)潜沦。比正義聯(lián)盟好的不止一點半點(我個人感覺)。還有艾梅伯希爾德是真的漂亮线罕,溫導選的人都很棒止潮。

真的第一次看到這么牛逼的電影 轉場特效都吊炸天

2. 海王案例開始爬取數(shù)據(jù)

數(shù)據(jù)爬取的依舊是貓眼的評論,這部分內容咱們用把牛刀钞楼,scrapy爬取喇闸,一般情況下,用一下requests就好了

抓取地址、交流群:1029344413?分享視頻資料

http://m.maoyan.com/mmdb/comments/movie/249342.json?_v_=yes&offset=15&startTime=2018-12-11%2009%3A58%3A43

關鍵參數(shù)

url:http://m.maoyan.com/mmdb/comments/movie/249342.json

offset:15startTime:起始時間

scrapy 爬取貓眼代碼特別簡單燃乍,我分開幾個py文件即可唆樊。Haiwang.py


import scrapyimport jsonfromhaiwang.itemsimport HaiwangItemclass HaiwangSpider(scrapy.Spider):

? ? name ='Haiwang'? ? allowed_domains = ['m.maoyan.com']

? ? start_urls = ['http://m.maoyan.com/mmdb/comments/movie/249342.json?_v_=yes&offset=0&startTime=0']

? ? def parse(self, response):

? ? ? ? print(response.url)

? ? ? ? body_data = response.body_as_unicode()

? ? ? ? js_data = json.loads(body_data)

? ? ? ? item = HaiwangItem()

? ? ? ? forinfoinjs_data["cmts"]:

? ? ? ? ? ? item["nickName"] = info["nickName"]

? ? ? ? ? ? item["cityName"] = info["cityName"]if"cityName"ininfoelse""? ? ? ? ? ? item["content"] = info["content"]

? ? ? ? ? ? item["score"] = info["score"]

? ? ? ? ? ? item["startTime"] = info["startTime"]

? ? ? ? ? ? item["approve"] = info["approve"]

? ? ? ? ? ? item["reply"] = info["reply"]

? ? ? ? ? ? item["avatarurl"] = info["avatarurl"]

? ? ? ? ? ? yield item

? ? ? ? yieldscrapy.Request("http://m.maoyan.com/mmdb/comments/movie/249342.json?_v_=yes&offset=0&startTime={}".format(item["startTime"]),callback=self.parse)

setting.py

設置需要配置headers

DEFAULT_REQUEST_HEADERS = {

? ? "Referer":"http://m.maoyan.com/movie/249342/comments?_v_=yes",

? ? "User-Agent":"Mozilla/5.0 Chrome/63.0.3239.26 Mobile Safari/537.36",

? ? "X-Requested-With":"superagent"}

需要配置一些抓取條件


# Obey robots.txt rulesROBOTSTXT_OBEY = False# See also autothrottle settings and docsDOWNLOAD_DELAY = 1# Disable cookies (enabled by default)COOKIES_ENABLED = False

開啟管道


# Configure item pipelines# See https://doc.scrapy.org/en/latest/topics/item-pipeline.htmlITEM_PIPELINES = {

? 'haiwang.pipelines.HaiwangPipeline': 300,

}

items.py

獲取你想要的數(shù)據(jù)

import scrapyclass HaiwangItem(scrapy.Item):

? ? # define the fields for your item here like:# name = scrapy.Field()nickName = scrapy.Field()

? ? cityName = scrapy.Field()

? ? content = scrapy.Field()

? ? score = scrapy.Field()

? ? startTime = scrapy.Field()

? ? approve = scrapy.Field()

? ? reply =scrapy.Field()

? ? avatarurl = scrapy.Field()

pipelines.py

保存數(shù)據(jù),數(shù)據(jù)存儲到csv文件中

import osimport csvclass HaiwangPipeline(object):

? ? def__init__(self):

? ? ? ? store_file = os.path.dirname(__file__) +'/spiders/haiwang.csv'? ? ? ? self.file = open(store_file,"a+", newline="", encoding="utf-8")

? ? ? ? self.writer = csv.writer(self.file)

? ? def process_item(self, item, spider):

? ? ? ? try:

? ? ? ? ? ? self.writer.writerow((

? ? ? ? ? ? ? ? item["nickName"],

? ? ? ? ? ? ? ? item["cityName"],

? ? ? ? ? ? ? ? item["content"],

? ? ? ? ? ? ? ? item["approve"],

? ? ? ? ? ? ? ? item["reply"],

? ? ? ? ? ? ? ? item["startTime"],

? ? ? ? ? ? ? ? item["avatarurl"],

? ? ? ? ? ? ? ? item["score"]

? ? ? ? ? ? ))

? ? ? ? except Exception as e:

? ? ? ? ? ? print(e.args)

? ? ? ? def close_spider(self, spider):

? ? ? ? ? ? self.file.close()

begin.py

編寫運行腳本

fromscrapyimport cmdline

cmdline.execute(("scrapy crawl Haiwang").split())

搞定刻蟹,等著數(shù)據(jù)來到逗旁,就可以了

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市舆瘪,隨后出現(xiàn)的幾起案子片效,更是在濱河造成了極大的恐慌,老刑警劉巖英古,帶你破解...
    沈念sama閱讀 217,734評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件淀衣,死亡現(xiàn)場離奇詭異,居然都是意外死亡召调,警方通過查閱死者的電腦和手機膨桥,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,931評論 3 394
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來唠叛,“玉大人只嚣,你說我怎么就攤上這事∫照樱” “怎么了册舞?”我有些...
    開封第一講書人閱讀 164,133評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長障般。 經(jīng)常有香客問我环础,道長,這世上最難降的妖魔是什么剩拢? 我笑而不...
    開封第一講書人閱讀 58,532評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮饶唤,結果婚禮上徐伐,老公的妹妹穿的比我還像新娘。我一直安慰自己募狂,他們只是感情好办素,可當我...
    茶點故事閱讀 67,585評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著祸穷,像睡著了一般性穿。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上雷滚,一...
    開封第一講書人閱讀 51,462評論 1 302
  • 那天需曾,我揣著相機與錄音,去河邊找鬼。 笑死呆万,一個胖子當著我的面吹牛商源,可吹牛的內容都是我干的。 我是一名探鬼主播谋减,決...
    沈念sama閱讀 40,262評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼牡彻,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了出爹?” 一聲冷哼從身側響起庄吼,我...
    開封第一講書人閱讀 39,153評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎严就,沒想到半個月后总寻,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,587評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡盈蛮,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,792評論 3 336
  • 正文 我和宋清朗相戀三年废菱,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片抖誉。...
    茶點故事閱讀 39,919評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡殊轴,死狀恐怖,靈堂內的尸體忽然破棺而出袒炉,到底是詐尸還是另有隱情旁理,我是刑警寧澤,帶...
    沈念sama閱讀 35,635評論 5 345
  • 正文 年R本政府宣布我磁,位于F島的核電站孽文,受9級特大地震影響,放射性物質發(fā)生泄漏夺艰。R本人自食惡果不足惜芋哭,卻給世界環(huán)境...
    茶點故事閱讀 41,237評論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望郁副。 院中可真熱鬧减牺,春花似錦、人聲如沸存谎。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,855評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽既荚。三九已至稚失,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間恰聘,已是汗流浹背句各。 一陣腳步聲響...
    開封第一講書人閱讀 32,983評論 1 269
  • 我被黑心中介騙來泰國打工吸占, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人诫钓。 一個月前我還...
    沈念sama閱讀 48,048評論 3 370
  • 正文 我出身青樓旬昭,卻偏偏與公主長得像,于是被迫代替她去往敵國和親菌湃。 傳聞我的和親對象是個殘疾皇子问拘,可洞房花燭夜當晚...
    茶點故事閱讀 44,864評論 2 354

推薦閱讀更多精彩內容