Python爬蟲入門教程 33-100 電影評論數(shù)據(jù)抓取 scrapy

1. 海王評論數(shù)據(jù)爬取前分析

海王上映了索绪，然后口碑炸了，對咱來說漠其，多了一個可爬可分析的電影嘴高，美哉~

摘錄一個評論

零點場剛看完，溫導的電影一直很不錯和屎，無論是速7拴驮，電鋸驚魂還是招魂都很棒。打斗和音效方面沒話說非常棒柴信，特別震撼套啤。總之随常，DC扳回一分（￣▽￣）潜沦。比正義聯(lián)盟好的不止一點半點（我個人感覺）。還有艾梅伯希爾德是真的漂亮线罕，溫導選的人都很棒止潮。

真的第一次看到這么牛逼的電影轉場特效都吊炸天

2. 海王案例開始爬取數(shù)據(jù)

數(shù)據(jù)爬取的依舊是貓眼的評論，這部分內容咱們用把牛刀钞楼，scrapy爬取喇闸，一般情況下，用一下requests就好了

抓取地址、交流群：1029344413?分享視頻資料

http://m.maoyan.com/mmdb/comments/movie/249342.json?_v_=yes&offset=15&startTime=2018-12-11%2009%3A58%3A43

關鍵參數(shù)

url:http://m.maoyan.com/mmdb/comments/movie/249342.json

offset:15startTime:起始時間

scrapy 爬取貓眼代碼特別簡單燃乍，我分開幾個py文件即可唆樊。Haiwang.py

import scrapyimport jsonfromhaiwang.itemsimport HaiwangItemclass HaiwangSpider(scrapy.Spider):

? ? name ='Haiwang'? ? allowed_domains = ['m.maoyan.com']

? ? start_urls = ['http://m.maoyan.com/mmdb/comments/movie/249342.json?_v_=yes&offset=0&startTime=0']

? ? def parse(self, response):

? ? ? ? print(response.url)

? ? ? ? body_data = response.body_as_unicode()

? ? ? ? js_data = json.loads(body_data)

? ? ? ? item = HaiwangItem()

? ? ? ? forinfoinjs_data["cmts"]:

? ? ? ? ? ? item["nickName"] = info["nickName"]

? ? ? ? ? ? item["cityName"] = info["cityName"]if"cityName"ininfoelse""? ? ? ? ? ? item["content"] = info["content"]

? ? ? ? ? ? item["score"] = info["score"]

? ? ? ? ? ? item["startTime"] = info["startTime"]

? ? ? ? ? ? item["approve"] = info["approve"]

? ? ? ? ? ? item["reply"] = info["reply"]

? ? ? ? ? ? item["avatarurl"] = info["avatarurl"]

? ? ? ? ? ? yield item

? ? ? ? yieldscrapy.Request("http://m.maoyan.com/mmdb/comments/movie/249342.json?_v_=yes&offset=0&startTime={}".format(item["startTime"]),callback=self.parse)

setting.py

設置需要配置headers

DEFAULT_REQUEST_HEADERS = {

? ? "Referer":"http://m.maoyan.com/movie/249342/comments?_v_=yes",

? ? "User-Agent":"Mozilla/5.0 Chrome/63.0.3239.26 Mobile Safari/537.36",

? ? "X-Requested-With":"superagent"}

需要配置一些抓取條件

# Obey robots.txt rulesROBOTSTXT_OBEY = False# See also autothrottle settings and docsDOWNLOAD_DELAY = 1# Disable cookies (enabled by default)COOKIES_ENABLED = False

開啟管道

# Configure item pipelines# See https://doc.scrapy.org/en/latest/topics/item-pipeline.htmlITEM_PIPELINES = {

? 'haiwang.pipelines.HaiwangPipeline': 300,

}

items.py

獲取你想要的數(shù)據(jù)

import scrapyclass HaiwangItem(scrapy.Item):

? ? # define the fields for your item here like:# name = scrapy.Field()nickName = scrapy.Field()

? ? cityName = scrapy.Field()

? ? content = scrapy.Field()

? ? score = scrapy.Field()

? ? startTime = scrapy.Field()

? ? approve = scrapy.Field()

? ? reply =scrapy.Field()

? ? avatarurl = scrapy.Field()

pipelines.py

保存數(shù)據(jù)，數(shù)據(jù)存儲到csv文件中

import osimport csvclass HaiwangPipeline(object):

? ? def__init__(self):

? ? ? ? store_file = os.path.dirname(__file__) +'/spiders/haiwang.csv'? ? ? ? self.file = open(store_file,"a+", newline="", encoding="utf-8")

? ? ? ? self.writer = csv.writer(self.file)

? ? def process_item(self, item, spider):

? ? ? ? try:

? ? ? ? ? ? self.writer.writerow((

? ? ? ? ? ? ? ? item["nickName"],

? ? ? ? ? ? ? ? item["cityName"],

? ? ? ? ? ? ? ? item["content"],

? ? ? ? ? ? ? ? item["approve"],

? ? ? ? ? ? ? ? item["reply"],

? ? ? ? ? ? ? ? item["startTime"],

? ? ? ? ? ? ? ? item["avatarurl"],

? ? ? ? ? ? ? ? item["score"]

? ? ? ? ? ? ))

? ? ? ? except Exception as e:

? ? ? ? ? ? print(e.args)

? ? ? ? def close_spider(self, spider):

? ? ? ? ? ? self.file.close()

begin.py

編寫運行腳本

fromscrapyimport cmdline

cmdline.execute(("scrapy crawl Haiwang").split())

搞定刻蟹，等著數(shù)據(jù)來到逗旁，就可以了

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市舆瘪，隨后出現(xiàn)的幾起案子片效，更是在濱河造成了極大的恐慌，老刑警劉巖英古，帶你破解...
沈念sama閱讀 217,734評論 6贊 505
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件淀衣，死亡現(xiàn)場離奇詭異，居然都是意外死亡召调，警方通過查閱死者的電腦和手機膨桥，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,931評論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來唠叛，“玉大人只嚣，你說我怎么就攤上這事∫照樱” “怎么了册舞？”我有些...
開封第一講書人閱讀 164,133評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長障般。經(jīng)常有香客問我环础，道長，這世上最難降的妖魔是什么剩拢？我笑而不...
開封第一講書人閱讀 58,532評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮饶唤，結果婚禮上徐伐，老公的妹妹穿的比我還像新娘。我一直安慰自己募狂，他們只是感情好办素，可當我...
茶點故事閱讀 67,585評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著祸穷，像睡著了一般性穿。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上雷滚，一...
開封第一講書人閱讀 51,462評論 1贊 302
城市分裂傳說
那天需曾，我揣著相機與錄音，去河邊找鬼。笑死呆万，一個胖子當著我的面吹牛商源，可吹牛的內容都是我干的。我是一名探鬼主播谋减，決...
沈念sama閱讀 40,262評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼牡彻，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了出爹？” 一聲冷哼從身側響起庄吼，我...
開封第一講書人閱讀 39,153評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎严就，沒想到半個月后总寻，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,587評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡盈蛮，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 37,792評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年废菱，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片抖誉。...
茶點故事閱讀 39,919評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡殊轴，死狀恐怖，靈堂內的尸體忽然破棺而出袒炉，到底是詐尸還是另有隱情旁理，我是刑警寧澤，帶...
沈念sama閱讀 35,635評論 5贊 345
?日本核電站爆炸內幕
正文年R本政府宣布我磁，位于F島的核電站孽文，受9級特大地震影響，放射性物質發(fā)生泄漏夺艰。R本人自食惡果不足惜芋哭，卻給世界環(huán)境...
茶點故事閱讀 41,237評論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望郁副。院中可真熱鬧减牺，春花似錦、人聲如沸存谎。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,855評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽既荚。三九已至稚失，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間恰聘，已是汗流浹背句各。一陣腳步聲響...
開封第一講書人閱讀 32,983評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工吸占，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人诫钓。一個月前我還...
沈念sama閱讀 48,048評論 3贊 370
代替公主和親
正文我出身青樓旬昭，卻偏偏與公主長得像，于是被迫代替她去往敵國和親菌湃。傳聞我的和親對象是個殘疾皇子问拘，可洞房花燭夜當晚...
茶點故事閱讀 44,864評論 2贊 354

Python爬蟲入門教程 33-100 電影評論數(shù)據(jù)抓取 scrapy

推薦閱讀更多精彩內容