爬蟲demo——爬取豆瓣正在上映的電影

學習Python爬蟲的第一個小demo策州，給出一些筆記，以便日后復習。
在使用Python做爬蟲的時候鹉勒，可以分為兩大塊：1.將目標網頁內容請求下來；2.對請求下來的內容做整理
這里也是先給出每一步的筆記吵取，然后給出最終的源代碼禽额。

一、導入相關庫

import requests
from lxml import etree

二皮官、將目標網頁內容請求下來

1.設置請求頭

原因是一些網站可能會有反爬蟲機制脯倒，設置請求頭，可以繞過一些網站的反爬蟲機制捺氢，成功獲取數據藻丢。
設置請求頭的時候，一般情況下要設置User-Agent 和 Referer摄乒，如果只設置這兩項不足以繞過網站的反爬蟲機制的話悠反，就使用Chrome的開發(fā)者工具，設置更多的請求頭馍佑。

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36",
    "Referer": "https://www.douban.com/"
}

2.請求網頁內容

douban_url = "https://movie.douban.com/cinema/nowplaying/shanghai/"
response = requests.get(douban_url, headers=headers)
douban_text = response.text

三斋否、對請求下來的內容做整理

這里主要是使用lxml配合xpath語法進行整理，將每一部電影的信息整理到字典中拭荤，最終將所有的電影存放在列表中

html_element = etree.HTML(douban_text)
ul = html_element.xpath('//ul[@class="lists"]')[0]
lis = ul.xpath('./li')
movies = []
for li in lis:
    title = li.xpath('./@data-title')[0]
    score = li.xpath('./@data-score')[0]
    star = li.xpath('./@data-star')[0]
    duration = li.xpath('./@data-duration')[0]
    region = li.xpath('./@data-region')[0]
    director = li.xpath('./@data-director')[0]
    actors = li.xpath('./@data-actors')[0]
    post = li.xpath('.//img/@src')[0]
    movie = {
        "title": title,
        "score": score,
        "star": star,
        "duration": duration,
        "redion": region,
        "director": director,
        "actors": actors,
        "post": post
    }
    movies.append(movie)

for movie in movies:
    print(movie)

四如叼、完整代碼

# 導入相關庫
import requests
from lxml import etree

# 1.將目標網頁的內容請求下來
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36",
    "Referer": "https://www.douban.com/"
}
douban_url = "https://movie.douban.com/cinema/nowplaying/shanghai/"
response = requests.get(douban_url, headers=headers)
douban_text = response.text

# 2.將抓取的數據進行處理
html_element = etree.HTML(douban_text)
ul = html_element.xpath('//ul[@class="lists"]')[0]
lis = ul.xpath('./li')
movies = []
for li in lis:
    title = li.xpath('./@data-title')[0]
    score = li.xpath('./@data-score')[0]
    star = li.xpath('./@data-star')[0]
    duration = li.xpath('./@data-duration')[0]
    region = li.xpath('./@data-region')[0]
    director = li.xpath('./@data-director')[0]
    actors = li.xpath('./@data-actors')[0]
    post = li.xpath('.//img/@src')[0]
    movie = {
        "title": title,
        "score": score,
        "star": star,
        "duration": duration,
        "redion": region,
        "director": director,
        "actors": actors,
        "post": post
    }
    movies.append(movie)

for movie in movies:
    print(movie)

最后編輯于：2018.09.25 19:06:42

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市穷劈，隨后出現(xiàn)的幾起案子笼恰，更是在濱河造成了極大的恐慌踊沸，老刑警劉巖，帶你破解...
沈念sama閱讀 212,718評論 6贊 492
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件社证，死亡現(xiàn)場離奇詭異逼龟，居然都是意外死亡，警方通過查閱死者的電腦和手機追葡，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,683評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門腺律，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人宜肉，你說我怎么就攤上這事匀钧。” “怎么了谬返？”我有些...
開封第一講書人閱讀 158,207評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵之斯，是天一觀的道長。經常有香客問我遣铝，道長佑刷，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 56,755評論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任酿炸，我火速辦了婚禮瘫絮，結果婚禮上，老公的妹妹穿的比我還像新娘填硕。我一直安慰自己麦萤，他們只是感情好，可當我...
茶點故事閱讀 65,862評論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布扁眯。她就那樣靜靜地躺著频鉴，像睡著了一般。火紅的嫁衣襯著肌膚如雪恋拍。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 50,050評論 1贊 291
城市分裂傳說
那天藕甩，我揣著相機與錄音施敢，去河邊找鬼。笑死狭莱，一個胖子當著我的面吹牛僵娃，可吹牛的內容都是我干的。我是一名探鬼主播腋妙，決...
沈念sama閱讀 39,136評論 3贊 410
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼默怨，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了骤素？” 一聲冷哼從身側響起匙睹，我...
開封第一講書人閱讀 37,882評論 0贊 268
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤愚屁，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后痕檬，有當地人在樹林里發(fā)現(xiàn)了一具尸體霎槐，經...
沈念sama閱讀 44,330評論 1贊 303
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 36,651評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年梦谜，在試婚紗的時候發(fā)現(xiàn)自己被綠了丘跌。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 38,789評論 1贊 341
活死人
序言：一個原本活蹦亂跳的男人離奇死亡唁桩，死狀恐怖闭树，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情荒澡，我是刑警寧澤报辱，帶...
沈念sama閱讀 34,477評論 4贊 333
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站仰猖，受9級特大地震影響捏肢，放射性物質發(fā)生泄漏。R本人自食惡果不足惜饥侵，卻給世界環(huán)境...
茶點故事閱讀 40,135評論 3贊 317
男人毒藥：我在死后第九天來索命
文/蒙蒙一鸵赫、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧躏升，春花似錦辩棒、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,864評論 0贊 21
一樁弒父案一睁，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至佃却，卻和暖如春者吁，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背饲帅。一陣腳步聲響...
開封第一講書人閱讀 32,099評論 1贊 267
情欲美人皮
我被黑心中介騙來泰國打工复凳，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人灶泵。一個月前我還...
沈念sama閱讀 46,598評論 2贊 362
代替公主和親
正文我出身青樓育八，卻偏偏與公主長得像，于是被迫代替她去往敵國和親赦邻。傳聞我的和親對象是個殘疾皇子髓棋，可洞房花燭夜當晚...
茶點故事閱讀 43,697評論 2贊 351

爬蟲demo——爬取豆瓣正在上映的電影

一、導入相關庫

二皮官、將目標網頁內容請求下來

1.設置請求頭

2.請求網頁內容

三斋否、對請求下來的內容做整理

四如叼、完整代碼

推薦閱讀更多精彩內容