爬蟲demo——爬取豆瓣正在上映的電影

學習Python爬蟲的第一個小demo策州,給出一些筆記,以便日后復習。
在使用Python做爬蟲的時候鹉勒,可以分為兩大塊:1.將目標網頁內容請求下來;2.對請求下來的內容做整理
這里也是先給出每一步的筆記吵取,然后給出最終的源代碼禽额。

一、導入相關庫

import requests
from lxml import etree

二皮官、將目標網頁內容請求下來

1.設置請求頭

  • 原因是一些網站可能會有反爬蟲機制脯倒,設置請求頭,可以繞過一些網站的反爬蟲機制捺氢,成功獲取數據藻丢。
  • 設置請求頭的時候,一般情況下要設置User-AgentReferer摄乒,如果只設置這兩項不足以繞過網站的反爬蟲機制的話悠反,就使用Chrome的開發(fā)者工具,設置更多的請求頭馍佑。
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36",
    "Referer": "https://www.douban.com/"
}

2.請求網頁內容

douban_url = "https://movie.douban.com/cinema/nowplaying/shanghai/"
response = requests.get(douban_url, headers=headers)
douban_text = response.text

三斋否、對請求下來的內容做整理

  • 這里主要是使用lxml配合xpath語法進行整理,將每一部電影的信息整理到字典中拭荤,最終將所有的電影存放在列表中
html_element = etree.HTML(douban_text)
ul = html_element.xpath('//ul[@class="lists"]')[0]
lis = ul.xpath('./li')
movies = []
for li in lis:
    title = li.xpath('./@data-title')[0]
    score = li.xpath('./@data-score')[0]
    star = li.xpath('./@data-star')[0]
    duration = li.xpath('./@data-duration')[0]
    region = li.xpath('./@data-region')[0]
    director = li.xpath('./@data-director')[0]
    actors = li.xpath('./@data-actors')[0]
    post = li.xpath('.//img/@src')[0]
    movie = {
        "title": title,
        "score": score,
        "star": star,
        "duration": duration,
        "redion": region,
        "director": director,
        "actors": actors,
        "post": post
    }
    movies.append(movie)

for movie in movies:
    print(movie)

四如叼、完整代碼

# 導入相關庫
import requests
from lxml import etree

# 1.將目標網頁的內容請求下來
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36",
    "Referer": "https://www.douban.com/"
}
douban_url = "https://movie.douban.com/cinema/nowplaying/shanghai/"
response = requests.get(douban_url, headers=headers)
douban_text = response.text

# 2.將抓取的數據進行處理
html_element = etree.HTML(douban_text)
ul = html_element.xpath('//ul[@class="lists"]')[0]
lis = ul.xpath('./li')
movies = []
for li in lis:
    title = li.xpath('./@data-title')[0]
    score = li.xpath('./@data-score')[0]
    star = li.xpath('./@data-star')[0]
    duration = li.xpath('./@data-duration')[0]
    region = li.xpath('./@data-region')[0]
    director = li.xpath('./@data-director')[0]
    actors = li.xpath('./@data-actors')[0]
    post = li.xpath('.//img/@src')[0]
    movie = {
        "title": title,
        "score": score,
        "star": star,
        "duration": duration,
        "redion": region,
        "director": director,
        "actors": actors,
        "post": post
    }
    movies.append(movie)

for movie in movies:
    print(movie)

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市穷劈,隨后出現(xiàn)的幾起案子笼恰,更是在濱河造成了極大的恐慌踊沸,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,718評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件社证,死亡現(xiàn)場離奇詭異逼龟,居然都是意外死亡,警方通過查閱死者的電腦和手機追葡,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,683評論 3 385
  • 文/潘曉璐 我一進店門腺律,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人宜肉,你說我怎么就攤上這事匀钧。” “怎么了谬返?”我有些...
    開封第一講書人閱讀 158,207評論 0 348
  • 文/不壞的土叔 我叫張陵之斯,是天一觀的道長。 經常有香客問我遣铝,道長佑刷,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,755評論 1 284
  • 正文 為了忘掉前任酿炸,我火速辦了婚禮瘫絮,結果婚禮上,老公的妹妹穿的比我還像新娘填硕。我一直安慰自己麦萤,他們只是感情好,可當我...
    茶點故事閱讀 65,862評論 6 386
  • 文/花漫 我一把揭開白布扁眯。 她就那樣靜靜地躺著频鉴,像睡著了一般。 火紅的嫁衣襯著肌膚如雪恋拍。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 50,050評論 1 291
  • 那天藕甩,我揣著相機與錄音施敢,去河邊找鬼。 笑死狭莱,一個胖子當著我的面吹牛僵娃,可吹牛的內容都是我干的。 我是一名探鬼主播腋妙,決...
    沈念sama閱讀 39,136評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼默怨,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了骤素?” 一聲冷哼從身側響起匙睹,我...
    開封第一講書人閱讀 37,882評論 0 268
  • 序言:老撾萬榮一對情侶失蹤愚屁,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后痕檬,有當地人在樹林里發(fā)現(xiàn)了一具尸體霎槐,經...
    沈念sama閱讀 44,330評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,651評論 2 327
  • 正文 我和宋清朗相戀三年梦谜,在試婚紗的時候發(fā)現(xiàn)自己被綠了丘跌。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,789評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡唁桩,死狀恐怖闭树,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情荒澡,我是刑警寧澤报辱,帶...
    沈念sama閱讀 34,477評論 4 333
  • 正文 年R本政府宣布,位于F島的核電站仰猖,受9級特大地震影響捏肢,放射性物質發(fā)生泄漏。R本人自食惡果不足惜饥侵,卻給世界環(huán)境...
    茶點故事閱讀 40,135評論 3 317
  • 文/蒙蒙 一鸵赫、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧躏升,春花似錦辩棒、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,864評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至佃却,卻和暖如春者吁,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背饲帅。 一陣腳步聲響...
    開封第一講書人閱讀 32,099評論 1 267
  • 我被黑心中介騙來泰國打工复凳, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人灶泵。 一個月前我還...
    沈念sama閱讀 46,598評論 2 362
  • 正文 我出身青樓育八,卻偏偏與公主長得像,于是被迫代替她去往敵國和親赦邻。 傳聞我的和親對象是個殘疾皇子髓棋,可洞房花燭夜當晚...
    茶點故事閱讀 43,697評論 2 351

推薦閱讀更多精彩內容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 171,858評論 25 707
  • 用兩張圖告訴你,為什么你的 App 會卡頓? - Android - 掘金 Cover 有什么料? 從這篇文章中你...
    hw1212閱讀 12,704評論 2 59
  • 最近很忙按声,頭腦有點亂膳犹。 人們常說,人這一輩子不可能總是走在平坦的大道上儒喊,不可能總是沐浴陽光雨露镣奋;很多時候,需要面臨...
    吳阿離閱讀 350評論 0 0
  • 二年前怀愧,剛剛升三年級的大寶對初學英語時的迷茫侨颈,如今想起來歷歷在目,英語老師課堂上的講解完全聽不懂芯义,課下單詞不會拼哈垢,...
    七色花堇閱讀 658評論 0 0
  • Redis的未授權訪問 向Redis服務器上傳SSH公鑰 通過計劃任務反彈shell
    cws閱讀 868評論 0 0