Python爬取豆瓣電影TOP250并存入MySql數(shù)據(jù)庫

最近有人問我Python爬蟲相關(guān)的東西,所以打算把我之前寫的爬豆瓣TOP250的影片信息并存入數(shù)據(jù)庫的內(nèi)容寫出來。

爬取豆瓣TOP250的影片信息

# coding:utf-8
import uuid

import requests
import unicodedata
from lxml import html

import db_douban


def list_douban_top250():
print('正在獲取豆瓣TOP250影片信息并存入數(shù)據(jù)庫...')
movies = []
index = 1
page_count = 10
for i in range(page_count):
    url = 'https://movie.douban.com/top250?start={}&filter='.format(i * 25)
    url_content = requests.get(url).content
    # 內(nèi)容節(jié)點(diǎn)
    doc = html.fromstring(url_content)
    for y in doc.xpath('//div[@class="info"]'):
        # 影片名稱
        name = y.xpath('div[@class="hd"]/a/span[@class="title"]/text()')[0]
        # 影片詳情
        move_content = y.xpath('div[@class="bd"]/p[1]/text()')
        # 導(dǎo)演演員信息
        actor = move_content[0].replace(" ", "").replace("\n", "")
        # 上映日期
        date = move_content[1].replace(" ", "").replace("\n", "").split("/")[0]
        # 制片國家
        country = move_content[1].replace(" ", "").replace("\n", "").split("/")[1]
        # 影片類型
        gener = move_content[1].replace(" ", "").replace("\n", "").split("/")[2]
        # 評分
        rate = y.xpath('div[@class="bd"]/div[@class="star"]/span[2]/text()')[0]
        # 評論人數(shù)
        com_count = y.xpath('div[@class="bd"]/div[@class="star"]/span[4]/text()')[0]
        # UUID
        move_id = uuid.uuid1().hex
        # 執(zhí)行l(wèi)og
        print('TOP%s--%s--評分%s--人數(shù)%s' % (str(index), name, rate, com_count.replace('人評價', '')))
        # 生成影片對象
        movie = (unicodedata.normalize('NFKD', move_id).encode('utf-8', 'ignore'),
                 unicodedata.normalize('NFKD', name).encode('utf-8', 'ignore'),
                 unicodedata.normalize('NFKD', actor).encode('utf-8', 'ignore'),
                 unicodedata.normalize('NFKD', date).encode('utf-8', 'ignore'),
                 unicodedata.normalize('NFKD', country).encode('utf-8', 'ignore'),
                 unicodedata.normalize('NFKD', rate).encode('utf-8', 'ignore'),
                 unicodedata.normalize('NFKD', com_count.replace('人評價', '')).encode('utf-8', 'ignore'), index)
        # 加入數(shù)組
        movies.append(movie)
        index += 1
# 插入數(shù)據(jù)庫
db_douban.insert_movies(movies)
print('任務(wù)執(zhí)行完成揉阎!')


list_douban_top250()

存入數(shù)據(jù)庫

import pymysql


# 插入多條
def insert_movies(movies):
db = pymysql.connect(host='localhost', port=3306, user='root', passwd='', db='movie', charset='utf8')
cursor = db.cursor()
sql = "INSERT INTO original_douban(id,name,actor,release_date,country,rate,comment_count,rank)\
  VALUES (%s,%s,%s,%s,%s,%s ,%s,%s)"
try:
cursor.executemany(sql, movies)
db.commit()
except pymysql.Error:
db.rollback()
finally:
cursor.close()
db.close()


# 插入一條
def insert_movie(movie):
db = pymysql.connect(host='localhost', port=3306, user='root', passwd='', db='movie', charset='utf8')
cursor = db.cursor()
sql = "INSERT INTO original_douban(id,name,actor,release_date,country,rate,comment_count,rank)\
  VALUES (%s,%s,%s,%s,%s,%s\
  ,%s,%s)"
try:
cursor.execute(sql, movie)
db.commit()
except pymysql.Error:
db.rollback()
finally:
cursor.close()
db.close()

結(jié)果

log.png
movie_db.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末森篷,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子反镇,更是在濱河造成了極大的恐慌犯戏,老刑警劉巖送火,帶你破解...
    沈念sama閱讀 217,734評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件拳话,死亡現(xiàn)場離奇詭異,居然都是意外死亡种吸,警方通過查閱死者的電腦和手機(jī)弃衍,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,931評論 3 394
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來骨稿,“玉大人笨鸡,你說我怎么就攤上這事√构冢” “怎么了?”我有些...
    開封第一講書人閱讀 164,133評論 0 354
  • 文/不壞的土叔 我叫張陵哥桥,是天一觀的道長辙浑。 經(jīng)常有香客問我,道長拟糕,這世上最難降的妖魔是什么判呕? 我笑而不...
    開封第一講書人閱讀 58,532評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮送滞,結(jié)果婚禮上侠草,老公的妹妹穿的比我還像新娘。我一直安慰自己犁嗅,他們只是感情好边涕,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,585評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著褂微,像睡著了一般功蜓。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上宠蚂,一...
    開封第一講書人閱讀 51,462評論 1 302
  • 那天式撼,我揣著相機(jī)與錄音,去河邊找鬼求厕。 笑死著隆,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的呀癣。 我是一名探鬼主播美浦,決...
    沈念sama閱讀 40,262評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼十艾!你這毒婦竟也來了抵代?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,153評論 0 276
  • 序言:老撾萬榮一對情侶失蹤忘嫉,失蹤者是張志新(化名)和其女友劉穎荤牍,沒想到半個月后案腺,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,587評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡康吵,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,792評論 3 336
  • 正文 我和宋清朗相戀三年劈榨,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片晦嵌。...
    茶點(diǎn)故事閱讀 39,919評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡同辣,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出惭载,到底是詐尸還是另有隱情旱函,我是刑警寧澤,帶...
    沈念sama閱讀 35,635評論 5 345
  • 正文 年R本政府宣布描滔,位于F島的核電站棒妨,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏含长。R本人自食惡果不足惜券腔,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,237評論 3 329
  • 文/蒙蒙 一乱豆、第九天 我趴在偏房一處隱蔽的房頂上張望瓜喇。 院中可真熱鬧,春花似錦三妈、人聲如沸陪腌。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,855評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽偷厦。三九已至商叹,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間只泼,已是汗流浹背剖笙。 一陣腳步聲響...
    開封第一講書人閱讀 32,983評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留请唱,地道東北人弥咪。 一個月前我還...
    沈念sama閱讀 48,048評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像十绑,于是被迫代替她去往敵國和親聚至。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,864評論 2 354