十九. 實戰(zhàn) - MongoDB存儲 (豆瓣音樂Top250)

爬取網(wǎng)址：https://music.douban.com/top250
爬取信息：歌曲名爹袁，表演者远荠，流派，發(fā)行時間失息，出版者譬淳，評分
爬取方式：進入詳細頁面爬取，lxml盹兢，re解析邻梆。
存儲方式：MongoDB存儲

image.png

獲取actor,style,publish_time,publisher字段時使用了正則表達式，相比定位標(biāo)簽定位信息绎秒，能更精確地匹配到信息浦妄，減少匹配錯誤。
使用語句if len(publishers) == 0: else:來判斷空信息替裆。

import requests
from lxml import etree
import re
import pymongo
import time

def get_details_url(url):
    r = requests.get(url,headers = headers)
    html = etree.HTML(r.text)
    song_urls = html.xpath('//a[@class="nbg"]/@href')
    return song_urls

def get_info(url):
    r = requests.get(url,headers=headers)
    html = etree.HTML(r.text)
    name = html.xpath('//div[@id="wrapper"]/h1/span/text()')[0]
    actor = re.findall("表演者:.*?>(.*?)</a>",r.text,re.S)[0]

    styles = re.findall(r"流派:</span>&nbsp;(.*?)<br />",r.text,re.S)
    if len(styles) == 0:
        style = "未知"
    else:
        style = styles[0].strip()
        
    publish_time = re.findall(r"發(fā)行時間:</span>&nbsp;(.*?)<br />",r.text,re.S)[0].strip()

    publishers = re.findall(r"出版者:</span>&nbsp;(.*?)<br />",r.text,re.S)
    if len(publishers) == 0:
        publisher = "未知"
    else:
        publisher = publishers[0].strip()
        
    score = html.xpath('//strong[@class="ll rating_num"]/text()')[0]
    
    #print(name,actor,style,publish_time,publisher,score)
    info = {
        '歌曲名':name,
        '表演者':actor,
        '流派':style,
        '發(fā)行時間':publish_time,
        '出版者':publisher,
        '評分':score
        }
    topmusic.insert_one(info)  ##插入數(shù)據(jù),保存到數(shù)據(jù)庫中校辩。  

if __name__=="__main__":
    client = pymongo.MongoClient('localhost',27017)
    mydb = client['mydb']
    topmusic = mydb['topmusic']   #連接數(shù)據(jù)庫窘问，并創(chuàng)建數(shù)據(jù)庫和集合
    
    headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3294.6 Safari/537.36'}
        
    url_list = ['https://music.douban.com/top250?start={}'.format(i*25) for i in range(0,10)]  #共10頁
    for url in url_list:
        song_urls = get_details_url(url)
        for song_url in song_urls:
            get_info(song_url)
            time.sleep(2)

最后編輯于：2018.02.21 00:38:15

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末辆童，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子惠赫，更是在濱河造成了極大的恐慌把鉴，老刑警劉巖，帶你破解...
沈念sama閱讀 206,482評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件儿咱，死亡現(xiàn)場離奇詭異庭砍，居然都是意外死亡，警方通過查閱死者的電腦和手機混埠，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,377評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門怠缸，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人钳宪，你說我怎么就攤上這事揭北“饩妫” “怎么了？”我有些...
開封第一講書人閱讀 152,762評論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵搔体，是天一觀的道長恨樟。經(jīng)常有香客問我，道長疚俱，這世上最難降的妖魔是什么劝术？我笑而不...
開封第一講書人閱讀 55,273評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮呆奕，結(jié)果婚禮上养晋，老公的妹妹穿的比我還像新娘。我一直安慰自己登馒，他們只是感情好匙握，可當(dāng)我...
茶點故事閱讀 64,289評論 5贊 373
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著陈轿，像睡著了一般圈纺。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上麦射，一...
開封第一講書人閱讀 49,046評論 1贊 285
城市分裂傳說
那天蛾娶，我揣著相機與錄音，去河邊找鬼潜秋。笑死蛔琅，一個胖子當(dāng)著我的面吹牛钠至，可吹牛的內(nèi)容都是我干的挂脑。我是一名探鬼主播，決...
沈念sama閱讀 38,351評論 3贊 400
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼奖恰，長吁一口氣：“原來是場噩夢啊……” “哼钩述！你這毒婦竟也來了寨躁？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 36,988評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤牙勘，失蹤者是張志新（化名）和其女友劉穎职恳，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體方面，經(jīng)...
沈念sama閱讀 43,476評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡放钦，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 35,948評論 2贊 324
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了恭金。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片操禀。...
茶點故事閱讀 38,064評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖横腿，靈堂內(nèi)的尸體忽然破棺而出颓屑，到底是詐尸還是另有隱情辙培，我是刑警寧澤，帶...
沈念sama閱讀 33,712評論 4贊 323
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布邢锯，位于F島的核電站扬蕊，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏丹擎。R本人自食惡果不足惜尾抑，卻給世界環(huán)境...
茶點故事閱讀 39,261評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望蒂培。院中可真熱鬧再愈，春花似錦、人聲如沸护戳。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,264評論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽媳荒。三九已至抗悍，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間钳枕，已是汗流浹背缴渊。一陣腳步聲響...
開封第一講書人閱讀 31,486評論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留鱼炒，地道東北人衔沼。一個月前我還...
沈念sama閱讀 45,511評論 2贊 354
代替公主和親
正文我出身青樓，卻偏偏與公主長得像昔瞧，于是被迫代替她去往敵國和親指蚁。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 42,802評論 2贊 345

十九. 實戰(zhàn) - MongoDB存儲 (豆瓣音樂Top250)

推薦閱讀更多精彩內(nèi)容