python爬蟲之Scrapy框架 + MongoDB朴乖,爬取CBA聯(lián)盟所有球員基本信息

CBA聯(lián)賽正進(jìn)行得如火如荼祖屏,而20支CBA球隊(duì)各自的陣容深度究竟幾何?
Scrapy框架 + MongoDB买羞,獲取CBA中國男籃所有球隊(duì)球員的基本信息袁勺,以便往后的數(shù)據(jù)分析使用。

開發(fā)環(huán)境

  • python3.7
  • Scrapy框架及其組件
  • json模塊
  • pymongo模塊

獲取分析:

1.獲取球隊(duì)鏈接
獲取球隊(duì)鏈接的網(wǎng)頁是通過Ajax技術(shù)異步加載得到畜普。
通過抓包發(fā)現(xiàn)期丰,所需的數(shù)據(jù)正是json格式,是理想中的情況吃挑。

#解析球隊(duì)鏈接:
def parse(self, response):    
        club0 = json.loads(response.text)
        clubs = club0['data']
        baseurl = "https://api-all.9h-sports.com/cba-data/api/cba/v1/league/player-history?clubId={}"
        for oneclub in clubs:
            clubname = oneclub['name']
            clubid = oneclub['club_id']
            cluburl = baseurl.format(clubid)
            print (clubname + cluburl)
            yield scrapy.Request(url=cluburl,callback=self.parsecluburl,dont_filter=True,meta={'clubname':clubname}) 

2.進(jìn)入各支球隊(duì)URL鏈接頁面咐汞,獲取球隊(duì)名單下所有球員的數(shù)據(jù)。
通過抓包發(fā)現(xiàn)儒鹿,所需要的球員數(shù)據(jù)同樣是通過Ajax技術(shù)異步加載得到,且數(shù)據(jù)格式也和上一個(gè)頁面相同几晤,還是json格式的數(shù)據(jù)约炎。

#解析球員數(shù)據(jù)
def parsecluburl(self,response0):
        players0 = json.loads(response0.text)
        players = players0['data']
        for player in players:
...

                allitem = items.CbaplayerItem( 
                          playername = playername,
                          playernumber = playernumber,
                          playercountry = playercountry,
                          playerposition = playerposition,
                          playerheight = playerheight,
                          playerweight = playerweight,
                          playerbirth = playerbirth,
                          playerclub = playerclub
                          )
                yield allitem

最后將獲取到的所有球員的數(shù)據(jù)通過pipelines組件存入MongoDB數(shù)據(jù)庫。

#pipelines入庫
import pymongo
import json

class CbaplayerPipeline(object):
    def __init__(self):
        self.conn = pymongo.MongoClient(host='127.0.0.1',port=27017) #連接數(shù)據(jù)庫
        self.dbb = self.conn.cbaplayers #創(chuàng)建數(shù)據(jù)庫
        self.dbbcc = self.dbb.cbaplayer0 #創(chuàng)建集合

    def process_item(self, item, spider):
        item = dict(item)
        self.dbbcc.insert(item)
        return item

結(jié)果展示:

廣東集合蟹瘾!
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末圾浅,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子憾朴,更是在濱河造成了極大的恐慌狸捕,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,539評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件众雷,死亡現(xiàn)場(chǎng)離奇詭異灸拍,居然都是意外死亡做祝,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,594評(píng)論 3 396
  • 文/潘曉璐 我一進(jìn)店門鸡岗,熙熙樓的掌柜王于貴愁眉苦臉地迎上來混槐,“玉大人,你說我怎么就攤上這事轩性∩牵” “怎么了?”我有些...
    開封第一講書人閱讀 165,871評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵揣苏,是天一觀的道長(zhǎng)悯嗓。 經(jīng)常有香客問我,道長(zhǎng)卸察,這世上最難降的妖魔是什么脯厨? 我笑而不...
    開封第一講書人閱讀 58,963評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮蛾派,結(jié)果婚禮上俄认,老公的妹妹穿的比我還像新娘。我一直安慰自己洪乍,他們只是感情好眯杏,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,984評(píng)論 6 393
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著壳澳,像睡著了一般岂贩。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上巷波,一...
    開封第一講書人閱讀 51,763評(píng)論 1 307
  • 那天萎津,我揣著相機(jī)與錄音,去河邊找鬼抹镊。 笑死锉屈,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的垮耳。 我是一名探鬼主播颈渊,決...
    沈念sama閱讀 40,468評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼终佛!你這毒婦竟也來了俊嗽?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,357評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤铃彰,失蹤者是張志新(化名)和其女友劉穎绍豁,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體牙捉,經(jīng)...
    沈念sama閱讀 45,850評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡竹揍,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,002評(píng)論 3 338
  • 正文 我和宋清朗相戀三年敬飒,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片鬼佣。...
    茶點(diǎn)故事閱讀 40,144評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡驶拱,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出晶衷,到底是詐尸還是另有隱情蓝纲,我是刑警寧澤,帶...
    沈念sama閱讀 35,823評(píng)論 5 346
  • 正文 年R本政府宣布晌纫,位于F島的核電站税迷,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏锹漱。R本人自食惡果不足惜箭养,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,483評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望哥牍。 院中可真熱鬧毕泌,春花似錦、人聲如沸嗅辣。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,026評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽澡谭。三九已至愿题,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間蛙奖,已是汗流浹背潘酗。 一陣腳步聲響...
    開封第一講書人閱讀 33,150評(píng)論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留雁仲,地道東北人仔夺。 一個(gè)月前我還...
    沈念sama閱讀 48,415評(píng)論 3 373
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像攒砖,于是被迫代替她去往敵國和親囚灼。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,092評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • 第一部分 HTML&CSS整理答案 1. 什么是HTML5祭衩? 答:HTML5是最新的HTML標(biāo)準(zhǔn)。 注意:講述HT...
    kismetajun閱讀 27,490評(píng)論 1 45
  • 面試題一:https://github.com/jimuyouyou/node-interview-questio...
    R_X閱讀 1,624評(píng)論 0 5
  • 一:什么是閉包阅签?閉包的用處掐暮? (1)閉包就是能夠讀取其他函數(shù)內(nèi)部變量的函數(shù)。在本質(zhì)上政钟,閉包就 是將函數(shù)內(nèi)部和函數(shù)外...
    xuguibin閱讀 9,622評(píng)論 1 52
  • 塞北天寒山染霜路克,南方秋艷菊花黃樟结。暮煙棹遠(yuǎn)渡溪淺,稻穗彎腰谷飽漿精算。雨打荷殘魂墜落瓢宦,風(fēng)吹云倦雁橫翔。莫為秋離懷悵望灰羽,保...
    濤頭立閱讀 865評(píng)論 0 1
  • 二寶四個(gè)月過兩天了驮履,還在享受媽媽的陪伴,享受純天然的母乳廉嚼,算是個(gè)幸福寶寶吧玫镐,雖然有時(shí)我陪他睡覺時(shí)會(huì)玩手機(jī)把手鬧醒。...
    小丫屠閱讀 289評(píng)論 0 0