這些年由于工作的關(guān)系,經(jīng)常需要采集數(shù)據(jù)和做一些簡單的數(shù)據(jù)分析,互聯(lián)網(wǎng)上有很多的數(shù)據(jù)是公開的务豺,如果我們對其進(jìn)行采集和統(tǒng)計,就可以拿到我們想要的嗦明,然后你可以對這些數(shù)據(jù)和結(jié)果進(jìn)行應(yīng)用笼沥。
我們可以采集電商平臺的數(shù)據(jù),然后進(jìn)行統(tǒng)計娶牌,比如跟蹤一個店鋪的銷售數(shù)據(jù)等奔浅,對于賣家可能想要分析一個產(chǎn)品分類的數(shù)據(jù),對于站長可能只是想對采集的商品數(shù)據(jù)做一下聚合裙戏,然后重新發(fā)布到自己的站點(diǎn)乘凸,對于導(dǎo)購站長,可能想收集電商平臺的優(yōu)惠商品累榜,同款商品等信息营勤,用于服務(wù)自己的用戶。
這些年我做了不少電商平臺的數(shù)據(jù)采集壹罚,也實現(xiàn)了一些跟電商有關(guān)的數(shù)據(jù)分析工具葛作,在后面的文章中,我也會介紹一些電商平臺數(shù)據(jù)的采集方法猖凛,電商數(shù)據(jù)的分析與應(yīng)用赂蠢。
對于站長來說,可能更關(guān)心一些SEO相關(guān)的數(shù)據(jù)辨泳,那么我們可以抓取關(guān)鍵詞虱岂,排名等數(shù)據(jù),用這些數(shù)據(jù)來輔助我們進(jìn)行網(wǎng)站建設(shè)菠红,比如抓取百度鳳巢的關(guān)鍵詞數(shù)據(jù)第岖,抓取百度和360關(guān)鍵詞的排名等。
我們可以簡單實現(xiàn)一個系統(tǒng)试溯,這個系統(tǒng)接受一個域名列表蔑滓,然后系統(tǒng)每隔一段時間,可能是每小時或者每天遇绞,就去查詢一下這些域名在百度键袱、360的收錄數(shù)據(jù),然后把這些數(shù)據(jù)記錄下來摹闽,并畫成一個數(shù)據(jù)曲線蹄咖。當(dāng)然你也可以實現(xiàn)一個關(guān)鍵詞排名監(jiān)控系統(tǒng),其實這些都是相通的付鹿,主要就是數(shù)據(jù)采集和記錄罷了澜汤。
除了上面舉例的電商數(shù)據(jù)铝量、站長數(shù)據(jù),你還可以采集股票數(shù)據(jù)银亲、歌曲數(shù)據(jù)、電影數(shù)據(jù)纽匙、團(tuán)購數(shù)據(jù)务蝠、外賣數(shù)據(jù)等等,這取決于你想要用這些數(shù)據(jù)來做些什么烛缔。
至于數(shù)據(jù)的分析馏段,這個可以借助一些語言和開源的程序來進(jìn)行分析,我更喜歡用python來寫采集工具和做數(shù)據(jù)分析践瓷,用Mongodb來做數(shù)據(jù)存儲院喜,也用Eleasticsearch來存儲和檢索數(shù)據(jù),用kibana來做數(shù)據(jù)挖掘晕翠。
對于用什么語言和工具來做數(shù)據(jù)研究喷舀,這并不是固定的,完全是根據(jù)自己的喜好和項目的需求上淋肾。
在后面的文章里我會通過一些例子來介紹我對數(shù)據(jù)的一些采集和應(yīng)用硫麻。
這個網(wǎng)站并不是什么高深的大數(shù)據(jù)分享,都是一些簡單的數(shù)據(jù)采集和分析樊卓,但我們對于大部份人來說已經(jīng)足夠了拿愧。