關(guān)注小聚,數(shù)據(jù)分析不迷路
眾所周知,數(shù)據(jù)是產(chǎn)生價(jià)值的原材料亲善,這也是數(shù)據(jù)分析項(xiàng)目的第一步设易。
無論是對于初級數(shù)據(jù)分析師,還是數(shù)據(jù)分析科學(xué)家蛹头,能夠找到合適的數(shù)據(jù)源都是非常重要的顿肺。特別是想要對一個(gè)新的領(lǐng)域進(jìn)行研究和探索,擁有這個(gè)領(lǐng)域的數(shù)據(jù)那都是有十分重要的意義的渣蜗。
那今天,小聚在這里給大家推薦一些常用的數(shù)據(jù)獲取方式屠尊,有了這些資源,不僅可以在數(shù)據(jù)收集的效率上能夠得到很大的提升耕拷,同時(shí)也可以學(xué)習(xí)更多思維方式讼昆。
數(shù)據(jù)來源渠道
一般來講,數(shù)據(jù)來源主要分為兩大類骚烧,企業(yè)外部來源和內(nèi)部來源浸赫,其中外部來源包括外部購買、網(wǎng)絡(luò)爬取赃绊、免費(fèi)開源數(shù)據(jù)等既峡,內(nèi)部數(shù)據(jù)來源包括銷售數(shù)據(jù)、考勤數(shù)據(jù)碧查、財(cái)務(wù)數(shù)據(jù)等运敢。
我們這里主要講外部來源渠道。
網(wǎng)絡(luò)爬取
數(shù)據(jù)分析師可以通過網(wǎng)絡(luò)爬蟲從網(wǎng)絡(luò)上爬取數(shù)據(jù)忠售。優(yōu)點(diǎn)是數(shù)據(jù)有很高的時(shí)效性传惠,其次數(shù)據(jù)的來源可以得到保證,畢竟網(wǎng)上的信息是異常豐富的稻扬。
當(dāng)你在瀏覽網(wǎng)頁時(shí)涉枫,瀏覽器就相當(dāng)于客戶端,會去連接我們要訪問的網(wǎng)站獲取數(shù)據(jù)腐螟,然后通過瀏覽器解析之后展示給我們看,而網(wǎng)絡(luò)爬蟲可以通過代碼模擬人類在瀏覽器上訪問網(wǎng)站困后,獲取相應(yīng)的數(shù)據(jù)乐纸,然后經(jīng)過處理后保存成文件或存儲到數(shù)據(jù)庫中供我們使用。
這些分布在網(wǎng)上零散的信息摇予,通過爬取整合之后汽绢,就有比較高的分析價(jià)值。
爬蟲固然好,但是操作起來對于技術(shù)還是有一定要求的侧戴。在爬蟲之前需要先了解一些 Python 的基礎(chǔ)知識:數(shù)據(jù)類型(列表宁昭、字典跌宛、元組等)、變量积仗、循環(huán)疆拘、函數(shù)……… 以及,如何用 Python 庫(urllib、BeautifulSoup寂曹、requests等)實(shí)現(xiàn)網(wǎng)頁爬蟲哎迄。如果是初學(xué),建議從 ? requests+xpath 開始隆圆。
公開數(shù)據(jù)
當(dāng)然漱挚,并不是說公開數(shù)據(jù)就沒用了,在進(jìn)行分析的時(shí)候渺氧,需要一些歷史數(shù)據(jù)進(jìn)行對比旨涝,需要一定的行業(yè)標(biāo)準(zhǔn)進(jìn)行參考的時(shí)候,公開數(shù)據(jù)的價(jià)值就體現(xiàn)出來了侣背。
一些科研機(jī)構(gòu)白华、企業(yè)、政府會開放一些數(shù)據(jù)秃踩,還有一些行業(yè)研究報(bào)告衬鱼、他人的調(diào)查結(jié)果,都可以成為你的數(shù)據(jù)來源憔杨。這些數(shù)據(jù)集通常比較完善鸟赫、質(zhì)量相對較高。
下面就介紹一些常用公開數(shù)據(jù)庫:
一消别、網(wǎng)絡(luò)指數(shù)
百度指數(shù)
https://index.baidu.com/v2/index.html#/
大家都很熟悉的指數(shù)查詢平臺抛蚤,可以根據(jù)指數(shù)的變化查看某個(gè)主題在各個(gè)時(shí)間段受關(guān)注的情況,進(jìn)行趨勢分析寻狂、輿情預(yù)測有很好的指導(dǎo)作用岁经。
阿里指數(shù)
https://alizs.taobao.com/
國內(nèi)權(quán)威的商品交易分析工具,可以按地域蛇券、按行業(yè)查看商品搜索和交易數(shù)據(jù)缀壤,基本能夠看出國內(nèi)商品交易的概況。
熱搜榜單首頁--百度搜索風(fēng)云榜
https://top.baidu.com/board
艾曼指數(shù)
http://www.imzs.com/
適合新媒體從業(yè)者使用纠亚。
友盟指數(shù)
http://www.umeng.com/
友盟在移動互聯(lián)網(wǎng)應(yīng)用數(shù)據(jù)統(tǒng)計(jì)和分析具有較為全面的統(tǒng)計(jì)和分析塘慕,對于研究移動端產(chǎn)品、做市場調(diào)研蒂胞、用戶行為分析很有幫助图呢。
二、公開數(shù)據(jù)庫
?? 國家數(shù)據(jù)(經(jīng)濟(jì))
http://data.stats.gov.cn/index.htm
數(shù)據(jù)來源于中國國家統(tǒng)計(jì)局,包含了我國經(jīng)濟(jì)民生等多個(gè)方面的數(shù)據(jù)蛤织,并且在月度赴叹、季度、年度都有覆蓋指蚜,較為全面和權(quán)威,對于社會科學(xué)的研究不要太有幫助姚炕。
中國統(tǒng)計(jì)信息網(wǎng)(經(jīng)濟(jì))
http://www.tjcn.org/
企業(yè)信息—天眼查(企業(yè)工商信息查詢)
https://www.tianyancha.com/
平臺報(bào)告-零壹數(shù)據(jù)(金融數(shù)據(jù))
http://data.01caijing.com/p2p/report/index.html
中國—巨潮資訊網(wǎng)(上市公司年報(bào))
http://www.cninfo.com.cn/new/index
CEIC
http://www.ceicdata.com/zh-hans
最完整的一套超過128個(gè)國家的經(jīng)濟(jì)數(shù)據(jù)摊欠,能夠精確查找GDP, CPI, 進(jìn)口,出口柱宦,外資直接投資些椒,零售,銷售掸刊,以及國際利率等深度數(shù)據(jù)免糕。
搜數(shù)網(wǎng)
http://www.soshoo.com/
匯集了中國資訊行自92年以來收集的所有統(tǒng)計(jì)和調(diào)查數(shù)據(jù),并提供多樣化的搜索功能忧侧。
三石窑、行業(yè)數(shù)據(jù)庫
數(shù)據(jù)中心-世界汽車統(tǒng)計(jì)(汽車數(shù)據(jù))
http://www.caam.org.cn/data/
世界衛(wèi)生組織 | 規(guī)劃和項(xiàng)目(醫(yī)療數(shù)據(jù))
https://apps.who.int/iris/
今日國際原油價(jià)格-油價(jià)網(wǎng)(工業(yè)指數(shù))
http://youjia.chemcp.com/YuanYouJiaGe.asp
四、其他數(shù)據(jù)
figshare
https://figshare.com/
研究成果共享平臺蚓炬,在這里你會發(fā)現(xiàn)來自世界的大牛們的研究成果分享松逊,同時(shí)get其中的研究數(shù)據(jù),內(nèi)容很有啟發(fā)性肯夏,網(wǎng)站頗具設(shè)計(jì)感经宏。
github
https://github.com/caesar0301/awesome-public-datasets
如果覺得前面的數(shù)據(jù)源還不夠,github上的大神已經(jīng)為大家整理好了一個(gè)非常全面的數(shù)據(jù)獲取渠道驯击,包含各個(gè)細(xì)分領(lǐng)域的數(shù)據(jù)庫資源烁兰,自然科學(xué)和社會科學(xué)的覆蓋都很全面,簡直是做研究和數(shù)據(jù)分析的利器徊都。
小結(jié)
這些只是網(wǎng)站沪斟,具體用法太多了,就沒有分享單個(gè)教程暇矫。
強(qiáng)調(diào):網(wǎng)站用的好主之,真的能用出花來,比如百度指數(shù)+百度新聞=客戶和競品的傳播節(jié)奏李根。具體網(wǎng)站的功能多試試槽奕,不要執(zhí)著于網(wǎng)站,要多變通思路朱巨,希望能找到想要的數(shù)據(jù)。
END