數(shù)據(jù)全裸時(shí)代,有哪些「神奇」的數(shù)據(jù)獲取方式?

關(guān)注小聚,數(shù)據(jù)分析不迷路

眾所周知,數(shù)據(jù)是產(chǎn)生價(jià)值的原材料亲善,這也是數(shù)據(jù)分析項(xiàng)目的第一步设易。

無論是對于初級數(shù)據(jù)分析師,還是數(shù)據(jù)分析科學(xué)家蛹头,能夠找到合適的數(shù)據(jù)源都是非常重要的顿肺。特別是想要對一個(gè)新的領(lǐng)域進(jìn)行研究和探索,擁有這個(gè)領(lǐng)域的數(shù)據(jù)那都是有十分重要的意義的渣蜗。

那今天,小聚在這里給大家推薦一些常用的數(shù)據(jù)獲取方式屠尊,有了這些資源,不僅可以在數(shù)據(jù)收集的效率上能夠得到很大的提升耕拷,同時(shí)也可以學(xué)習(xí)更多思維方式讼昆。

數(shù)據(jù)來源渠道

一般來講,數(shù)據(jù)來源主要分為兩大類骚烧,企業(yè)外部來源和內(nèi)部來源浸赫,其中外部來源包括外部購買、網(wǎng)絡(luò)爬取赃绊、免費(fèi)開源數(shù)據(jù)等既峡,內(nèi)部數(shù)據(jù)來源包括銷售數(shù)據(jù)、考勤數(shù)據(jù)碧查、財(cái)務(wù)數(shù)據(jù)等运敢。

我們這里主要講外部來源渠道。

網(wǎng)絡(luò)爬取

數(shù)據(jù)分析師可以通過網(wǎng)絡(luò)爬蟲從網(wǎng)絡(luò)上爬取數(shù)據(jù)忠售。優(yōu)點(diǎn)是數(shù)據(jù)有很高的時(shí)效性传惠,其次數(shù)據(jù)的來源可以得到保證,畢竟網(wǎng)上的信息是異常豐富的稻扬。

當(dāng)你在瀏覽網(wǎng)頁時(shí)涉枫,瀏覽器就相當(dāng)于客戶端,會去連接我們要訪問的網(wǎng)站獲取數(shù)據(jù)腐螟,然后通過瀏覽器解析之后展示給我們看,而網(wǎng)絡(luò)爬蟲可以通過代碼模擬人類在瀏覽器上訪問網(wǎng)站困后,獲取相應(yīng)的數(shù)據(jù)乐纸,然后經(jīng)過處理后保存成文件或存儲到數(shù)據(jù)庫中供我們使用。

這些分布在網(wǎng)上零散的信息摇予,通過爬取整合之后汽绢,就有比較高的分析價(jià)值。

爬蟲固然好,但是操作起來對于技術(shù)還是有一定要求的侧戴。在爬蟲之前需要先了解一些 Python 的基礎(chǔ)知識:數(shù)據(jù)類型(列表宁昭、字典跌宛、元組等)、變量积仗、循環(huán)疆拘、函數(shù)……… 以及,如何用 Python 庫(urllib、BeautifulSoup寂曹、requests等)實(shí)現(xiàn)網(wǎng)頁爬蟲哎迄。如果是初學(xué),建議從 ? requests+xpath 開始隆圆。

公開數(shù)據(jù)

當(dāng)然漱挚,并不是說公開數(shù)據(jù)就沒用了,在進(jìn)行分析的時(shí)候渺氧,需要一些歷史數(shù)據(jù)進(jìn)行對比旨涝,需要一定的行業(yè)標(biāo)準(zhǔn)進(jìn)行參考的時(shí)候,公開數(shù)據(jù)的價(jià)值就體現(xiàn)出來了侣背。

一些科研機(jī)構(gòu)白华、企業(yè)、政府會開放一些數(shù)據(jù)秃踩,還有一些行業(yè)研究報(bào)告衬鱼、他人的調(diào)查結(jié)果,都可以成為你的數(shù)據(jù)來源憔杨。這些數(shù)據(jù)集通常比較完善鸟赫、質(zhì)量相對較高。

下面就介紹一些常用公開數(shù)據(jù)庫:

一消别、網(wǎng)絡(luò)指數(shù)

百度指數(shù)

https://index.baidu.com/v2/index.html#/

大家都很熟悉的指數(shù)查詢平臺抛蚤,可以根據(jù)指數(shù)的變化查看某個(gè)主題在各個(gè)時(shí)間段受關(guān)注的情況,進(jìn)行趨勢分析寻狂、輿情預(yù)測有很好的指導(dǎo)作用岁经。

阿里指數(shù)

https://alizs.taobao.com/

國內(nèi)權(quán)威的商品交易分析工具,可以按地域蛇券、按行業(yè)查看商品搜索和交易數(shù)據(jù)缀壤,基本能夠看出國內(nèi)商品交易的概況。

熱搜榜單首頁--百度搜索風(fēng)云榜

https://top.baidu.com/board

艾曼指數(shù)

http://www.imzs.com/

適合新媒體從業(yè)者使用纠亚。

友盟指數(shù)

http://www.umeng.com/

友盟在移動互聯(lián)網(wǎng)應(yīng)用數(shù)據(jù)統(tǒng)計(jì)和分析具有較為全面的統(tǒng)計(jì)和分析塘慕,對于研究移動端產(chǎn)品、做市場調(diào)研蒂胞、用戶行為分析很有幫助图呢。

二、公開數(shù)據(jù)庫

?? 國家數(shù)據(jù)(經(jīng)濟(jì))

http://data.stats.gov.cn/index.htm

數(shù)據(jù)來源于中國國家統(tǒng)計(jì)局,包含了我國經(jīng)濟(jì)民生等多個(gè)方面的數(shù)據(jù)蛤织,并且在月度赴叹、季度、年度都有覆蓋指蚜,較為全面和權(quán)威,對于社會科學(xué)的研究不要太有幫助姚炕。

中國統(tǒng)計(jì)信息網(wǎng)(經(jīng)濟(jì))

http://www.tjcn.org/

企業(yè)信息—天眼查(企業(yè)工商信息查詢)

https://www.tianyancha.com/

平臺報(bào)告-零壹數(shù)據(jù)(金融數(shù)據(jù))

http://data.01caijing.com/p2p/report/index.html

中國—巨潮資訊網(wǎng)(上市公司年報(bào))

http://www.cninfo.com.cn/new/index

CEIC

http://www.ceicdata.com/zh-hans

最完整的一套超過128個(gè)國家的經(jīng)濟(jì)數(shù)據(jù)摊欠,能夠精確查找GDP, CPI, 進(jìn)口,出口柱宦,外資直接投資些椒,零售,銷售掸刊,以及國際利率等深度數(shù)據(jù)免糕。

搜數(shù)網(wǎng)

http://www.soshoo.com/

匯集了中國資訊行自92年以來收集的所有統(tǒng)計(jì)和調(diào)查數(shù)據(jù),并提供多樣化的搜索功能忧侧。

三石窑、行業(yè)數(shù)據(jù)庫

數(shù)據(jù)中心-世界汽車統(tǒng)計(jì)(汽車數(shù)據(jù))

http://www.caam.org.cn/data/

世界衛(wèi)生組織 | 規(guī)劃和項(xiàng)目(醫(yī)療數(shù)據(jù))

https://apps.who.int/iris/

今日國際原油價(jià)格-油價(jià)網(wǎng)(工業(yè)指數(shù))

http://youjia.chemcp.com/YuanYouJiaGe.asp

四、其他數(shù)據(jù)

figshare

https://figshare.com/

研究成果共享平臺蚓炬,在這里你會發(fā)現(xiàn)來自世界的大牛們的研究成果分享松逊,同時(shí)get其中的研究數(shù)據(jù),內(nèi)容很有啟發(fā)性肯夏,網(wǎng)站頗具設(shè)計(jì)感经宏。

github

https://github.com/caesar0301/awesome-public-datasets

如果覺得前面的數(shù)據(jù)源還不夠,github上的大神已經(jīng)為大家整理好了一個(gè)非常全面的數(shù)據(jù)獲取渠道驯击,包含各個(gè)細(xì)分領(lǐng)域的數(shù)據(jù)庫資源烁兰,自然科學(xué)和社會科學(xué)的覆蓋都很全面,簡直是做研究和數(shù)據(jù)分析的利器徊都。

小結(jié)

這些只是網(wǎng)站沪斟,具體用法太多了,就沒有分享單個(gè)教程暇矫。

強(qiáng)調(diào):網(wǎng)站用的好主之,真的能用出花來,比如百度指數(shù)+百度新聞=客戶和競品的傳播節(jié)奏李根。具體網(wǎng)站的功能多試試槽奕,不要執(zhí)著于網(wǎng)站,要多變通思路朱巨,希望能找到想要的數(shù)據(jù)。

END

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末枉长,一起剝皮案震驚了整個(gè)濱河市冀续,隨后出現(xiàn)的幾起案子琼讽,更是在濱河造成了極大的恐慌,老刑警劉巖洪唐,帶你破解...
    沈念sama閱讀 211,561評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件钻蹬,死亡現(xiàn)場離奇詭異,居然都是意外死亡凭需,警方通過查閱死者的電腦和手機(jī)问欠,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,218評論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來粒蜈,“玉大人顺献,你說我怎么就攤上這事】莶溃” “怎么了注整?”我有些...
    開封第一講書人閱讀 157,162評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長度硝。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么均践? 我笑而不...
    開封第一講書人閱讀 56,470評論 1 283
  • 正文 為了忘掉前任藕施,我火速辦了婚禮,結(jié)果婚禮上藻茂,老公的妹妹穿的比我還像新娘驹暑。我一直安慰自己,他們只是感情好捌治,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,550評論 6 385
  • 文/花漫 我一把揭開白布岗钩。 她就那樣靜靜地躺著,像睡著了一般肖油。 火紅的嫁衣襯著肌膚如雪兼吓。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,806評論 1 290
  • 那天森枪,我揣著相機(jī)與錄音视搏,去河邊找鬼。 笑死县袱,一個(gè)胖子當(dāng)著我的面吹牛浑娜,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播式散,決...
    沈念sama閱讀 38,951評論 3 407
  • 文/蒼蘭香墨 我猛地睜開眼筋遭,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起漓滔,我...
    開封第一講書人閱讀 37,712評論 0 266
  • 序言:老撾萬榮一對情侶失蹤编饺,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后响驴,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體透且,經(jīng)...
    沈念sama閱讀 44,166評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,510評論 2 327
  • 正文 我和宋清朗相戀三年豁鲤,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了秽誊。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,643評論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡琳骡,死狀恐怖锅论,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情日熬,我是刑警寧澤棍厌,帶...
    沈念sama閱讀 34,306評論 4 330
  • 正文 年R本政府宣布,位于F島的核電站竖席,受9級特大地震影響耘纱,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜毕荐,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,930評論 3 313
  • 文/蒙蒙 一束析、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧憎亚,春花似錦员寇、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,745評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至什往,卻和暖如春扳缕,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背别威。 一陣腳步聲響...
    開封第一講書人閱讀 31,983評論 1 266
  • 我被黑心中介騙來泰國打工躯舔, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人省古。 一個(gè)月前我還...
    沈念sama閱讀 46,351評論 2 360
  • 正文 我出身青樓粥庄,卻偏偏與公主長得像,于是被迫代替她去往敵國和親豺妓。 傳聞我的和親對象是個(gè)殘疾皇子惜互,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,509評論 2 348

推薦閱讀更多精彩內(nèi)容