前言
原文鏈接:https://seattleboy.github.io/2018/03/11/Script-1/
????過(guò)了狗年姻锁,又老了一歲枕赵,也進(jìn)入研二下學(xué)期了。2018年接下來(lái)的幾個(gè)月相繼面臨著實(shí)習(xí)位隶、找工作等拷窜,也是該好好學(xué)點(diǎn)兒出去能掙口飯吃的本領(lǐng)了,特爬了200萬(wàn)的知乎用戶數(shù)據(jù)做些數(shù)據(jù)分析涧黄、機(jī)器學(xué)習(xí)等工作來(lái)練練手篮昧。本文是百萬(wàn)知乎數(shù)據(jù)的第一篇,接下來(lái)的博文我會(huì)對(duì)從不同的角度挖掘這些數(shù)據(jù)隱含的一些有趣的信息笋妥。
思路來(lái)源
????之前看了很多網(wǎng)上的大牛爬了上百萬(wàn)的知乎用戶數(shù)據(jù)進(jìn)行分析恋谭,對(duì)這樣的事情很感興趣,因?yàn)樽约浩綍r(shí)也做這個(gè)方向挽鞠,以后也想要找這個(gè)方面的工作疚颊。遂網(wǎng)上找了GitHub上的知乎爬蟲爬了兩百萬(wàn)的知乎用戶數(shù)據(jù)(上個(gè)月爬的數(shù)據(jù),具有一定的時(shí)效性信认,僅供參考和娛樂(lè)使用)材义,做些數(shù)據(jù)分析或者機(jī)器學(xué)習(xí)方面的嘗試。
????我目前已經(jīng)看到三篇這樣的文章嫁赏,都對(duì)我有很大的啟發(fā),在這里引用一下其掂,其中的爬蟲也來(lái)自第一篇文章的作者的GitHub,而第二篇文章則主要分析了國(guó)內(nèi)的名校的程序員們都去哪里工作了潦蝇?有一部分講了BAT公司里面每個(gè)名校學(xué)生的比例款熬,我因此誕生了看下國(guó)內(nèi)的主要互聯(lián)網(wǎng)公司里員工的主要學(xué)校分布的想法,所以有了這篇文章攘乒。
- 百萬(wàn)知乎用戶數(shù)據(jù)分析
- 爬了知乎200萬(wàn)數(shù)據(jù)贤牛,圖說(shuō)程序員都喜歡去哪兒工作
- 大數(shù)據(jù)報(bào)告:知乎百萬(wàn)用戶分析
數(shù)據(jù)總結(jié)
- 共200萬(wàn)數(shù)據(jù),刪去學(xué)校和公司為空的還剩8萬(wàn)多條则酝,再刪去非主要互聯(lián)網(wǎng)公司的殉簸,還剩將近1萬(wàn)條。
- 分析工具:Python+pandas+BDP個(gè)人版
- 分析角度:公司統(tǒng)計(jì)沽讹、學(xué)校統(tǒng)計(jì)般卑、職位統(tǒng)計(jì)等
數(shù)據(jù)總體展示
????首先是這次篩選的互聯(lián)網(wǎng)公司和主要城市的統(tǒng)計(jì)(如下圖),本文都是采用的詞云圖(字越大說(shuō)明頻率越高)爽雄。從圖片里面不難看出蝠检,常規(guī)的BAT、華為挚瘟、網(wǎng)易等都在此次篩選的數(shù)據(jù)里面叹谁,同時(shí)主要的程序猿也主要分布在北京迟杂、上海、杭州本慕、深圳等(BAT各自的總部嘛)排拷。
????接下來(lái)是職位的統(tǒng)計(jì),篩選的大部分都是互聯(lián)網(wǎng)公司锅尘,可以從圖中看到上面的圖中互聯(lián)網(wǎng)公司中的不同職位程序猿在知乎的活躍程度监氢。不出意外,分布最多是產(chǎn)品經(jīng)理藤违、前端等浪腐,看來(lái)這些人在知乎上比較活躍呀。
????既然說(shuō)到了不同學(xué)校的幫派統(tǒng)計(jì)顿乒,就要先看在我篩選的所有互聯(lián)網(wǎng)公司各個(gè)學(xué)校程序員的主要分布情況议街。北郵,華科璧榄,浙大特漩,武漢大學(xué),清華骨杂,北大南大涂身,上海交大,西電搓蚪,哈工大等等的程序猿還是很多的蛤售,說(shuō)明這些程序猿專注代碼的同時(shí)還經(jīng)常在知乎上溜達(dá)溜達(dá)~。
各互聯(lián)網(wǎng)公司展示
????上面的圖片只是給數(shù)據(jù)一個(gè)大概的展示妒潭,接下來(lái)才是每個(gè)主要互聯(lián)網(wǎng)公司內(nèi)部的不同學(xué)校的程序猿主要分布情況悴能,各位看官如果跟我一樣面臨實(shí)習(xí)和找工作,可以參考下看看哪里的校友比較多(下面的排名沒(méi)有順序雳灾,是我隨意亂排的)漠酿。