百萬(wàn)知乎數(shù)據(jù)解說(shuō)互聯(lián)網(wǎng)公司里的學(xué)校幫派

前言

原文鏈接:https://seattleboy.github.io/2018/03/11/Script-1/
????過(guò)了狗年姻锁,又老了一歲枕赵,也進(jìn)入研二下學(xué)期了。2018年接下來(lái)的幾個(gè)月相繼面臨著實(shí)習(xí)位隶、找工作等拷窜,也是該好好學(xué)點(diǎn)兒出去能掙口飯吃的本領(lǐng)了,特爬了200萬(wàn)的知乎用戶數(shù)據(jù)做些數(shù)據(jù)分析涧黄、機(jī)器學(xué)習(xí)等工作來(lái)練練手篮昧。本文是百萬(wàn)知乎數(shù)據(jù)的第一篇,接下來(lái)的博文我會(huì)對(duì)從不同的角度挖掘這些數(shù)據(jù)隱含的一些有趣的信息笋妥。

思路來(lái)源

????之前看了很多網(wǎng)上的大牛爬了上百萬(wàn)的知乎用戶數(shù)據(jù)進(jìn)行分析恋谭,對(duì)這樣的事情很感興趣,因?yàn)樽约浩綍r(shí)也做這個(gè)方向挽鞠,以后也想要找這個(gè)方面的工作疚颊。遂網(wǎng)上找了GitHub上的知乎爬蟲爬了兩百萬(wàn)的知乎用戶數(shù)據(jù)(上個(gè)月爬的數(shù)據(jù),具有一定的時(shí)效性信认,僅供參考和娛樂(lè)使用)材义,做些數(shù)據(jù)分析或者機(jī)器學(xué)習(xí)方面的嘗試。

????我目前已經(jīng)看到三篇這樣的文章嫁赏,都對(duì)我有很大的啟發(fā),在這里引用一下其掂,其中的爬蟲也來(lái)自第一篇文章的作者的GitHub,而第二篇文章則主要分析了國(guó)內(nèi)的名校的程序員們都去哪里工作了潦蝇?有一部分講了BAT公司里面每個(gè)名校學(xué)生的比例款熬,我因此誕生了看下國(guó)內(nèi)的主要互聯(lián)網(wǎng)公司里員工的主要學(xué)校分布的想法,所以有了這篇文章攘乒。

  1. 百萬(wàn)知乎用戶數(shù)據(jù)分析
  2. 爬了知乎200萬(wàn)數(shù)據(jù)贤牛,圖說(shuō)程序員都喜歡去哪兒工作
  3. 大數(shù)據(jù)報(bào)告:知乎百萬(wàn)用戶分析

數(shù)據(jù)總結(jié)

  1. 共200萬(wàn)數(shù)據(jù),刪去學(xué)校和公司為空的還剩8萬(wàn)多條则酝,再刪去非主要互聯(lián)網(wǎng)公司的殉簸,還剩將近1萬(wàn)條。
  2. 分析工具:Python+pandas+BDP個(gè)人版
  3. 分析角度:公司統(tǒng)計(jì)沽讹、學(xué)校統(tǒng)計(jì)般卑、職位統(tǒng)計(jì)等

數(shù)據(jù)總體展示

????首先是這次篩選的互聯(lián)網(wǎng)公司和主要城市的統(tǒng)計(jì)(如下圖),本文都是采用的詞云圖(字越大說(shuō)明頻率越高)爽雄。從圖片里面不難看出蝠检,常規(guī)的BAT、華為挚瘟、網(wǎng)易等都在此次篩選的數(shù)據(jù)里面叹谁,同時(shí)主要的程序猿也主要分布在北京迟杂、上海、杭州本慕、深圳等(BAT各自的總部嘛)排拷。


公司統(tǒng)計(jì)

城市統(tǒng)計(jì)

????接下來(lái)是職位的統(tǒng)計(jì),篩選的大部分都是互聯(lián)網(wǎng)公司锅尘,可以從圖中看到上面的圖中互聯(lián)網(wǎng)公司中的不同職位程序猿在知乎的活躍程度监氢。不出意外,分布最多是產(chǎn)品經(jīng)理藤违、前端等浪腐,看來(lái)這些人在知乎上比較活躍呀。


工作崗位分布

????既然說(shuō)到了不同學(xué)校的幫派統(tǒng)計(jì)顿乒,就要先看在我篩選的所有互聯(lián)網(wǎng)公司各個(gè)學(xué)校程序員的主要分布情況议街。北郵,華科璧榄,浙大特漩,武漢大學(xué),清華骨杂,北大南大涂身,上海交大,西電搓蚪,哈工大等等的程序猿還是很多的蛤售,說(shuō)明這些程序猿專注代碼的同時(shí)還經(jīng)常在知乎上溜達(dá)溜達(dá)~。


總體學(xué)校統(tǒng)計(jì)

各互聯(lián)網(wǎng)公司展示

????上面的圖片只是給數(shù)據(jù)一個(gè)大概的展示妒潭,接下來(lái)才是每個(gè)主要互聯(lián)網(wǎng)公司內(nèi)部的不同學(xué)校的程序猿主要分布情況悴能,各位看官如果跟我一樣面臨實(shí)習(xí)和找工作,可以參考下看看哪里的校友比較多(下面的排名沒(méi)有順序雳灾,是我隨意亂排的)漠酿。


騰訊

阿里

百度

網(wǎng)易

華為

京東

美團(tuán)_大眾點(diǎn)評(píng)

新浪

滴滴出行
攜程_去哪兒

小米

360

中興_思科

唯品會(huì)搜狐搜狗蘑菇街科大訊飛

微軟谷歌臉書
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市佑女,隨后出現(xiàn)的幾起案子记靡,更是在濱河造成了極大的恐慌,老刑警劉巖团驱,帶你破解...
    沈念sama閱讀 222,104評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異空凸,居然都是意外死亡嚎花,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,816評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門呀洲,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)紊选,“玉大人啼止,你說(shuō)我怎么就攤上這事”眨” “怎么了献烦?”我有些...
    開封第一講書人閱讀 168,697評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)卖词。 經(jīng)常有香客問(wèn)我巩那,道長(zhǎng),這世上最難降的妖魔是什么此蜈? 我笑而不...
    開封第一講書人閱讀 59,836評(píng)論 1 298
  • 正文 為了忘掉前任即横,我火速辦了婚禮,結(jié)果婚禮上裆赵,老公的妹妹穿的比我還像新娘东囚。我一直安慰自己,他們只是感情好战授,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,851評(píng)論 6 397
  • 文/花漫 我一把揭開白布页藻。 她就那樣靜靜地躺著,像睡著了一般植兰。 火紅的嫁衣襯著肌膚如雪惕橙。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,441評(píng)論 1 310
  • 那天钉跷,我揣著相機(jī)與錄音弥鹦,去河邊找鬼。 笑死爷辙,一個(gè)胖子當(dāng)著我的面吹牛彬坏,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播膝晾,決...
    沈念sama閱讀 40,992評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼栓始,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了血当?” 一聲冷哼從身側(cè)響起幻赚,我...
    開封第一講書人閱讀 39,899評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎臊旭,沒(méi)想到半個(gè)月后落恼,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,457評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡离熏,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,529評(píng)論 3 341
  • 正文 我和宋清朗相戀三年佳谦,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片滋戳。...
    茶點(diǎn)故事閱讀 40,664評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡钻蔑,死狀恐怖啥刻,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情咪笑,我是刑警寧澤可帽,帶...
    沈念sama閱讀 36,346評(píng)論 5 350
  • 正文 年R本政府宣布,位于F島的核電站窗怒,受9級(jí)特大地震影響映跟,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜兜粘,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,025評(píng)論 3 334
  • 文/蒙蒙 一申窘、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧孔轴,春花似錦剃法、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,511評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至晋柱,卻和暖如春优构,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背雁竞。 一陣腳步聲響...
    開封第一講書人閱讀 33,611評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工钦椭, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人碑诉。 一個(gè)月前我還...
    沈念sama閱讀 49,081評(píng)論 3 377
  • 正文 我出身青樓彪腔,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親进栽。 傳聞我的和親對(duì)象是個(gè)殘疾皇子德挣,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,675評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容