知乎數(shù)據(jù)可視化

前段時間不知道從哪里弄來的一份知乎數(shù)據(jù)垮庐,數(shù)據(jù)量不多燃异,只有二十萬的樣子攒砖,今天就以這二十萬數(shù)據(jù)來進(jìn)行一次簡單地數(shù)據(jù)可視化,主要的工具就是兩個:pandas和matplotlib鳖眼。
以下相關(guān)的代碼和示例數(shù)據(jù)在文末有相應(yīng)的下載鏈接黑毅,你可以下載數(shù)據(jù)自己嘗試。

實際上钦讳,你也可以使用BI軟件進(jìn)行分析,速度和可視化效果很好枕面,最主要的是操作相對容易愿卒,但是我們拿到的這份示例數(shù)據(jù)并不規(guī)整,也就是有部分內(nèi)容是亂的潮秘,爬蟲爬下來的數(shù)據(jù)有錯位的情況琼开,因此對于數(shù)據(jù)的清洗需要一定的時間,為了方便枕荞,我們就直接編程實現(xiàn)柜候。

導(dǎo)入數(shù)據(jù)

我們使用jupyter notebook作為我們的ide工具
首先來看一下我們的原始數(shù)據(jù)的樣子。

我們習(xí)慣于使用英文作為我們的列索引躏精,因此我們在導(dǎo)入數(shù)據(jù)的時候指定索引的名稱渣刷,如下所示。

其中矗烛,%matplotlib inline指定我們的plt做的圖嵌入在ide之中辅柴,而不是彈窗顯示。
其結(jié)果如下所示,后面還有數(shù)據(jù)列碌嘀,只是截圖容不下了涣旨。

知乎用戶高校分布情況

我們首先來看一下哪些高校的知乎用戶數(shù)量最多,核心思路就是我們對高校進(jìn)行計數(shù)股冗,然后按照數(shù)量進(jìn)行降序排序霹陡,選擇選取前十位進(jìn)行繪圖表示。在實際操作的過程總止状,我發(fā)現(xiàn)了一個問題穆律,計數(shù)結(jié)果排名比較靠前的數(shù)據(jù)中有一些是諸如”大學(xué)“, ’大學(xué)本科‘這樣的數(shù)據(jù)导俘,顯然我們需要先將其去掉峦耘。
我們自定義一個函數(shù),如果其學(xué)校填寫的是某一些特定的數(shù)據(jù)旅薄,我們就將其置為空辅髓。
因為我們只需要排名靠前的大學(xué),那些名字更加奇葩的我們就不管了少梁,畢竟我們用不到洛口。

下面就直接開始繪圖了。

其結(jié)果如下

一眼望過去凯沪,你會發(fā)現(xiàn)全是985高校第焰,真是著實讓人悲傷。
既然那么多的985妨马,那么我們下一步的思路就是挺举,看一下985的人數(shù)在總?cè)藬?shù)中所占的比例。

985高校用戶占比

思路就是我們定義一個函數(shù)烘跺,如果這所學(xué)校是985的話湘纵,我們就給他一個記號為1,如果不是就為0滤淳,為什么是1/0而不是其他的呢梧喷,待會我們作圖的時候你就知道了。

看一下效果

檢查一下是不是已經(jīng)完全的實現(xiàn)了標(biāo)記情況脖咐。

直接開始繪圖吧

簡單地解釋一下clean_name.name = ''在繪制餅圖的時候铺敌,Series的name會默認(rèn)以標(biāo)簽的形式出現(xiàn)在餅圖的左邊,好好的一個餅圖屁擅,左邊多了一個label顯然是不美觀的偿凭,因此我們直接將Series的name去掉,你可以嘗試注釋掉這一行煤蹭,來看一下會是什么樣子笔喉。

從上面的餅圖可以看到取视,雖然985高校只有34所,但是其占比達(dá)到了1/4常挚,真是讓人懷疑這些高校的學(xué)生是不是人手一個知乎App作谭。

回答數(shù)Top10

這個地方就出現(xiàn)了數(shù)據(jù)混亂的情況,按理說奄毡,回答都是整數(shù)折欠,但是這里面的部分?jǐn)?shù)據(jù)出現(xiàn)了值為漢字的情況,因此吼过,要想進(jìn)行下一步的分析锐秦,只能先對這些數(shù)據(jù)進(jìn)行處理。
使用正則表達(dá)式盗忱,將非數(shù)字全部替換為0酱床,最后把這一列的數(shù)據(jù)類型轉(zhuǎn)換成整型。

我們這里將用戶名作為我們的索引趟佃,方便下一步的繪圖扇谣。

知乎性別比例

詞云展示

最后,我們將以上數(shù)據(jù)中所呈現(xiàn)的專業(yè)進(jìn)行一下詞頻統(tǒng)計闲昭,并制作出詞云罐寨。

計算機(jī),金融完勝序矩。

既然做到這了鸯绿,順便在看一下這些大V的就職公司。

做的非常的粗糙簸淀,看到的同學(xué)請見諒瓶蝴。
你可以去github下載以上的代碼和相應(yīng)的數(shù)據(jù)。

github地址: https://github.com/cnkai/data-visualization.git
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末啃擦,一起剝皮案震驚了整個濱河市囊蓝,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌令蛉,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,820評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件狡恬,死亡現(xiàn)場離奇詭異珠叔,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)弟劲,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,648評論 3 399
  • 文/潘曉璐 我一進(jìn)店門祷安,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人兔乞,你說我怎么就攤上這事汇鞭×固疲” “怎么了?”我有些...
    開封第一講書人閱讀 168,324評論 0 360
  • 文/不壞的土叔 我叫張陵霍骄,是天一觀的道長台囱。 經(jīng)常有香客問我,道長读整,這世上最難降的妖魔是什么簿训? 我笑而不...
    開封第一講書人閱讀 59,714評論 1 297
  • 正文 為了忘掉前任,我火速辦了婚禮米间,結(jié)果婚禮上强品,老公的妹妹穿的比我還像新娘。我一直安慰自己屈糊,他們只是感情好的榛,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,724評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著逻锐,像睡著了一般夫晌。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上谦去,一...
    開封第一講書人閱讀 52,328評論 1 310
  • 那天慷丽,我揣著相機(jī)與錄音,去河邊找鬼鳄哭。 笑死要糊,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的妆丘。 我是一名探鬼主播锄俄,決...
    沈念sama閱讀 40,897評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼勺拣!你這毒婦竟也來了奶赠?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,804評論 0 276
  • 序言:老撾萬榮一對情侶失蹤药有,失蹤者是張志新(化名)和其女友劉穎毅戈,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體愤惰,經(jīng)...
    沈念sama閱讀 46,345評論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡苇经,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,431評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了宦言。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片扇单。...
    茶點(diǎn)故事閱讀 40,561評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖奠旺,靈堂內(nèi)的尸體忽然破棺而出蜘澜,到底是詐尸還是另有隱情施流,我是刑警寧澤,帶...
    沈念sama閱讀 36,238評論 5 350
  • 正文 年R本政府宣布鄙信,位于F島的核電站瞪醋,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏扮碧。R本人自食惡果不足惜趟章,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,928評論 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望慎王。 院中可真熱鬧蚓土,春花似錦、人聲如沸赖淤。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,417評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽咱旱。三九已至确丢,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間吐限,已是汗流浹背鲜侥。 一陣腳步聲響...
    開封第一講書人閱讀 33,528評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留诸典,地道東北人描函。 一個月前我還...
    沈念sama閱讀 48,983評論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像狐粱,于是被迫代替她去往敵國和親舀寓。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,573評論 2 359

推薦閱讀更多精彩內(nèi)容