所以說數(shù)據(jù)源并不一定得用爬蟲去獲取隘截。我以前總認為想要獲取數(shù)據(jù)就必須寫個Python爬蟲去抓嗅虏,奈何自己水平不夠.....
當然了洛姑,自己寫爬蟲來抓取的數(shù)據(jù)可定制化程度最高,所以說多學點爬蟲也是很有必要的皮服。
很多政府機關楞艾、高校以及企業(yè)都有開放數(shù)據(jù)源,比如本文的數(shù)據(jù)源來自于:[北京大學開放研究數(shù)據(jù)平臺 ]: http://opendata.pku.edu.cn/
這是一份全國高等院校名單
先來看一下各個城市的高校數(shù)量分布圖:
以上十三個城市都有50所以上的高校龄广,其中北京硫眯、武漢和廣州的高校最多,分別為92所择同,84所和83所两入。
生成一張氣泡圖,顏色越深的數(shù)量越多敲才。有點像“球球大作戰(zhàn)”
再看看教育部直屬高校的分布情況
嘖嘖裹纳,北京共有25所教育部直屬高校,遙遙領先其他城市紧武,果然帝都的教育資源就是豐富剃氧。
最后再看看本科和專科的占比情況:
我朝目前有1100所本科阻星,1200所屌蟀埃科,
Null為公辦院校
這么多大學妥箕,好一點的其實就只有那幾十所而已滥酥。