知乎里有個(gè)問(wèn)題:有沒有推薦的大學(xué)生書單棱烂?
看了下鱼的,回答里推薦的書都比較主觀。其實(shí)我覺得俯抖,書也要講究在對(duì)的時(shí)間讀到合適的書输瓜,在人的成長(zhǎng)階段中,對(duì)你幫助最大的,并不一定是該領(lǐng)域經(jīng)典的書尤揣,而應(yīng)該是現(xiàn)階段適合你的書搔啊。
如果你是一個(gè)金融初學(xué)者,上來(lái)就啃《金融學(xué)》這種大部頭北戏,反倒不如讀《圖解金融學(xué)》這種偏入門的書對(duì)你幫助大负芋,雖然前者比后者評(píng)分高了太多。
所以嗜愈,對(duì)于大學(xué)生來(lái)說(shuō)旧蛾,最好的選書方式,不是盲目追求那些經(jīng)典著作蠕嫁,而是要看同齡人锨天、同專業(yè)的人都在讀什么。因?yàn)榇髮W(xué)生們大多有著相似的視野和生活經(jīng)歷剃毒、這樣更有參照性病袄。
于是,秉承著適合大學(xué)生讀的書迟赃,一定是大學(xué)生自己親手找出來(lái)的這個(gè)思想陪拘,在春節(jié)假期里,我用Python爬取了全國(guó)24個(gè)985和211高校圖書館的16多萬(wàn)條熱門瀏覽(借閱)記錄(24個(gè)高校名單已經(jīng)附在文末纤壁,快來(lái)看看有沒有你的大學(xué)W蠊簟),提煉了這一份大學(xué)生必讀TOP150書單酌媒。
這份必讀書單欠痴,不帶一點(diǎn)主觀傾向,數(shù)據(jù)來(lái)自于大學(xué)圖書館里的熱門借閱秒咨、熱門瀏覽記錄喇辽,換句話說(shuō),一定是歷年大學(xué)里的學(xué)長(zhǎng)學(xué)姐甚至還在讀的大學(xué)生們用自己的讀書經(jīng)歷投出來(lái)的好書雨席。
一菩咨、使用方式
點(diǎn)擊這個(gè)鏈接:
高校熱門書單TOP150
會(huì)進(jìn)入一個(gè)在線表格惦辛。表格長(zhǎng)這個(gè)樣子:
表格里幾個(gè)列的含義分別為:
總瀏覽次數(shù):24所高校的大學(xué)生瀏覽這本書的總次數(shù)尘奏、
霸榜高校數(shù):這本書出現(xiàn)在24所大學(xué)中多少所大學(xué)的熱門書單里
霸榜率:霸榜高校數(shù)/統(tǒng)計(jì)的總高校數(shù)(24)驰凛。就是為了給你更直觀的認(rèn)識(shí)吐句,排名就是按照這個(gè)數(shù)據(jù)排的箫锤。
榜單排名中位數(shù):這本書絕大多數(shù)情況下在這些大學(xué)榜單中的排名撩匕。
當(dāng)然赢乓,每本書僅僅給個(gè)高校的排名還是不夠的妹萨,為了讓你直觀了解這本書谤饭,我又費(fèi)勁爬取了豆瓣評(píng)分和詳情鏈接标捺,點(diǎn)擊跳轉(zhuǎn)就可以跳到對(duì)應(yīng)的書籍詳情頁(yè)懊纳。
從總體榜單可以看到,排行榜中小說(shuō)類書籍居多亡容,很多熱門小說(shuō)的精彩片段都收錄在高中課本里嗤疯,可能大家在高中時(shí)被課本安利到,但是沒有時(shí)間讀全本萍倡,上大學(xué)之后就第一時(shí)間把全本補(bǔ)上身弊。
高校熱門瀏覽量前三名分別是:《追風(fēng)箏的人》、《百年孤獨(dú)》列敲、《平凡的世界》阱佛,總瀏覽次數(shù)都已經(jīng)上萬(wàn)。
第一名《追風(fēng)箏的人》戴而,在24個(gè)高校的熱門瀏覽圖書榜單中凑术,這本書出現(xiàn)在了22次,霸榜率91.67%所意。你可以找找自己大學(xué)圖書館的熱門瀏覽數(shù)據(jù)淮逊,這本書很大概率在榜單上。
《百年孤獨(dú)》那個(gè)經(jīng)典的開頭自不必多說(shuō)扶踊,曾經(jīng)我寫過(guò)一篇關(guān)于老羅TNT的文章泄鹏,還致敬了這個(gè)開頭,所以本書排第二也名副其實(shí)秧耗。
《平凡的世界》其實(shí)總體瀏覽量遠(yuǎn)遠(yuǎn)高于以上兩本备籽,但是鑒于霸榜率只有83.33%,只能屈居第三分井。
當(dāng)然车猬,總體榜單并不一定可以滿足所有專業(yè)同學(xué)的需求,所以除總體榜單外尺锚,我還根據(jù)中圖分類法劃分的22個(gè)專業(yè)領(lǐng)域分別出了一份書單珠闰,你可以找到自己對(duì)應(yīng)專業(yè)的分類,看看自己專業(yè)領(lǐng)域的同齡人都在看什么書瘫辩。
點(diǎn)擊相應(yīng)的sheet頁(yè)伏嗜,可以按照中圖分類法查看不同領(lǐng)域的書籍排名,附上中圖分類號(hào):
如果你是學(xué)商科的伐厌,可以點(diǎn)擊“F經(jīng)濟(jì)”這個(gè)sheet面阅仔,查看經(jīng)濟(jì)學(xué)的熱門書單。
從這里你也會(huì)發(fā)現(xiàn)很多對(duì)大學(xué)生可能幫助很大弧械,但卻是職場(chǎng)人士不大可能推薦的書,比如空民,在Z綜合類書單中刃唐,《萬(wàn)萬(wàn)沒想到》排名第一羞迷,這本書確實(shí)很有意思,知乎等也有很多人推薦画饥。但是衔瓮,第三名《大學(xué)四年要讀的101本書》這種和大學(xué)生關(guān)系很大的書,可能不會(huì)在其他推薦渠道中看到抖甘,但數(shù)據(jù)卻顯示热鞍,這本書出現(xiàn)在了42%的高校熱門瀏覽量書單中。
愛讀書的大學(xué)生們趕緊收藏起來(lái)衔彻,拯救你的書荒薇宠。
因?yàn)槭歉鶕?jù)規(guī)則用爬蟲爬取到的數(shù)據(jù),有一些書名重復(fù)艰额、沒有找到豆瓣評(píng)分和鏈接的臟數(shù)據(jù)澄港,目前確實(shí)沒有想到很好的辦法優(yōu)化整合,有想法的小伙伴也可以評(píng)論區(qū)告訴我柄沮。
二回梧、數(shù)據(jù)來(lái)源
數(shù)據(jù)來(lái)源于這24所高校的圖書館:
肯定有人會(huì)好奇為什么是這24個(gè)大學(xué),首先祖搓,這幾個(gè)大學(xué)圖書館檢索系統(tǒng)都是用的匯文的接口狱意,接口比較相似,界面長(zhǎng)這樣:
如果你大學(xué)圖書館里的書目檢索系統(tǒng)也是這個(gè)樣子拯欧,那就是匯文提供的軟件無(wú)疑了详囤。這種相似的接口便于寫程序爬取,其次哈扮,雖然匯文服務(wù)的高校還挺多的纬纪,但是因?yàn)楦鱾€(gè)大學(xué)的圖書館主頁(yè)都不一樣,我只能程序加人工的方式把這些主頁(yè)鏈接找出來(lái)滑肉。
舉個(gè)例子你就明白了:
- 中央財(cái)經(jīng)大學(xué):
-- 熱門書籍鏈接:http://opac.cufe.edu.cn:8080/top/top_book.php
-- 書目檢索主頁(yè)鏈接:http://lib.cufe.edu.cn/ - 南開大學(xué)
-- 熱門書籍鏈接:http://opac.lib.nankai.edu.cn/top/top_book.php
-- 書目檢索主頁(yè)連接:http://opac.lib.nankai.edu.cn/
鏈接中間的一部分字母是根據(jù)大學(xué)的特點(diǎn)自己設(shè)定的包各。
而且就算找到鏈接,有的大學(xué)圖書館可能是放寒假了靶庙,服務(wù)器不穩(wěn)定问畅,有的大學(xué)限制校外的訪問(wèn),沒有辦法爬取六荒。拿到這幾個(gè)高校的數(shù)據(jù)已經(jīng)算盡力了护姆。(看在這么辛苦的份上,不雙擊屏幕給個(gè)贊嗎掏击?)
所以卵皂,本來(lái)的想法是盡量涵蓋國(guó)內(nèi)所有高校,但是逐層篩選下來(lái)砚亭,只剩下這幾所高校了灯变。
當(dāng)然殴玛,也要對(duì)以上幾個(gè)大學(xué)的圖書館說(shuō)聲感謝!感謝寒假期間還提供優(yōu)質(zhì)的訪問(wèn)服務(wù)添祸。
當(dāng)然滚粟,如果你對(duì)這份源數(shù)據(jù)很感興趣,想進(jìn)一步進(jìn)行分析刃泌,也可以關(guān)注我的公眾號(hào):【布吉島青年】凡壤,回復(fù)【書單】獲取,也可以私聊我獲取爬蟲的源碼耙替。
三亚侠、one more thing
作為一名數(shù)據(jù)分析師,用數(shù)據(jù)說(shuō)話是我的強(qiáng)項(xiàng)林艘,對(duì)于大學(xué)生來(lái)說(shuō)盖奈,可以看到一份相對(duì)客觀的書單,避免個(gè)人主觀的推薦狐援。但我的真正目的钢坦,是希望在這個(gè)過(guò)程中讓你感受到數(shù)據(jù)的力量,因?yàn)槲磥?lái)一定是數(shù)據(jù)主導(dǎo)的時(shí)代啥酱,不論你學(xué)什么專業(yè)爹凹,或者在從事什么工作。都應(yīng)該提高對(duì)數(shù)據(jù)的敏感性镶殷,具備獲取數(shù)據(jù)禾酱、應(yīng)用數(shù)據(jù)的能力,以及從數(shù)據(jù)中發(fā)現(xiàn)現(xiàn)象的思維绘趋。
對(duì)于同樣數(shù)據(jù)分析師或者有志于從事數(shù)據(jù)分析師職業(yè)的從業(yè)者來(lái)說(shuō)颤陶,這其實(shí)是個(gè)很好的實(shí)踐案例,整個(gè)過(guò)程涉及了很多數(shù)據(jù)分析相關(guān)的專業(yè)知識(shí)陷遮,包括獲取數(shù)據(jù)(爬蟲)滓走、數(shù)據(jù)整理和分析、圖表可視化等帽馋,本文還是主要從數(shù)據(jù)獲取角度來(lái)做的搅方,這些數(shù)據(jù)中有意思的點(diǎn)還未真正挖掘出來(lái)。我后續(xù)會(huì)出一份大學(xué)生閱讀分析報(bào)告绽族,并面向數(shù)據(jù)分析師姨涡,專門寫一篇文章梳理一下整個(gè)技術(shù)細(xì)節(jié),對(duì)數(shù)據(jù)分析感興趣的請(qǐng)先關(guān)注我吧慢,文章發(fā)布后會(huì)第一時(shí)間推送給你涛漂。
我的終極目標(biāo)是:如果你是一名在校大學(xué)生,可以根據(jù)自己的專業(yè)检诗,找到全國(guó)高校的歷屆學(xué)長(zhǎng)(姐)用自己的大學(xué)閱讀經(jīng)歷幫你篩選出來(lái)的好書怖喻。如果你是一名數(shù)據(jù)分析師底哗,可以從這個(gè)項(xiàng)目中學(xué)到從搜集數(shù)據(jù)到整理數(shù)據(jù)再到分析數(shù)據(jù)的全流程角度和方法。
當(dāng)然锚沸,相比于平常工作中處理的海量數(shù)據(jù)來(lái)說(shuō),這點(diǎn)數(shù)據(jù)已經(jīng)非常少了涕癣。
四哗蜈、用到的技術(shù):
好啦,現(xiàn)在說(shuō)說(shuō)涉及到的技術(shù)吧坠韩,非技術(shù)人員可以撤離了距潘。
爬蟲技術(shù)。爬蟲來(lái)擅長(zhǎng)處理重復(fù)的事情只搁,所以一個(gè)主頁(yè)上的數(shù)據(jù)相對(duì)來(lái)說(shuō)比較好爬音比,但是,找到不同高校的主頁(yè)氢惋、并從里邊爬數(shù)據(jù)洞翩,還是個(gè)不小的挑戰(zhàn)。
獲取cookies繞過(guò)豆瓣的反爬蟲機(jī)制焰望。
如何批量生成格式優(yōu)美的表格:其實(shí)你看到的這每個(gè)sheet頁(yè)骚亿,包括字體、隔行底色都是用代碼批量調(diào)整的熊赖。
在這個(gè)項(xiàng)目過(guò)程中其實(shí)也加入了自己的一些值得一提的小技巧来屠。比如豆瓣圖書的API接口已經(jīng)停止服務(wù)了,如何從豆瓣主頁(yè)里獲得評(píng)分和鏈接震鹉;再比如怎樣盡量減少訪問(wèn)豆瓣主頁(yè)的次數(shù)俱笛,防止觸發(fā)反爬機(jī)制(雖然最后還是觸發(fā)了)等。
讓我們一起為數(shù)據(jù)窒息传趾!