分析自己在大學期間讀過的書(一)

今天整理了大學期間的讀書記錄选泻,看著長長的書單苇本,覺得應該將這些書分個類决记,看看自己在大學期間的閱讀習慣是什么樣的想罕。結果分了十幾分鐘連十分之一都沒有分完,感覺很累霉涨。在數(shù)據(jù)分析中有個概念叫聚類按价,而我的目的是把書分類,這兩件事是差不多的吧笙瑟,那應該就有工具可以幫我做這個事情楼镐。

程序員要善于利用工具

于是我開始在網(wǎng)絡上搜索,看有沒有現(xiàn)成的程序可以用往枷。

不一會兒框产,就在知乎上找到一個 你用 Python 做過什么有趣的數(shù)據(jù)挖掘/分析項目凄杯?

剪切式編程

可喜可賀,里面還有代碼示例秉宿,看著很簡短戒突。雖然不會 python,但是照貓畫虎還是可以的描睦。將代碼拷貝下來膊存,改了改。中間遇到一些中文編碼的問題忱叭,磕磕碰碰的隔崎,但最后也搞定了。

生成的圖片如下:


book history

圖片中顯示的文字越大韵丑,說明詞頻越高爵卒,從圖片看來,我讀過最多的是 XXX 程序設計 這類的書撵彻,嗯钓株,很有道理。

有待完善

不過從這個圖本身看來陌僵,還有不少小問題享幽,比如

  1. 分詞不夠理想,皮格馬利翁是一個詞拾弃,不應該被分開
  2. 出現(xiàn)了重復的詞,Java 在圖片上出現(xiàn)好幾次摆霉,按理說豪椿,同一個詞根據(jù)詞頻的高低不同顯示為不同的大小之后,只會出現(xiàn)一次携栋。仔細看可以發(fā)現(xiàn)搭盾,圖片上出現(xiàn)的三個 Java 其實是不同的,第一個只有 Java 這個單詞婉支,第二個是 Java 中文鸯隅,第三個是 Agile Java。這么看來向挖,還是 分詞 的問題

雖然從這個圖片中看不到太多有用的信息蝌以,但是整個過程還是挺有意思的。而且何之,我還可以繼續(xù)從讀書記錄里面挖掘出來更多的信息跟畅。很容易想到的就是,我可以給書加標簽溶推,用標簽來給書做聚類分析徊件,這樣應該可以得到更有價值的信息奸攻。

新的思路

不過給兩百多本書加標簽,比分類的工作量要大得多虱痕,畢竟每本書可以加若干個標簽睹耐。

于是,我又想到部翘,可以借鑒使用豆瓣上現(xiàn)成的標簽

豆瓣圖書標簽

這樣就不用自己加標簽了硝训。我只需要請求豆瓣的 API,拿到讀書記錄中所有書的標簽就行了略就,工作量一下子小了很多捎迫。

找了一圈,發(fā)現(xiàn)原來豆瓣沒有根據(jù)書名直接招書的 API表牢,想要精確的定位一本書窄绒,需要用 ISBN。想想也有道理崔兴,同名的書可能有很多彰导,根據(jù)書名確實無法唯一地定位一本書。那該怎么辦呢敲茄?

未完待續(xù)……

今天時間不多位谋,就先到這里吧,挖個坑以后慢慢埋……

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末堰燎,一起剝皮案震驚了整個濱河市掏父,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌秆剪,老刑警劉巖赊淑,帶你破解...
    沈念sama閱讀 206,214評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異仅讽,居然都是意外死亡陶缺,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評論 2 382
  • 文/潘曉璐 我一進店門洁灵,熙熙樓的掌柜王于貴愁眉苦臉地迎上來饱岸,“玉大人,你說我怎么就攤上這事徽千∩环眩” “怎么了?”我有些...
    開封第一講書人閱讀 152,543評論 0 341
  • 文/不壞的土叔 我叫張陵双抽,是天一觀的道長黍衙。 經常有香客問我,道長荠诬,這世上最難降的妖魔是什么琅翻? 我笑而不...
    開封第一講書人閱讀 55,221評論 1 279
  • 正文 為了忘掉前任位仁,我火速辦了婚禮,結果婚禮上方椎,老公的妹妹穿的比我還像新娘聂抢。我一直安慰自己,他們只是感情好棠众,可當我...
    茶點故事閱讀 64,224評論 5 371
  • 文/花漫 我一把揭開白布琳疏。 她就那樣靜靜地躺著,像睡著了一般闸拿。 火紅的嫁衣襯著肌膚如雪空盼。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,007評論 1 284
  • 那天新荤,我揣著相機與錄音揽趾,去河邊找鬼。 笑死苛骨,一個胖子當著我的面吹牛篱瞎,可吹牛的內容都是我干的。 我是一名探鬼主播痒芝,決...
    沈念sama閱讀 38,313評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼俐筋,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了严衬?” 一聲冷哼從身側響起澄者,我...
    開封第一講書人閱讀 36,956評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎请琳,沒想到半個月后粱挡,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 43,441評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡单起,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,925評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了劣坊。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片嘀倒。...
    茶點故事閱讀 38,018評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖局冰,靈堂內的尸體忽然破棺而出测蘑,到底是詐尸還是另有隱情,我是刑警寧澤康二,帶...
    沈念sama閱讀 33,685評論 4 322
  • 正文 年R本政府宣布碳胳,位于F島的核電站,受9級特大地震影響沫勿,放射性物質發(fā)生泄漏挨约。R本人自食惡果不足惜味混,卻給世界環(huán)境...
    茶點故事閱讀 39,234評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望诫惭。 院中可真熱鬧翁锡,春花似錦、人聲如沸夕土。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,240評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽怨绣。三九已至角溃,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間篮撑,已是汗流浹背减细。 一陣腳步聲響...
    開封第一講書人閱讀 31,464評論 1 261
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留咽扇,地道東北人邪财。 一個月前我還...
    沈念sama閱讀 45,467評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像质欲,于是被迫代替她去往敵國和親树埠。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,762評論 2 345

推薦閱讀更多精彩內容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 171,499評論 25 707
  • 前情提要 昨天嘶伟,我使用 結巴分詞 跟 詞云 兩個 python 庫怎憋,達到了 提取讀書記錄頻率 及 按照詞頻高低顯示...
    afaren閱讀 211評論 0 0
  • 前情提要 前一篇文章中,因為豆瓣的 API 請求限制九昧,我無法一次性請求整個讀書記錄的信息列表绊袋,于是想到在每個請求前...
    afaren閱讀 764評論 0 1
  • 歲月是一束開不敗的花, 歲月是一首唱不完的歌铸鹰; 歲月是一條走不盡的路癌别, 歲月是一首寫不完的詩。 花開花落蹋笼,時光輪回...
    水墨蓮心閱讀 335評論 1 6
  • 在開戰(zhàn)之前剖毯,沒有任何一個人感覺過我們LPL能贏圾笨? 能奪冠。 甚至在比賽中逊谋,也因為選手的種種表現(xiàn)擂达,一場比賽的得失,我...
    黃銅刀閱讀 206評論 1 3