最近在學習數(shù)據(jù)分析友鼻,接觸到知乎上知友“”的內(nèi)容高镐,有一篇是他將豆瓣上6萬本書籍基礎信息爬到并且分享給大家(鏈接:)埠忘,于是自己也想以這部分數(shù)據(jù)為例立哑,以我自己對數(shù)據(jù)分析的方法論挂滓,實踐一次苦银。
前提有個說明,是因為不知道他是以什么樣的規(guī)則爬取的赶站,所以樣本可能有偏差幔虏,但這不可避免,因此不再討論贝椿。
出發(fā)點
數(shù)據(jù)分析第一步:知道自己為什么要分析想括。
分析的目的是為了解決一個業(yè)務問題、驗證一個假設烙博、發(fā)現(xiàn)一個探索性的規(guī)律等瑟蜈,而不是為了分析而分析烟逊。
所以我給自己預設一個場景:我是一個圖書愛好者,希望能從這里面找到好書铺根;以及我是一個出版行業(yè)的入門者宪躯,希望能從這里面的數(shù)據(jù)探索一些趨勢,增加對初版行業(yè)的了解位迂。
初始數(shù)據(jù)的整理
拿到這張表眷唉,我發(fā)現(xiàn)表格還是需要整理的,例如:
1囤官、作者里面有出現(xiàn)作者和譯者信息的情況冬阳、有多個作者的情況;
2党饮、出版時間有多種格式
3肝陪、價格有不同類型的價格(如臺幣)、貨幣的不同表現(xiàn)方法
4刑顺、...
因此需要對數(shù)據(jù)做基礎的清晰和整理氯窍,使之成為一張可以分析的表格。
但在實際清理過程中發(fā)現(xiàn)蹲堂,直接在原數(shù)據(jù)里做清理狼讨,工作量和難度都很大,因此決定先做正常分析柒竞,分析過程中發(fā)現(xiàn)有誤差的情況下政供,再做處理。這樣靈活性更高朽基,并且顯著降低工作量布隔。
分析
1、我想知道哪些書是好書
首先從圖書分值分布來看稼虎,整體打分是符合正項分布的衅檀。另外也能看到一個異常:約有6600本書目前還是0分,即還沒有人看霎俩,占比超過了10%哀军。
單看正項分布的區(qū)域,發(fā)現(xiàn)大部分書籍的評價是在7.4-8.7分左右打却,因此可以初步猜測當一本書分數(shù)小于7.4分且評價人數(shù)不是過低(比如低于200杉适、300),可能內(nèi)容質(zhì)量就已經(jīng)不高学密;而高于8.7且有很多人看的書淘衙,基本可以判斷為很高質(zhì)量的書籍了。