為了保證每周找點事做(爭取每周寫一篇)强缘,我決定對我最近在學(xué)習(xí)數(shù)據(jù)分析的某在線平臺下手,研究分析下該平臺收費課程的質(zhì)量不傅。我是一個在線學(xué)習(xí)重度愛好者旅掂,哪個平臺都試過,也上了十幾門的課访娶,最大的感受就是線上課程的質(zhì)量很重要商虐,如果質(zhì)量差的話很容易半途而廢,我依稀記得在某平臺上上了一門老師講PPT的課(沒錯,就是某某大學(xué)的R語言課程)称龙,上著上著就睡著了......
那么留拾,用什么標準來衡量一門課程的好壞呢?判斷一門課程質(zhì)量好壞的方法有很多鲫尊,這一次我打算從用戶評分和評論入手痴柔。因為這次研究的對象是單一平臺,沒有涉及到其他平臺疫向,所以這次研究重點是該平臺內(nèi)課程的橫向?qū)Ρ瓤任担页霰容^受歡迎的課程和好評比較多的課程。
該平臺目前有13門收費課程搔驼,其中有10門課程可以在介紹頁面看到用戶的評論信息谈火,具體是長這個樣子的:
我先把這些評論信息全部抓取了下來糯耍,匯總成一個數(shù)據(jù)集,當(dāng)然了在抓取信息的時候遇到了不少困難囊嘉,比如這些數(shù)據(jù)是動態(tài)js生成的温技,好在最后都解決了。不過有一點值得吐槽扭粱。拿其中一門課舉例舵鳞,該課程頁面上說一共有1000多條評論,可以“view all reviews”琢蛤,但是我跑完數(shù)據(jù)發(fā)現(xiàn)總共才300多條蜓堕,然后我去頁面上又手動確認了下,的確普通用戶能看到公開評論也就三百多條博其。
評論星級
在這張圖表我們可以看到“android basics”和“front-end web developer”是最熱門的兩門課套才,評論數(shù)量相對其他課程比較多『氐欤“predictive analytics for business”由于是剛出的新課霜旧,所以評論人數(shù)相對較少。
第二張圖表是每個課程的每個星級所占的百分比儡率。比如某門課打一星的人數(shù)占了這門課程總?cè)藬?shù)的多少,然后我把所有的課程做了一個對比以清。整體我們可以清晰地看到儿普,大多數(shù)的人都打了五星,比重非常之高(當(dāng)然掷倔,不排除平臺本身為了證明課程的優(yōu)秀眉孩,所以篩選出了較多五星比重的課程,所以只有課程之間的比較才相對有意義)。四星三星兩星和一星比重相對遞減浪汪。根據(jù)觀察巴柿,我們可以發(fā)現(xiàn)幾個特殊值:在五星中,上過android basics這門課程的人死遭,打五星比重最高广恢,是所有課程中五星比重最高的。而predictive analytics這門課呀潭,打2星的人群所占比重相對其他課程較高钉迷,這個和這門課程評論里有蠻多反響不是很好的評論的現(xiàn)象是一致的。
評論情感分析
因為抓取下來所有課程合起來有三四千條評論钠署,我不可能每一條去看糠聪,所以我就采用了文本情感分析的方法。文本分析情感主要有字典匹配法和機器學(xué)習(xí)谐鼎,我采用了前者舰蟆,因為這些評論還是比較接近social dictionary的。具體的方法就是我先從unc下載了兩個數(shù)據(jù)集狸棍,分別是positive words(積極詞匯)和negative words(消極詞匯)集夭苗。再把現(xiàn)在有的每個評論拆成單獨的詞匯,對詞匯在positive words 和 negative words中進行匹配計數(shù)隔缀,最后計算得到每門課程評論中積極和消極詞匯所占的百分比题造。
我們可以看到,android basics在評論積極情感方面表現(xiàn)依舊突出猾瘸,積極情感詞匯所占的比重最高界赔,其次是machine learning,我們又看到了predictive analytics for business排在了最后牵触。
在消極情感方面淮悼,predictive analytics for business毫無意外的排名第一,看來差評的確有點多揽思。令人比較驚訝的是袜腥,machine learning出現(xiàn)在了第三的位置,說明這門課大家的感受有點兩集分化的趨勢钉汗。android basics的消極情感詞匯出現(xiàn)率是最低的羹令,再一次證明了大家對它的喜歡程度。
總結(jié)和展望
我通過對某平臺課程分析损痰,從評分和評論兩個方向研究了平臺上10門課程的情況福侈,發(fā)現(xiàn)android basics是表現(xiàn)最為優(yōu)異的課程,歡迎程度較高好卢未,好評率也高肪凛,而剛新上的predictive analytics for business反響則有些差強人意堰汉。
這次文本分析采用了字典匹配法,希望在未來能夠利用機器學(xué)習(xí)法更加精確的分析情感伟墙,希望接下來有機會多學(xué)習(xí)一下這方面的知識翘鸭。另外,對pandas的使用還是不夠熟練戳葵,雖然能通過搜索就乓,查閱文檔找到自己需要的操作方法,但是效率太低譬淳,后期還是要加強學(xué)習(xí)档址,特別是建立一個框架,能夠提高處理數(shù)據(jù)集的速度邻梆。最后守伸,因為這次數(shù)據(jù)集我覺得用戶主觀性比較大乘粒,而且可能有平臺本身的篩選干擾(為了更好的來表現(xiàn)課程好)反肋,不一定能夠反應(yīng)實際情況,僅作參考钉嘹。