確定分析思路
在進(jìn)行數(shù)據(jù)分析之前喳篇,先確定本次分析思路迅矛,具體如下
一型宝、提出問題
二、理解數(shù)據(jù)數(shù)據(jù)來源:?https://www.kaggle.com/edx/course-study共有23個(gè)字段捂襟,一共290門在線課程咬腕。數(shù)據(jù)分為4種類型
1、課程字段
Institution葬荷,學(xué)校
Course Number涨共,課程ID
Launch Date,上線時(shí)間
Course Title宠漩,課程名
Instructors举反,講師
Course Subject,課程類別
Year扒吁,課程持續(xù)時(shí)間
Honor Code Certificates火鼻,是否授予證書
2、數(shù)量字段
Participants (Course Content Accessed)雕崩,學(xué)生數(shù)
Audited (> 50% Course Content Accessed)魁索,完成50%課程的學(xué)生數(shù)
Certified,拿到證書的人數(shù)
Total Course Hours (Thousands)盼铁,總課程時(shí)間(千小時(shí))
Median Hours for Certification粗蔚,取得證書時(shí)間中位數(shù)
3芹关、百分比字段
% Audited信殊,完成50%課程學(xué)員的比例
% Certified万牺,拿到證書的學(xué)員比例
% Certified of > 50% Course Content Accessed爵憎,完成課程50%學(xué)員拿到證書的比例
% Played Video蛇更,視頻播放率
% Posted in Forum眷细,論壇張貼率
% Grade Higher Than Zero泳唠,分?jǐn)?shù)高于0的比例
4京郑、用戶情況字段
Median Age醒陆,年齡中位數(shù)
% Male瀑构,男性學(xué)員占比
% Female,女性學(xué)員占比
% Bachelor's Degree or Higher刨摩, 本科學(xué)歷及以上比例
三寺晌、數(shù)據(jù)清洗
1、選擇子集
根據(jù)問題需要澡刹,選擇數(shù)據(jù)子集呻征。
數(shù)據(jù)集中Course Number課程ID為唯一標(biāo)識(shí),保留該字段罢浇。
學(xué)校字段Institution是我們提出問題中的一個(gè)陆赋,需要保留。
課程持續(xù)時(shí)間Year嚷闭、總課程時(shí)長(zhǎng)Total Course Hours (Thousands)對(duì)數(shù)據(jù)分析沒有幫助攒岛,隱藏起來。
2胞锰、列名重命名
由于數(shù)據(jù)集為全英文灾锯,為方便理解、描述嗅榕,將字段進(jìn)行重命名顺饮,采用中文形式。
3凌那、刪除重復(fù)值
以課程ID作為數(shù)據(jù)集唯一標(biāo)識(shí)兼雄,通過數(shù)據(jù)>刪除重復(fù)值操作,刪除重復(fù)數(shù)據(jù)案怯,發(fā)現(xiàn)重復(fù)值102條君旦,雖然課程ID與課程名稱重復(fù),但是課程講師或上線日期不同嘲碱。
根據(jù)上述情況金砍,做輔助列,輸入公式=B2&C2&E2麦锯,以課程ID+上線時(shí)間+講師姓名恕稠,作為數(shù)據(jù)唯一標(biāo)識(shí),再次執(zhí)行重復(fù)值刪除扶欣。發(fā)現(xiàn)1條重復(fù)數(shù)據(jù)鹅巍,剩余289條數(shù)據(jù)千扶。
4、缺失值處理
以唯一標(biāo)識(shí)列:課程ID+上線日期+講師進(jìn)行計(jì)數(shù)骆捧,共計(jì)289條數(shù)據(jù)澎羞,以此為標(biāo)準(zhǔn),查看其它列數(shù)據(jù)是否有缺失敛苇。
對(duì)比發(fā)現(xiàn)妆绞,講師字段缺少一個(gè)數(shù)據(jù),根據(jù)課程ID進(jìn)行篩選枫攀,發(fā)現(xiàn)本課程共有4條數(shù)據(jù)括饶,除2012年為幾位講師一起,2014来涨、2015年該課程均為David Malan講授图焰,所以可以推斷,2016年該課程依然是David Malan講師進(jìn)行授課蹦掐,以此為依據(jù)技羔,補(bǔ)全數(shù)據(jù)。
5笤闯、排序
我們關(guān)系哪些課比較受學(xué)員歡迎堕阔,所以根據(jù)學(xué)生數(shù),對(duì)數(shù)據(jù)進(jìn)行將序排列颗味。
審視數(shù)據(jù)集超陆,未發(fā)現(xiàn)異常格式、異常值浦马,所以不需進(jìn)行一致化时呀、異常值處理。
四晶默、構(gòu)建模型
1谨娜、哪些課程最受歡迎?什么類別的課程最受歡迎磺陡?
插入數(shù)據(jù)透視表趴梢,行標(biāo)簽選擇課程名,對(duì)學(xué)生數(shù)求和币他,結(jié)果發(fā)現(xiàn)最受學(xué)員歡迎的課程為Introduction to Computer Science坞靶,學(xué)員數(shù)為690059.
查看課程類別發(fā)現(xiàn),課程共分為四大類:
Computer Science蝴悉,計(jì)算機(jī)科學(xué)
Science, Technology, Engineering, and Mathematics彰阴,科學(xué)、技術(shù)拍冠、工程和數(shù)學(xué)
Humanities, History, Design, Religion, and Education尿这,人文簇抵、歷史、設(shè)計(jì)射众、宗教和教育
Government, Health, and Social Science碟摆,政治、健康和社會(huì)科學(xué)
插入透視表進(jìn)行統(tǒng)計(jì)责球,行標(biāo)簽為課程類別焦履,對(duì)學(xué)生數(shù)求和,發(fā)現(xiàn)計(jì)算機(jī)科學(xué)領(lǐng)域最受學(xué)員歡迎
那么雏逾,為什么人們喜歡計(jì)算機(jī)科學(xué)類課程呢?
同樣從上面課程報(bào)名人數(shù)可知郑临,計(jì)算機(jī)科學(xué)栖博;科學(xué)、技術(shù)厢洞、工程和數(shù)學(xué)仇让;政治、健康和社會(huì)科學(xué)人數(shù)比較多躺翻,而人文丧叽、歷史、設(shè)計(jì)公你、宗教和教育類專業(yè)人數(shù)最少踊淳,可以知道人們通過網(wǎng)絡(luò)在線平臺(tái)Edx進(jìn)行學(xué)習(xí),需要提升理工科陕靠、社科類可操作性強(qiáng)的學(xué)科迂尝,更希望獲得實(shí)用性強(qiáng)的技能提升。 而不是人文剪芥、歷史垄开、設(shè)計(jì)、宗教和教育類的素養(yǎng)類熏陶税肪。
2溉躲、人們更喜歡Harvard還是MITx的課?
為什么MITx學(xué)校更受歡迎益兄?
從兩所學(xué)校開設(shè)課程數(shù)量可知锻梳,MITx學(xué)校偏向于理工、計(jì)算機(jī)科學(xué)類偏塞。HarvardX學(xué)校開設(shè)的課程正好相反唱蒸,以人文社科類專業(yè)為主,之前已經(jīng)知道學(xué)員在Edx平臺(tái)上主要的學(xué)習(xí)需求是學(xué)習(xí)實(shí)用性強(qiáng)的技能型學(xué)科灸叼,因此開設(shè)理工神汹、計(jì)算機(jī)科學(xué)類的MITx可以吸引到更多學(xué)員庆捺。
3、課程完成度如何屁魏?用戶學(xué)習(xí)狀況是怎樣的滔以?
哪個(gè)學(xué)科的課程更容易通過?
要探究哪個(gè)學(xué)科更容易通過氓拼,通過3個(gè)指標(biāo)進(jìn)行分析:完成50%課程學(xué)生數(shù)你画、拿到證書人數(shù)、拿到證書時(shí)間
從完成50%課程學(xué)生數(shù)看坏匪,政治、健康撬统、社會(huì)科學(xué)類課程入門難度最低适滓,其次是計(jì)算機(jī)科學(xué)類課程。
從學(xué)完課程拿到證書的人數(shù)看恋追,同樣政治凭迹、健康、社會(huì)科學(xué)類課程入門難度最低苦囱,其次是人類學(xué)嗅绸、歷史、設(shè)計(jì)撕彤、宗教和教育類鱼鸠。而計(jì)算機(jī)科學(xué)、理工類學(xué)科的學(xué)成率不高喉刘。
從拿到證書的時(shí)間來分析瞧柔,人文、歷史睦裳、設(shè)計(jì)造锅、宗教和教育類課程用時(shí)最短,其次是政治廉邑、健康哥蔚、社會(huì)科學(xué)類課程。
綜合來看蛛蒙,政治糙箍、健康、社會(huì)科學(xué)類課程在50%完成度牵祟、拿到證書人數(shù)深夯、拿到證書時(shí)間三個(gè)維度排名都很高,所以這是平臺(tái)上最容易通過的課程類別。
4咕晋、使用edx的是什么樣的用戶雹拄?
五、結(jié)論與建議