第一章 大數(shù)據(jù)發(fā)展背景
1.1 國家政策
? 2017年1月
工業(yè)和信息化部正式發(fā)布了《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016-2020年)》棚饵,明確了“十三五”時(shí)期大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展思路前方、原則和目標(biāo)恐疲,將引導(dǎo)大數(shù)據(jù)產(chǎn)業(yè)持續(xù)健康發(fā)展,有力支撐制造強(qiáng)國和網(wǎng)絡(luò)強(qiáng)國建設(shè)坐梯。
? 2018年9月
工信部公示“2018年大數(shù)據(jù)產(chǎn)業(yè)發(fā)展試點(diǎn)示范項(xiàng)目名單”缰揪,公布了包括大數(shù)據(jù)存儲(chǔ)管理痪蝇、大數(shù)據(jù)分析挖掘弱卡、大數(shù)據(jù)安全保障抖格、產(chǎn)業(yè)創(chuàng)新大數(shù)據(jù)應(yīng)用诺苹、跨行業(yè)大數(shù)據(jù)融合應(yīng)用、民生服務(wù)大數(shù)據(jù)應(yīng)用雹拄、大數(shù)據(jù)測(cè)試評(píng)估收奔、大數(shù)據(jù)重點(diǎn)標(biāo)準(zhǔn)研制及應(yīng)用、政務(wù)數(shù)據(jù)共享開放平臺(tái)及公共數(shù)據(jù)共享開放平臺(tái)等10個(gè)方向200個(gè)項(xiàng)目滓玖。
? 2019年11月
為進(jìn)一步落實(shí)《國務(wù)院關(guān)于印發(fā)促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要的通知》和《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016~2020年)》坪哄,推進(jìn)實(shí)施國家大數(shù)據(jù)戰(zhàn)略,務(wù)實(shí)推動(dòng)大數(shù)據(jù)技術(shù)势篡、產(chǎn)業(yè)創(chuàng)新發(fā)展翩肌,我國工業(yè)和信息化部將組織開展2020年大數(shù)據(jù)產(chǎn)業(yè)發(fā)展試點(diǎn)示范項(xiàng)目申報(bào)工作。
1.2 行業(yè)現(xiàn)狀
據(jù)相關(guān)資料顯示禁悠,隨著互聯(lián)網(wǎng)念祭、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等信息通信技術(shù)及產(chǎn)業(yè)的不斷發(fā)展碍侦,全球數(shù)據(jù)量呈爆發(fā)式增長(zhǎng)態(tài)勢(shì)粱坤。至此隶糕,IDC研究報(bào)告指出,根據(jù)ZDNET的統(tǒng)計(jì)預(yù)計(jì)到2020年站玄,中國產(chǎn)生的數(shù)據(jù)總量將超過8.5ZB枚驻,是2013年的10倍。
此外株旷,值得一提的是再登,大數(shù)據(jù)市場(chǎng)空間巨大的同時(shí),其產(chǎn)業(yè)規(guī)模也有望迎來快速增長(zhǎng)晾剖。據(jù)前瞻產(chǎn)業(yè)研究院發(fā)布的《中國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展前景與投資戰(zhàn)略規(guī)劃分析報(bào)告》統(tǒng)計(jì)數(shù)據(jù)顯示霎冯,2015年我國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模已達(dá)2800億元,截止至2017年我國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模增長(zhǎng)至4700億元钞瀑,規(guī)模增速進(jìn)一步提高至30.6%沈撞,初步測(cè)算2018年我國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模將達(dá)6200億元左右,同比增長(zhǎng)31.9%雕什。并預(yù)測(cè)在2020年我國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模增長(zhǎng)突破萬億元缠俺,達(dá)到了10100億元,同比增長(zhǎng)26.3%贷岸。
2015-2020年我國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模統(tǒng)計(jì)及增長(zhǎng)情況預(yù)測(cè)
數(shù)據(jù)來源:前瞻產(chǎn)業(yè)研究院整理
由此可知壹士,隨著來自政策、技術(shù)以及市場(chǎng)等各方面的力量推進(jìn)之下偿警,大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展?jié)摿^不能小覷躏救。對(duì)此,業(yè)內(nèi)人士還預(yù)期稱螟蒸,我國大數(shù)據(jù)產(chǎn)業(yè)正在從起步階段步入黃金期盒使,2020年中國有望成世界第一數(shù)據(jù)資源大國。
1.3 專業(yè)背景
大數(shù)據(jù)及相關(guān)專業(yè)是以計(jì)算機(jī)為基礎(chǔ)七嫌,以挖掘少办、分析為主,以搭建诵原、工具使用為輔英妓,緊密面向行業(yè)應(yīng)用的一門綜合性學(xué)科。其方向有數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)绍赛、概率論與數(shù)理統(tǒng)計(jì)蔓纠、數(shù)據(jù)挖掘與數(shù)據(jù)分析、數(shù)據(jù)運(yùn)維與開發(fā)吗蚌、算法與數(shù)據(jù)結(jié)構(gòu)腿倚、計(jì)算機(jī)網(wǎng)絡(luò)、并行計(jì)算等多個(gè)專業(yè)方向褪测。目前全國各類院校已陸續(xù)開始圍繞大數(shù)據(jù)專業(yè)建設(shè)展開研究并申報(bào)大數(shù)據(jù)專業(yè)猴誊。
2016年潦刃,教育部批準(zhǔn)北京大學(xué)、對(duì)外經(jīng)貿(mào)大學(xué)懈叹、中南大學(xué)率先開設(shè)“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”專業(yè)乖杠;2017年,教育部批準(zhǔn)包括中國人民大學(xué)澄成、北京郵電大學(xué)胧洒、復(fù)旦大學(xué)在內(nèi)的共計(jì)32所高校獲批“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)”;2018年3月墨状,教育部發(fā)布《2017年度普通高等學(xué)校本科專業(yè)備案和審批結(jié)果》卫漫,共計(jì)255所高校獲批開設(shè)“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)”及“大數(shù)據(jù)管理與應(yīng)用專業(yè)”;2019年3月肾砂,教育部發(fā)布《2018年度普通高等學(xué)校本科專業(yè)備案和審批結(jié)果》列赎,共計(jì)228所高校獲批開設(shè)“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)” 及“大數(shù)據(jù)管理與應(yīng)用專業(yè)”。
“大數(shù)據(jù)技術(shù)與應(yīng)用”專業(yè)是2016年教育部公布的新增專業(yè)镐确。2017年共有62所職業(yè)院校獲批“大數(shù)據(jù)技術(shù)與應(yīng)用”專業(yè)包吝,2018年共有148所職業(yè)院校獲批“大數(shù)據(jù)技術(shù)與應(yīng)用”專業(yè),2019年度新增195所高職院校獲批“大數(shù)據(jù)技術(shù)與應(yīng)用”專業(yè)源葫。截止目前诗越,總計(jì)405所高職院校成功申請(qǐng)?jiān)搶I(yè)。
第二章 教學(xué)平臺(tái)
紅亞大數(shù)據(jù)教學(xué)平臺(tái)基于高校的教學(xué)場(chǎng)景息堂,運(yùn)用云計(jì)算技術(shù)嚷狞,集課程實(shí)驗(yàn)、算法實(shí)戰(zhàn)荣堰、數(shù)據(jù)科研床未、考試于一體的實(shí)訓(xùn)平臺(tái),平臺(tái)課程共計(jì)800多個(gè)任務(wù)持隧。學(xué)生可通過瀏覽器訪問使用即硼,可在學(xué)校任何一個(gè)網(wǎng)絡(luò)可達(dá)的場(chǎng)所進(jìn)行學(xué)習(xí)。
系統(tǒng)課程學(xué)習(xí)模式包括實(shí)驗(yàn)平臺(tái)屡拨、項(xiàng)目路徑和職業(yè)路徑,滿足不同場(chǎng)景的教學(xué)需求褥实。在教學(xué)管理方面呀狼,平臺(tái)自帶人工智能課程推薦功能,可為學(xué)生提供個(gè)性化課程推薦及AI課程助手损离,助力學(xué)生定向就業(yè)哥艇。還可以通過大數(shù)據(jù)分析,自動(dòng)生成學(xué)業(yè)報(bào)告僻澎,為學(xué)生就業(yè)提供橋梁貌踏,并作為教師教學(xué)的得力助手十饥,為高校的學(xué)生能力培養(yǎng)及教師的工作提供強(qiáng)有力的支持。
2.1 學(xué)習(xí)模式
2.1.1 實(shí)驗(yàn)平臺(tái)
該模式以知識(shí)體系為核心祖乳,將大數(shù)據(jù)內(nèi)容按照不同類型的知識(shí)模塊進(jìn)行分類逗堵。如大數(shù)據(jù)基礎(chǔ)體系下包含了:Linux基礎(chǔ)、編程基礎(chǔ)眷昆、數(shù)學(xué)基礎(chǔ)蜒秤、數(shù)據(jù)庫基礎(chǔ)等課程;大數(shù)據(jù)進(jìn)階體系包含了:Hadoop亚斋、Spark數(shù)據(jù)處理作媚、R語言、Python數(shù)據(jù)處理帅刊、SAS數(shù)據(jù)分析等課程纸泡;該模式圍繞一個(gè)內(nèi)容展開了多方面知識(shí)的學(xué)習(xí),與現(xiàn)在教育方式一致赖瞒,保留了師生們傳統(tǒng)的學(xué)習(xí)授課方法弟灼。不僅如此,為滿足學(xué)校的已有的課程教學(xué)資源冒黑,老師可以自定義實(shí)驗(yàn)內(nèi)容及實(shí)驗(yàn)鏡像田绑,將文本類、實(shí)操類抡爹、視頻類課件上傳到教學(xué)平臺(tái)上滿足教學(xué)需求掩驱。
2.1.2 職業(yè)路徑
該模式以職業(yè)崗位需求為核心,綜合分析國內(nèi)眾多企業(yè)的大數(shù)據(jù)相關(guān)人才崗位需求冬竟,如大數(shù)據(jù)運(yùn)維工程師欧穴、大數(shù)據(jù)研發(fā)工程師、大數(shù)據(jù)架構(gòu)工程師泵殴,經(jīng)過采集涮帘、篩選、對(duì)比笑诅、定模等一系列的流程调缨,將崗位技能需求落實(shí)到具體的知識(shí)點(diǎn),圍繞一個(gè)崗位展開多方面相關(guān)技術(shù)的學(xué)習(xí)吆你。
教師在后臺(tái)可以將實(shí)驗(yàn)按照所需知識(shí)點(diǎn)的難易程度設(shè)計(jì)成一套流程體系弦叶。學(xué)生按照流程開始實(shí)驗(yàn),將每一模塊的技能牢牢掌握后妇多,到最后具備勝任該職業(yè)的能力伤哺,可為自身職業(yè)發(fā)展提供有效幫助。
2.1.3 項(xiàng)目路徑
項(xiàng)目路徑學(xué)習(xí)模式是以還原企業(yè)的真實(shí)項(xiàng)目完成過程為設(shè)計(jì)思路,將大數(shù)據(jù)技能知識(shí)點(diǎn)與實(shí)際項(xiàng)目案例相結(jié)合立莉,讓學(xué)生能夠真實(shí)的體會(huì)到每個(gè)知識(shí)點(diǎn)在實(shí)際項(xiàng)目中的具體作用绢彤。
將一個(gè)項(xiàng)目拆分成多個(gè)實(shí)驗(yàn),多個(gè)實(shí)驗(yàn)間共同使用同一實(shí)驗(yàn)環(huán)境蜓耻,以實(shí)現(xiàn)項(xiàng)目的連貫性和真實(shí)性茫舶。項(xiàng)目提供整套的實(shí)驗(yàn)環(huán)境及配套工具,用戶在切換實(shí)驗(yàn)時(shí)對(duì)應(yīng)的實(shí)驗(yàn)環(huán)境不會(huì)改變媒熊,在下一個(gè)實(shí)驗(yàn)會(huì)繼續(xù)使用上一實(shí)驗(yàn)的實(shí)驗(yàn)環(huán)境奇适,并最終完成該項(xiàng)目。具體項(xiàng)目案例包括大數(shù)據(jù)集群運(yùn)維項(xiàng)目芦鳍、圖書館管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)嚷往、IBM離職率分析等。
2.2 練習(xí)算法
2.2.1 算法集
算法集提供了一個(gè)環(huán)境柠衅,用戶可以在里面寫代碼皮仁、運(yùn)行代碼、查看結(jié)果菲宴,并在其中可視化數(shù)據(jù)贷祈,并與平臺(tái)中的數(shù)據(jù)集功能進(jìn)行交互式使用,可直接調(diào)用平臺(tái)當(dāng)中的數(shù)據(jù)集用于算法在實(shí)際數(shù)據(jù)中的實(shí)踐測(cè)試喝峦。鑒于這些優(yōu)點(diǎn)势誊,它能幫助他們便捷地執(zhí)行各種端到端任務(wù),如數(shù)據(jù)清洗谣蠢、統(tǒng)計(jì)建模粟耻、構(gòu)建/訓(xùn)練機(jī)器學(xué)習(xí)模型等。
算法集的一個(gè)特色是允許把代碼寫入獨(dú)立的cell中眉踱,然后單獨(dú)執(zhí)行挤忙。這樣做意味著用戶可以在測(cè)試項(xiàng)目時(shí)單獨(dú)測(cè)試特定代碼塊,無需從頭開始執(zhí)行代碼谈喳。雖然其他的IDE環(huán)境(如RStudio)也提供了這種功能册烈,但就個(gè)人使用情況來看,算法集的單元結(jié)構(gòu)是設(shè)計(jì)的最好的婿禽。
算法集的優(yōu)勢(shì)還體現(xiàn)在靈活性和交互性上赏僧,除了最基礎(chǔ)的Python,它還允許用戶在上面運(yùn)行R語言谈宛。由于它比IDE平臺(tái)更具交互性次哈,教師也更樂于在各種教程中用它來展示代碼。
2.2.2 數(shù)據(jù)集
數(shù)據(jù)集功能提供數(shù)量眾多的大數(shù)據(jù)數(shù)據(jù)集吆录,包括互聯(lián)網(wǎng)、零售琼牧、電商恢筝、醫(yī)療等相關(guān)數(shù)據(jù)集哀卫,數(shù)據(jù)集中的數(shù)據(jù)可直接與算法集中的算法進(jìn)行交互使用,為算法提供所需數(shù)據(jù)的調(diào)用支撐撬槽。
教師可根據(jù)數(shù)據(jù)集的內(nèi)容此改、格式、數(shù)量等為學(xué)生設(shè)定開放式課題侄柔,使用真實(shí)的數(shù)據(jù)集進(jìn)行大數(shù)據(jù)項(xiàng)目案例處理分析共啃,深度理解掌握大數(shù)據(jù)技術(shù)是如何處理這些數(shù)據(jù)的,例如暂题,教師給定一份數(shù)據(jù)讓學(xué)生進(jìn)行預(yù)測(cè)實(shí)驗(yàn)移剪,學(xué)生需設(shè)計(jì)算法進(jìn)行清洗與預(yù)測(cè)等。
平臺(tái)提供開放式上傳功能薪者,支持用戶將自己的數(shù)據(jù)上傳至平臺(tái)當(dāng)中纵苛,并可設(shè)定是否與他人共用,可幫助用戶解決數(shù)據(jù)存放管理問題言津,實(shí)現(xiàn)用戶數(shù)據(jù)的開放式共享攻人。
2.3 在線考試
2.3.1 理論考核
理論考核采用在線考核模式,將單選題悬槽、多選題怀吻、判斷題、填空題初婆、簡(jiǎn)答題添加在試卷上蓬坡,每一道題的題目、正選烟逊、分值等內(nèi)容可由管理員自行設(shè)置渣窜,簡(jiǎn)答題題采用關(guān)鍵詞進(jìn)行自動(dòng)判分,同時(shí)也可以由教師手動(dòng)判分宪躯。
2.3.2 實(shí)踐測(cè)評(píng)
實(shí)踐測(cè)評(píng)考核模式是以實(shí)驗(yàn)操作過程為考核點(diǎn)乔宿,也稱之為實(shí)操題考核模式,由教師在管理端設(shè)置考核步驟访雪、分值權(quán)重详瑞,平臺(tái)提供配套的實(shí)驗(yàn)考試環(huán)境睦刃。學(xué)生在實(shí)際操作過程中遇到的考核點(diǎn)裹芝,需要根據(jù)實(shí)際結(jié)果去填寫,到最后統(tǒng)一匯總分?jǐn)?shù)征字。該模式突破了傳統(tǒng)的考核模式精置,通過實(shí)操的方式來加深印象计寇,鞏固大數(shù)據(jù)知識(shí)。
2.4 智能教務(wù)
2.4.1 教學(xué)進(jìn)度分析
課程實(shí)驗(yàn)具有核全局開關(guān)功能,打開全局考核后番宁,進(jìn)行所有實(shí)驗(yàn)時(shí)都必須完成實(shí)驗(yàn)當(dāng)中設(shè)定的每一步考核才能查看下一步元莫。接著,系統(tǒng)不僅自動(dòng)檢測(cè)到正在進(jìn)行實(shí)驗(yàn)蝶押,也可以手動(dòng)設(shè)定實(shí)驗(yàn)狀態(tài)分析(也可以手動(dòng)設(shè)置分析目標(biāo))踱蠢。查看分析結(jié)果時(shí)可查看每個(gè)班級(jí)的學(xué)生在進(jìn)行每個(gè)實(shí)驗(yàn)時(shí)完成度,查看每個(gè)實(shí)驗(yàn)的每個(gè)步驟的通過率棋电、完成率茎截、完成進(jìn)度、實(shí)驗(yàn)總結(jié)信息等赶盔。
教學(xué)進(jìn)度分析功能可通過智能化的手段企锌,有效幫助教師分析并掌握整個(gè)班級(jí)的學(xué)習(xí)情況,根據(jù)學(xué)生完成實(shí)驗(yàn)的進(jìn)度過程進(jìn)行授課招刨,選擇重點(diǎn)難點(diǎn)部分進(jìn)行針對(duì)性講解霎俩,有效降低教師授課壓力,高效完成授課任務(wù)沉眶。
2.4.2 教學(xué)計(jì)劃管理
管理員在后臺(tái)可以一次性布置全部的教學(xué)計(jì)劃打却,規(guī)定上課時(shí)間與學(xué)習(xí)課程,隨后學(xué)生通過在前端查看谎倔,即可了解到每一天的課程安排柳击。
2.4.3 實(shí)驗(yàn)報(bào)告管理
教師通過此功能查看學(xué)生的實(shí)驗(yàn)報(bào)告,支持預(yù)覽和批閱等功能片习,后臺(tái)自動(dòng)統(tǒng)計(jì)學(xué)生學(xué)習(xí)數(shù)據(jù)捌肴,展示出每個(gè)步驟的學(xué)習(xí)通過時(shí)間、成績(jī)正確率藕咏、班級(jí)排名等信息状知,并將實(shí)驗(yàn)數(shù)據(jù)與學(xué)生的實(shí)驗(yàn)報(bào)告有機(jī)結(jié)合,形成完成的實(shí)驗(yàn)報(bào)告孽查。此功能相較于傳統(tǒng)的實(shí)驗(yàn)報(bào)告饥悴,增加了學(xué)生的學(xué)習(xí)數(shù)據(jù)統(tǒng)計(jì)功能,可大大的減輕教師的負(fù)擔(dān)盲再,同時(shí)為教師了解班級(jí)整體的學(xué)習(xí)狀況提供的有力的支持西设。
2.5 平臺(tái)管理
2.5.1 用戶管理
為滿足教師方便的管理班級(jí)學(xué)院,平臺(tái)提供用戶組織管理功能答朋。其中用戶管理顯示平臺(tái)用戶的信息列表贷揽,管理端可對(duì)平臺(tái)用戶信息進(jìn)行編輯與刪除,根據(jù)信息進(jìn)行用戶模糊篩選梦碗,便于管理平臺(tái)用戶禽绪;角色管理顯示平臺(tái)現(xiàn)有角色蓖救,用戶可編輯新的角色并賦予角色權(quán)限;組織結(jié)構(gòu)管理顯示平臺(tái)現(xiàn)有的組織機(jī)構(gòu)丐一,管理端可以也可根據(jù)層級(jí)分步添加組織藻糖、學(xué)院淹冰、系別库车、專業(yè)、班級(jí)樱拴,對(duì)同級(jí)別下的機(jī)構(gòu)進(jìn)行排序柠衍。
2.5.2 資源管理
用戶可以在此查看版本信息、用戶數(shù)量晶乔、實(shí)驗(yàn)數(shù)量珍坊,資源監(jiān)控及用戶虛擬機(jī)監(jiān)控。同時(shí)后臺(tái)資源監(jiān)控中心可查看平臺(tái)的用戶數(shù)量正罢、實(shí)驗(yàn)數(shù)量阵漏、職業(yè)路徑數(shù)量、項(xiàng)目路徑數(shù)量翻具、算法集數(shù)量履怯、數(shù)據(jù)集數(shù)量、用戶分布裆泳、活躍用戶等數(shù)據(jù)叹洲;實(shí)時(shí)的CPU、內(nèi)存工禾、硬盤运提、實(shí)例的使用情況和該時(shí)刻學(xué)生實(shí)驗(yàn)進(jìn)行的狀態(tài);可對(duì)虛擬機(jī)進(jìn)行監(jiān)控所處狀態(tài)闻葵。該功能的實(shí)現(xiàn)可便捷精準(zhǔn)的反應(yīng)出學(xué)生的問題所在民泵,可對(duì)實(shí)驗(yàn)平臺(tái)進(jìn)行實(shí)時(shí)狀態(tài)的查看,又同時(shí)提高了老師的教學(xué)質(zhì)量和效率槽畔。
第三章 教學(xué)課程庫
3.1 實(shí)驗(yàn)體系
大數(shù)據(jù)實(shí)驗(yàn)體系按照大數(shù)據(jù)基礎(chǔ)栈妆、大數(shù)據(jù)采集、大數(shù)據(jù)存儲(chǔ)竟痰、數(shù)據(jù)處理签钩、數(shù)據(jù)分析、數(shù)據(jù)挖掘坏快、數(shù)據(jù)可視化铅檩、深度學(xué)習(xí)、機(jī)器學(xué)習(xí)和大數(shù)據(jù)案例組成莽鸿。
3.1.1 大數(shù)據(jù)基礎(chǔ)
3.1.1.1 Linux基礎(chǔ)
Linux系統(tǒng)是開源軟件昧旨,其可靠性得到肯定拾给,是當(dāng)今舉世矚目、發(fā)展最快兔沃、應(yīng)用最廣的主流軟件之一蒋得。在服務(wù)器平臺(tái)、嵌入式系統(tǒng)和云計(jì)算系統(tǒng)所運(yùn)行的操作系統(tǒng)中乒疏,Linux占很大比重额衙。大數(shù)據(jù)主流框架Hadoop、Spark都架設(shè)在Linux系統(tǒng)上怕吴,所以現(xiàn)在學(xué)習(xí)和應(yīng)用Linux成為眾多用戶和學(xué)生的首選窍侧。
Linux基礎(chǔ)32 Linux基礎(chǔ)32 Linux系統(tǒng)概述3 Linux簡(jiǎn)介
Linux應(yīng)用領(lǐng)域
Linux優(yōu)勢(shì)
字符操作環(huán)境2 使用Shell
字符編輯器VI
Linux文件系統(tǒng)3 Linux文件
ext3文件系統(tǒng)
安裝和卸載文件系統(tǒng)
進(jìn)程管理2 Linux進(jìn)程概述
進(jìn)程控制命令
常用命令介紹5 目錄操作
文件操作
磁盤操作
文本編輯
幫助命令
用戶管理4 Linux用戶賬戶概述
管理用戶和群組
命令行配置
用戶管理器配置
系統(tǒng)監(jiān)控與備份4 顯示系統(tǒng)進(jìn)程
查看硬件信息
查看日志文件
數(shù)據(jù)備份與恢復(fù)
軟件包管理4 RPM概述
RPM包的命令介紹
查看軟件包(檢查軟件包簽名)
軟件包管理工具
管理網(wǎng)絡(luò)服務(wù)4 守護(hù)進(jìn)程服務(wù)
配置FTP服務(wù)
配置郵件服務(wù)器
Apache服務(wù)器
3.1.1.2 編程基礎(chǔ)
編程基礎(chǔ)包含Python基礎(chǔ)、R語言基礎(chǔ)转绷、Scala基礎(chǔ)和Java基礎(chǔ)四大模塊共計(jì)81個(gè)實(shí)驗(yàn)項(xiàng)目伟件。針對(duì)每一個(gè)所講解的知識(shí)點(diǎn)都進(jìn)行了深入分析,并使用生動(dòng)形象的情境化舉例议经,將原本復(fù)雜的斧账、難于理解的知識(shí)點(diǎn)和問題進(jìn)行簡(jiǎn)化,針對(duì)每個(gè)知識(shí)點(diǎn)煞肾,精心設(shè)計(jì)了相應(yīng)的問題咧织,讓學(xué)習(xí)者不但能掌握和理解這些知識(shí)點(diǎn),并且還可以清楚地知道在實(shí)際工作中如何去運(yùn)用扯旷。
編程基礎(chǔ)81 Python基礎(chǔ)38 Python基礎(chǔ)38 Python介紹
Python開發(fā)環(huán)境搭建
Python基本數(shù)據(jù)類型
Python變量
Python基本輸入輸出
Python模塊
Python運(yùn)算符與表達(dá)式
Python選擇與循環(huán)結(jié)構(gòu)
Python序列操作
Python列表常用方法
Python元組
Python列表解析式與生成器表達(dá)式
Python字符編碼
Python字符串基本操作
Python字符串格式化
Python字符串方法
Python正則表達(dá)式與re模塊
Python字典創(chuàng)建與使用
Python字典方法
Python集合創(chuàng)建與使用
Python集合常用運(yùn)算
Python文件基本概念
Python打開與關(guān)閉文件
Python文件對(duì)象基本方法
Python數(shù)據(jù)序列化與反序列化
Python文件與文件夾基本操作
Python函數(shù)的定義和調(diào)用
Python函數(shù)參數(shù)
Python變量作用域
Python函數(shù)返回值
Python函數(shù)嵌套定義拯爽、閉包、裝飾器
Python類的定義和使用
Python構(gòu)造方法與析構(gòu)方法
Python成員訪問權(quán)限
Python繼承
Python異常概念與常見表現(xiàn)形式
Python常見異常處理結(jié)構(gòu)
Python的raise語句
R語言基礎(chǔ)14 R語言基礎(chǔ)14 R語言開發(fā)環(huán)境搭建
R語言對(duì)象與屬性
R語言向量
R語言矩陣和數(shù)組
R語言列表
R語言數(shù)據(jù)框
R語言構(gòu)建子集
lapply函數(shù)
apply函數(shù)
mapply函數(shù)
split函數(shù)
tapply函數(shù)
R語言重復(fù)值處理
R語言排序
Scala基礎(chǔ)16 Scala基礎(chǔ)16 Scala開發(fā)環(huán)境搭建
Scala控制結(jié)構(gòu)和函數(shù)
Scala數(shù)組相關(guān)操作
Scala映射與元組
Scala類與對(duì)象
Scala包管理
Scala繼承
Scala文件和正則表達(dá)式
Scala特質(zhì)
Scala運(yùn)算符(原本為scala操作符)
Scala高階函數(shù)
Scala集合
Scala模式匹配和樣例類
Scala類型參數(shù)
Scala高級(jí)類型
Scala隱式轉(zhuǎn)換和隱式參數(shù)
Java基礎(chǔ)15 Java基礎(chǔ)15 Java開發(fā)環(huán)境搭建
Java的類和對(duì)象
Java標(biāo)識(shí)符钧忽、關(guān)鍵字與運(yùn)算符
Java基本數(shù)據(jù)類型
Java流程控制
Java繼承與多態(tài)
Java抽象類與接口
Java內(nèi)部類
Java異常處理
Java集合類
Java基礎(chǔ)類庫
Java泛型
Java的輸入與輸出
Java數(shù)據(jù)庫操作
3.1.1.3 數(shù)學(xué)基礎(chǔ)
數(shù)字在數(shù)學(xué)體系中穩(wěn)固的位置毯炮,而大數(shù)據(jù)技術(shù)也和數(shù)學(xué)緊緊地結(jié)合在一起。數(shù)學(xué)基礎(chǔ)共計(jì)信息論耸黑、線性代數(shù)桃煎、概率論與數(shù)理統(tǒng)計(jì)、數(shù)值計(jì)算和最優(yōu)化方法五大模塊30個(gè)實(shí)驗(yàn)項(xiàng)目大刊。大數(shù)據(jù)技術(shù)本身是一門交叉性學(xué)科为迈,統(tǒng)計(jì)方法為核心,所以學(xué)習(xí)數(shù)學(xué)基礎(chǔ)就顯得尤為重要缺菌。
數(shù)學(xué)基礎(chǔ)30 信息論6 信息論6 熵
聯(lián)合熵
條件熵
相對(duì)熵
互信息
最大熵模型
線性代數(shù)7 線性代數(shù)7 標(biāo)量
向量
張量
范數(shù)
矩陣
特征分解
幾種常用距離計(jì)算
概率論與數(shù)理統(tǒng)計(jì)8 概率論與數(shù)理統(tǒng)計(jì)8 隨機(jī)變量
概率分布
貝葉斯公式
期望
方差
協(xié)方差
常見分布函數(shù)
最大似然估計(jì)
數(shù)值計(jì)算3 數(shù)值計(jì)算3 數(shù)值計(jì)算概述
上溢和下溢
計(jì)算復(fù)雜性與NP問題
最優(yōu)化方法6 最優(yōu)化方法6 最優(yōu)化理論概述
最優(yōu)化問題的數(shù)學(xué)描述
凸集與凸集分離方法
梯度下降算法
啟發(fā)式優(yōu)化方法
牛頓法和擬牛頓法
3.1.1.4 數(shù)據(jù)庫基礎(chǔ)
數(shù)據(jù)庫已是當(dāng)今信息社會(huì)須臾不可脫離的重要工具葫辐,數(shù)據(jù)庫的教學(xué)也就成為計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)的一門必修課程。在大數(shù)據(jù)技術(shù)中伴郁,數(shù)據(jù)庫種類繁多耿战,包括了Exce、MySql焊傅、Oracle等等剂陡,學(xué)習(xí)數(shù)據(jù)庫基礎(chǔ)是為大數(shù)據(jù)的存儲(chǔ)做準(zhǔn)備狈涮。
數(shù)據(jù)庫基礎(chǔ)54 excel6 Excle6 Excel函數(shù)與公式
Excel數(shù)據(jù)統(tǒng)計(jì)與匯總
VBA程序基礎(chǔ)
VBA數(shù)據(jù)類型
VBA流程控制
VBA綜合應(yīng)用
mysql11 Mysql11 MySQL簡(jiǎn)介與安裝
MySQL創(chuàng)建連接
MySQL操作數(shù)據(jù)庫
MySQL操作數(shù)據(jù)表
MySQL操作數(shù)據(jù)
MySQL條件限定與正則表達(dá)式
MySQL表的連接
MySQL排序、分組與過濾
MySQL結(jié)果合并
MySQL函數(shù)
MySQL導(dǎo)入與導(dǎo)出
oracle8 Oracle8 Oracle安裝與卸載
Oracle數(shù)據(jù)類型(文本)
表的創(chuàng)建與管理
簡(jiǎn)單查詢
單行函數(shù)
分組統(tǒng)計(jì)查詢
多表查詢
Sybase PowerDesigner設(shè)計(jì)工具
mongodb8 MongoDB8 MongoDB簡(jiǎn)介與安裝
MongoDB創(chuàng)建連接
MongoDB操作數(shù)據(jù)庫
MongoDB操作集合
MongoDB操作文檔
MongoDB條件操作符與正則表達(dá)式
MongoDB之Limit與Skip方法
MongoDB排序與聚合
redis+memcache11 Redis10 Redis簡(jiǎn)介鸭栖、安裝與配置
Redis命令(包括Redis鍵)
Redis數(shù)據(jù)類型
Redis基數(shù)統(tǒng)計(jì)
Redis服務(wù)器與連接
memcached簡(jiǎn)介與安裝
memcached連接
memcached存儲(chǔ)
memcached查找
memcached統(tǒng)計(jì)
SQLite(10) SQLite10 SQLite簡(jiǎn)介與安裝
SQLite操作數(shù)據(jù)庫
SQLite操作數(shù)據(jù)表
SQLite操作數(shù)據(jù)
SQLite條件限定與通配符
SQLite表的連接
SQLite排序歌馍、分組與過濾
SQLite結(jié)果合并
SQLite之Explain細(xì)節(jié)描述
SQLite函數(shù)
3.1.2 大數(shù)據(jù)采集
3.1.2.1 Python爬蟲
Python爬蟲是一段自動(dòng)抓取互聯(lián)網(wǎng)信息的程序,從互聯(lián)網(wǎng)上抓取對(duì)于我們有價(jià)值的信息晕鹊,可使用Python爬蟲對(duì)數(shù)據(jù)進(jìn)行采集松却。
Python基礎(chǔ)知識(shí)41 Python基礎(chǔ)簡(jiǎn)介4 Python語言概述
為何學(xué)習(xí)Python語言
Python主要應(yīng)用領(lǐng)域
Python開發(fā)環(huán)境搭建
初識(shí)Python7 Python基本數(shù)據(jù)類型
Python變量
Python基本輸入輸出
Python模塊
Python運(yùn)算符與表達(dá)式
Python選擇與循環(huán)結(jié)構(gòu)
Python猜數(shù)字游戲
列表與元組4 Python序列操作
Python列表常用方法
Python元組
Python列表解析式與生成器表達(dá)式
字符串與正則表達(dá)式5 Python字符編碼
Python字符串基本操作
Python字符串格式化
Python字符串方法
Python正則表達(dá)式與re模塊
字典2 Python字典創(chuàng)建與使用
Python字典方法
集合2 Python集合創(chuàng)建與使用
Python集合常用運(yùn)算
文件操作5 Python文件基本概念
Python打開與關(guān)閉文件
Python文件對(duì)象基本方法
Python數(shù)據(jù)序列化與反序列化
Python文件與文件夾基本操作
函數(shù)5 Python函數(shù)的定義和調(diào)用
Python函數(shù)參數(shù)
Python變量作用域
Python函數(shù)返回值
Python函數(shù)嵌套定義、閉包捏题、裝飾器
面向?qū)ο? Python類的定義和使用
Python構(gòu)造方法與析構(gòu)方法
Python成員訪問權(quán)限
Python繼承
異常處理結(jié)構(gòu)3 Python異常概念與常見表現(xiàn)形式
Python常見異常處理結(jié)構(gòu)
Python的raise語句
Python 爬蟲19 爬蟲初識(shí)3 爬蟲簡(jiǎn)介
爬蟲應(yīng)用場(chǎng)景
爬蟲基本工作原理
網(wǎng)絡(luò)請(qǐng)求基礎(chǔ)6 TCP/IP協(xié)議
HTTP請(qǐng)求格式
HTTP常用請(qǐng)求頭
響應(yīng)狀態(tài)碼
瀏覽器發(fā)送HTTP請(qǐng)求的過程
cookie和session
使用Python發(fā)送網(wǎng)絡(luò)請(qǐng)求5 Requests模塊介紹
使用Requests發(fā)送post請(qǐng)求
使用Requests發(fā)送get請(qǐng)求
使用Requests發(fā)送帶Header請(qǐng)求
使用Requests發(fā)送帶參數(shù)請(qǐng)求
Python爬蟲實(shí)戰(zhàn)5 XPATH介紹及節(jié)點(diǎn)選擇
LXML介紹及使用
對(duì)抗反爬蟲措施
網(wǎng)站數(shù)據(jù)爬取實(shí)驗(yàn)
IP代理數(shù)據(jù)爬取
3.1.2.2 Flume數(shù)據(jù)抽取
Flume 是一個(gè)分布式玻褪,可靠且可用的系統(tǒng),用于有效地從許多不同的源收集公荧、聚合和移動(dòng)大量日志數(shù)據(jù)到一個(gè)集中式的數(shù)據(jù)存儲(chǔ)區(qū)。Flume是在數(shù)據(jù)采集中有比不可少的一個(gè)環(huán)節(jié)同规。
Flume7 Flume簡(jiǎn)介
Flume架構(gòu)與工作原理
Flume安裝與配置
案例:Avro
案例:Spool
案例:Exec
案例:Syslogtcp
3.1.2.3 Kafka+zookeeper
Kafka它提供了類似于JMS的特性循狰,但是在設(shè)計(jì)實(shí)現(xiàn)上完全不同,此外它并不是JMS規(guī)范的實(shí)現(xiàn)券勺。kafka對(duì)消息保存時(shí)根據(jù)Topic進(jìn)行歸類绪钥,發(fā)送消息者成為Producer,消息接受者成為Consumer,此外kafka集群有多個(gè)kafka實(shí)例組成,每個(gè)實(shí)例(server)成為broker关炼。無論是kafka集群程腹,還是producer和consumer都依賴于zookeeper來保證系統(tǒng)可用性集群保存一些meta信息。Kakfa也是數(shù)據(jù)采集的中一個(gè)重要環(huán)節(jié)儒拂。
ZooKeeper7 ZooKeeper7 Zookeeper簡(jiǎn)介
Zookeeper工作原理
Zookeeper安裝與配置
Zookeeper基本操作實(shí)例
集群管理
共享鎖
隊(duì)列管理
Kafka4 Kafka簡(jiǎn)介
Kafka工作原理
Kafka安裝與配置
生產(chǎn)者消費(fèi)者實(shí)例
Kafka案例
3.1.2.4 ELK
ELK為數(shù)據(jù)的收集寸潦、傳輸、存儲(chǔ)社痛、分析和警告提供了一整套解決方案见转,并且都是開源軟件,之間互相配合使用蒜哀,完美銜接斩箫,高效的滿足了很多場(chǎng)合的應(yīng)用。目前主流的一種日志系統(tǒng)撵儿。
ELK10 ELK10 ELK簡(jiǎn)介
安裝與配置Elasticsearch
安裝與配置Logstash
安裝與配置Kibana
處理JSON格式Nginx日志
處理Nginx日志
處理Apache日志
處理Twitterdingyue
紐約交通事故數(shù)據(jù)分析
美國聯(lián)邦選舉委員競(jìng)選捐款數(shù)據(jù)分析
3.1.3 大數(shù)據(jù)存儲(chǔ)
3.1.3.1 HDFS存儲(chǔ)
HDFS 主要是為了應(yīng)對(duì)海量數(shù)據(jù)的存儲(chǔ)乘客,由于數(shù)據(jù)量非常大,因此一臺(tái)服務(wù)器是解決不能夠應(yīng)付的淀歇,需要一個(gè)集群來存儲(chǔ)這些數(shù)據(jù)易核。在這個(gè)集群中,存在一個(gè) NameNode 節(jié)點(diǎn)房匆,該節(jié)點(diǎn)用于管理元數(shù)據(jù)耸成,即用戶上傳的文件位于哪個(gè)服務(wù)器上报亩,都多少個(gè)副本等信息。此外井氢,還有多個(gè) DataNode 節(jié)點(diǎn)弦追,這些節(jié)點(diǎn)就是文件存儲(chǔ)位置。
Hadoop基礎(chǔ)4 Hadoop初識(shí)簡(jiǎn)介4 Hadoop介紹
Hadoop體系架構(gòu)
Hadoop軟件安裝及配置
單節(jié)點(diǎn)偽分布式安裝
分布式存儲(chǔ)HDFS5 分布式存儲(chǔ)HDFS5 HDFS安裝
HDFS的相關(guān)概念
HDFS的文件存儲(chǔ)機(jī)制
HDFS的數(shù)據(jù)存儲(chǔ)管理
HDFS的數(shù)據(jù)的讀寫過程
3.1.3.2 HBase存儲(chǔ)
HBase是一種NoSQL數(shù)據(jù)庫花竞,這意味著它不像傳統(tǒng)的RDBMS數(shù)據(jù)庫那樣支持SQL作為查詢語言劲件。HBase是一種分布式存儲(chǔ)的數(shù)據(jù)庫,技術(shù)上來講约急,它更像是分布式存儲(chǔ)而不是分布式數(shù)據(jù)庫零远,它缺少很多RDBMS系統(tǒng)的特性,比如列類型厌蔽,輔助索引牵辣,觸發(fā)器,和高級(jí)查詢語言等待奴饮。
HBase6 HBase6 HBase簡(jiǎn)介
HBase的shell應(yīng)用v2.0
使用Hive操作HBase
HBase的JavaAPI應(yīng)用
HBase學(xué)生選課案例
HBase微博案例
3.1.4 數(shù)據(jù)處理
3.1.4.1 Pandas數(shù)據(jù)處理
Pandas是基于NumPy的一種工具纬向,該工具是為了解決數(shù)據(jù)分析任務(wù)而創(chuàng)建的。Pandas納入了大量庫和一些標(biāo)準(zhǔn)的數(shù)據(jù)模型戴卜,提供了高效地操作大型數(shù)據(jù)集所需的工具逾条。Pandas提供了大量能使我們快速便捷地處理數(shù)據(jù)的函數(shù)和方法。
使用pandas進(jìn)行數(shù)據(jù)處理13 基礎(chǔ)概念4 Series和DataFrame簡(jiǎn)介
DataFrame常用屬性方法
數(shù)據(jù)訪問
文件讀韧栋(原讀寫文件)
數(shù)據(jù)清洗3 pandas缺失值處理
pandas重復(fù)值處理
pandas異常值處理
數(shù)據(jù)集成2 使用鍵參數(shù)的DataFrame合并
軸向連接
數(shù)據(jù)變換4 利用函數(shù)或映射進(jìn)行數(shù)據(jù)轉(zhuǎn)換
替換值
重命名軸索引
離散化和面元
3.1.4.2 R語言數(shù)據(jù)處理
R語言在處理數(shù)據(jù)的過程中师脂,經(jīng)常需要根據(jù)需求從完整的實(shí)驗(yàn)設(shè)計(jì)和數(shù)據(jù)中篩選、整理出可以直接使用的部分江锨,這就涉及到數(shù)據(jù)整理和變換工作吃警。常用的數(shù)據(jù)整理和變換主要包括以下幾類:選取特定分析變量、篩選滿足條件的數(shù)據(jù)泳桦、按照某個(gè)變量排序汤徽、對(duì)數(shù)據(jù)進(jìn)行分組和匯總。
R語言數(shù)據(jù)處理17 R語言數(shù)據(jù)處理12 R語言數(shù)據(jù)導(dǎo)入
R語言數(shù)據(jù)導(dǎo)出
R語言重復(fù)值處理
R語言缺失值處理
R語言空格值處理和字段抽取
R語言記錄抽取和隨機(jī)抽樣
R語言記錄合并
R語言字段匹配
R語言數(shù)據(jù)標(biāo)準(zhǔn)化
數(shù)據(jù)分組
日期格式處理與日期抽取
虛擬變量
3.1.4.3 SAS數(shù)據(jù)處理
SAS數(shù)據(jù)處理系統(tǒng)主要完成以數(shù)據(jù)為中心的四大任務(wù):數(shù)據(jù)訪問灸撰、數(shù)據(jù)管理谒府、數(shù)據(jù)呈現(xiàn)、數(shù)據(jù)分析四個(gè)步驟浮毯,一下實(shí)驗(yàn)可以滿足這個(gè)四個(gè)大任務(wù)的使用完疫。
SAS數(shù)據(jù)分析(34) SAS基礎(chǔ)簡(jiǎn)介4 SAS基礎(chǔ)簡(jiǎn)介4 SAS概述
SAS的特點(diǎn)及模塊組成
SAS軟件基本介紹-SAS_Studio安裝過程
SAS數(shù)據(jù)導(dǎo)入導(dǎo)出4 SAS數(shù)據(jù)導(dǎo)入導(dǎo)出4 讀數(shù)據(jù)和生成數(shù)據(jù)集
寫數(shù)據(jù)
導(dǎo)入數(shù)據(jù)
導(dǎo)出數(shù)據(jù)
條件判斷和循環(huán)語句3 條件判斷和循環(huán)語句3 SAS語句的基本組成
條件判斷語句
循環(huán)語句
SAS數(shù)據(jù)分析綜合應(yīng)用5 SAS數(shù)據(jù)分析綜合應(yīng)用5 建立營(yíng)銷響應(yīng)模型
預(yù)測(cè)股票價(jià)格
建立信用評(píng)分模型
預(yù)測(cè)門店銷售額
人口教育情況分析
3.1.4.4 Spark數(shù)據(jù)處理
Spark是一種與 Hadoop 相似的開源集群計(jì)算環(huán)境,但是兩者之間還存在一些不同之處债蓝,這些有用的不同之處使 Spark 在某些工作負(fù)載方面表現(xiàn)得更加優(yōu)越壳鹤,換句話說,Spark 啟用了內(nèi)存分布數(shù)據(jù)集饰迹,除了能夠提供交互式查詢外芳誓,它還可以優(yōu)化迭代工作負(fù)載余舶。所以使用Spark進(jìn)行數(shù)據(jù)分析比Hadoop的MR快很多。
Spark數(shù)據(jù)處理(82) Spark基礎(chǔ)19 Spark簡(jiǎn)介5 Spark介紹
Spark體系架構(gòu)
Spark安裝與配置
Spark運(yùn)行模式
Spark生態(tài)系統(tǒng)BDAS
Spark核心概念4 RDD彈性分布式數(shù)據(jù)集
RDD的依賴關(guān)系
RDD共享變量
Spark優(yōu)化
RDD編程10 創(chuàng)建RDD
轉(zhuǎn)化操作
行動(dòng)操作
惰性求值
傳遞參數(shù)
持久化
Pair_RDD的創(chuàng)建
Pair_RDD的轉(zhuǎn)化操作
Pair_RDD的行動(dòng)操作
數(shù)據(jù)分區(qū)
數(shù)據(jù)讀取與存儲(chǔ)13 文件系統(tǒng)2 Amazon_S3的讀取與存儲(chǔ)
HDFS中的讀取與存儲(chǔ)
數(shù)據(jù)庫4 Cassandra
Elasticsearch
HBase
Java_JDBC連接
文件格式7 文本文件的讀取與存儲(chǔ)
JSON文件的讀取與存儲(chǔ)
CSV與TSV文件的讀取與存儲(chǔ)
序列文件的讀取與存儲(chǔ)
對(duì)象文件的讀取與存儲(chǔ)
Hadoop的輸入輸出讀寫
壓縮文件的讀取與存儲(chǔ)
Spark程序結(jié)構(gòu)4 Spark程序結(jié)構(gòu)4 Spark架構(gòu)設(shè)計(jì)
Spark算子分類
Spark核心組件
Spark程序執(zhí)行基本流程
Spark流式計(jì)算6 Spark流式計(jì)算6 Spark_Streaming介紹
Spark_Streaming架構(gòu)
Spark_Streaming部署
Spark_Streaming編程
Spark_Streaming性能調(diào)優(yōu)
Flume锹淌、Kafka與Spark Streamng結(jié)合使用
Spark SQL9 Spark SQL9 Spark_SQL介紹
Spark_SQL架構(gòu)
DataFrame
Spark_SQL的Shell
Spark_SQL的UDF使用
JDBC操作MySQL
Spark_SQL性能調(diào)優(yōu)
網(wǎng)站日志分析實(shí)例
Spark與機(jī)器學(xué)習(xí)13 Spark Mllib13 特征提取和轉(zhuǎn)化
降維操作
協(xié)同過濾算法原理及使用
FP-growth算法及使用
Spark機(jī)器學(xué)習(xí)的優(yōu)勢(shì)和潛力
Spark_MLlib的數(shù)據(jù)類型
線性回歸算法原理與使用
邏輯回歸算法的原理及使用
支持向量機(jī)算法原理與使用
樸素貝葉斯算法原理與使用
決策樹算法原理與使用
隨機(jī)森林算法原理與使用
K-Means算法原理與使用
GraphX7 GraphX7 GraphX簡(jiǎn)介
Graphx常用數(shù)據(jù)結(jié)構(gòu)
GraphX圖算法
GraphX屬性圖
GraphX圖操作符
GraphX-Pregel-API
PageRank算法實(shí)戰(zhàn)
案例分析11 案例分析11 網(wǎng)絡(luò)日志分析
電商廣告案例
實(shí)時(shí)路況案例
黑名單案例
性別預(yù)測(cè)案例
年齡預(yù)測(cè)案例
垃圾郵件案例
圖片分類案例
電影推薦案例
推薦系統(tǒng)案例
金融數(shù)據(jù)分析案例
3.1.4.5 Impala與Storm
Impala它提供SQL語義匿值,能查詢存儲(chǔ)在Hadoop的HDFS和HBase中的PB級(jí)大數(shù)據(jù)。已有的Hive系統(tǒng)雖然也提供了SQL語義赂摆,但由于Hive底層執(zhí)行使用的是MapReduce引擎挟憔,仍然是一個(gè)批處理過程,難以滿足查詢的交互性烟号。相比之下绊谭,Impala的最大特點(diǎn)也是最大賣點(diǎn)就是它的快速。
Impala3 Impala3 impala簡(jiǎn)介
數(shù)據(jù)庫語句
impala table操作
Storm5 Storm5 Storm簡(jiǎn)介
Storm架構(gòu)與運(yùn)行原理
Storm安裝與配置
Storm入門實(shí)例
Storm日志分析實(shí)戰(zhàn)
3.1.4.6 MapReduce
MapReduce是一種編程模型汪拥,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算达传。概念"Map(映射)“和"Reduce(歸約)”,是它們的主要思想喷楣,都是從函數(shù)式編程語言里借來的趟大,還有從矢量編程語言里借來的特性。它極大地方便了編程人員在不會(huì)分布式并行編程的情況下铣焊,將自己的程序運(yùn)行在分布式系統(tǒng)上。
MapReduce編程模型7 MapReduce編程模型7 MapReduce簡(jiǎn)介
MapReduce架構(gòu)
MapReduce接口類
MapReduce代碼編程
MapReduce經(jīng)典案例—WordCount
分布式資源調(diào)度系統(tǒng)YARN的安裝
MapReduce和YARN命令
3.1.5 數(shù)據(jù)分析
3.1.5.1 Hive數(shù)據(jù)分析
Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉庫工具罕伯,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表曲伊,并提供簡(jiǎn)單的sql查詢功能,可以將sql語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行追他。 其優(yōu)點(diǎn)是學(xué)習(xí)成本低坟募,可以通過類SQL語句快速實(shí)現(xiàn)簡(jiǎn)單的MapReduce統(tǒng)計(jì),不必開發(fā)專門的MapReduce應(yīng)用邑狸,十分適合數(shù)據(jù)倉庫的統(tǒng)計(jì)分析懈糯。
數(shù)據(jù)倉庫Hive6 Hadoop數(shù)據(jù)倉庫Hive6 Hive簡(jiǎn)介
Hive-DDL
Hive-DML
Hive UDFV
Hive數(shù)據(jù)清洗項(xiàng)目
Hive統(tǒng)計(jì)UV項(xiàng)目
3.1.5.2 Python數(shù)據(jù)分析
Python數(shù)據(jù)處理需要完成數(shù)據(jù)獲取、數(shù)據(jù)清洗单雾、數(shù)據(jù)探索赚哗、數(shù)據(jù)呈現(xiàn)、數(shù)據(jù)規(guī)钠萑疲化和自動(dòng)化的過程粤剧。主要內(nèi)容包括:Python基礎(chǔ)知識(shí)店展,如何從CSV、Excel够掠、XML、JSON和PDF文件中提取數(shù)據(jù)茄菊,如何獲取與存儲(chǔ)數(shù)據(jù)疯潭,各種數(shù)據(jù)清洗與分析技術(shù)赊堪,數(shù)據(jù)可視化方法,如何從網(wǎng)站和API中提取數(shù)據(jù)等技能竖哩。
Python相關(guān)算法23 分類與預(yù)測(cè)6 決策樹
K近鄰分類算法
支持向量機(jī)
Python隨機(jī)森林
Logistic回歸分析
人工智能網(wǎng)絡(luò)
常用聚類分析算法3 K-Means聚類算法
系統(tǒng)聚類算法
DBSCAN聚類算法
關(guān)聯(lián)規(guī)則算法2 Apriori算法簡(jiǎn)介
Apriori算法應(yīng)用
協(xié)同過濾算法2 基于用戶的協(xié)同過濾算法
基于物品的協(xié)同過濾算法
時(shí)間序列數(shù)據(jù)分析4 時(shí)間序列預(yù)處理
平穩(wěn)時(shí)間序列分析
非平穩(wěn)時(shí)間序列分析
Python主要時(shí)序模式算法
離群點(diǎn)檢測(cè)方法4 離群點(diǎn)檢測(cè)概述
基于密度的離群點(diǎn)檢測(cè)方法
基于聚類的離群點(diǎn)檢測(cè)方法
基于距離的離群點(diǎn)檢測(cè)方法
數(shù)據(jù)降維2 數(shù)據(jù)降維概述
常用降維方法-1.機(jī)器學(xué)習(xí)簡(jiǎn)介
常用降維方法-2.機(jī)器學(xué)習(xí)數(shù)學(xué)預(yù)備知識(shí)
常用降維方法-3.常用降維方法的目的
常用降維方法-4.常用降維方法解讀
模型調(diào)優(yōu)與實(shí)戰(zhàn)8 模型評(píng)估與調(diào)優(yōu)3 模型評(píng)估和調(diào)優(yōu)的意義
評(píng)估指標(biāo)
模型調(diào)優(yōu)建議與注意事項(xiàng)
數(shù)據(jù)分析與挖掘?qū)崙?zhàn)5 電子商務(wù)的智能推薦
財(cái)政收入分析
電商產(chǎn)品評(píng)價(jià)分析
電力竊漏識(shí)別分析
電器使用情況分析
3.1.5.3 Pig數(shù)據(jù)分析
Pig是一種數(shù)據(jù)流語言和運(yùn)行環(huán)境哭廉,用于檢索非常大的數(shù)據(jù)集。為大型數(shù)據(jù)集的處理提供了一個(gè)更高層次的抽象期丰。Pig包括兩部分:一是用于描述數(shù)據(jù)流的語言群叶,稱為Pig Latin;二是用于運(yùn)行Pig Latin程序的執(zhí)行環(huán)境钝荡。
Pig語言7 Pig簡(jiǎn)介
Pig的安裝與運(yùn)行
命令行交互工具Grunt
Pig數(shù)據(jù)模型
Pig Latin基礎(chǔ)知識(shí)
Pig Latin關(guān)系操作
Pig Latin高級(jí)應(yīng)用
3.1.5.4 R語言數(shù)據(jù)分析
R語言提供數(shù)據(jù)分析功能街立,主要課程包括了R語言的基礎(chǔ)進(jìn)階部分、R語言數(shù)據(jù)分析部分以及R語言案例埠通。
R語言基礎(chǔ)18 R語言簡(jiǎn)介3 R語言概述與應(yīng)用領(lǐng)域
為何學(xué)習(xí)R語言
R語言開發(fā)環(huán)境搭建
R語言數(shù)據(jù)結(jié)構(gòu)6 R語言數(shù)據(jù)類型
Array數(shù)組和factor因子
List列表和DataFrame數(shù)據(jù)框
R語言程序結(jié)構(gòu)
R語言向量化計(jì)算
對(duì)象改值3 就地改值
邏輯值取子集
缺失信息
R的記號(hào)體系2 值的選取
發(fā)牌實(shí)例和洗牌實(shí)例
S類系統(tǒng)4 S類系統(tǒng)簡(jiǎn)介與屬性
泛型函數(shù)
S類系統(tǒng)方法
類赎离、S3與調(diào)試
R語言數(shù)據(jù)分析11 R語言數(shù)據(jù)分析11 基本統(tǒng)計(jì)
對(duì)比分析
分組分析
分布分析
交叉分析
結(jié)構(gòu)分析
相關(guān)分析
簡(jiǎn)單線性回歸分析
多重線性回歸分析
RFM分析
矩陣分析
R語言數(shù)據(jù)分析綜合應(yīng)用10 R語言數(shù)據(jù)分析綜合應(yīng)用10 建立銷售響應(yīng)模型
預(yù)測(cè)銷售額
水質(zhì)評(píng)估
財(cái)政收入分析預(yù)測(cè)模型
騎車數(shù)據(jù)可視化分析
房?jī)r(jià)指數(shù)的分析與預(yù)測(cè)
電商評(píng)論情感分析
航空公司價(jià)值分析
游戲玩家付費(fèi)行為預(yù)測(cè)
用戶留存分析實(shí)戰(zhàn)
3.1.6 數(shù)據(jù)挖掘
3.1.6.1 SAS和R數(shù)據(jù)挖掘
SAS和R語言可以在基礎(chǔ)的教學(xué)和分析上進(jìn)行數(shù)據(jù)的挖掘,主要課程如下端辱。
SAS數(shù)據(jù)挖掘6 SAS數(shù)據(jù)挖掘6 主成分分析
因子分析
聚類分析
判別分析
相關(guān)分析
生存分析
R語言數(shù)據(jù)挖掘11 R語言數(shù)據(jù)挖掘11 數(shù)據(jù)挖掘簡(jiǎn)介
數(shù)據(jù)挖掘常見問題
數(shù)據(jù)挖掘流程
分類預(yù)測(cè)基本流程
R語言數(shù)據(jù)預(yù)處理(一)
R語言數(shù)據(jù)預(yù)處理(二)-轉(zhuǎn)換
R語言決策樹分類方法
R語言高級(jí)分類方法
R語言聚類分析與關(guān)聯(lián)分析
智能推薦
時(shí)間序列
離群點(diǎn)檢測(cè)
R語言網(wǎng)頁數(shù)據(jù)抓取3 R語言網(wǎng)頁數(shù)據(jù)抓取3 HTML數(shù)據(jù)抓取
JSON數(shù)據(jù)抓取
使用Google分析網(wǎng)頁結(jié)構(gòu)
3.1.6.2 Mahout
Mahout是Apache Software Foundation(ASF)旗下的一個(gè)開源項(xiàng)目梁剔。提供一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序舞蔽。Mahout包含許多實(shí)現(xiàn)荣病,包括聚類、分類渗柿、推薦過濾个盆、頻繁子項(xiàng)挖掘。此外朵栖,通過使用Apache Hadoop庫颊亮。 Mahout可以有效地?cái)U(kuò)展到云中。
Mahout5 Mahout5 Mahout簡(jiǎn)介
推薦算法
聚類算法
分類算法
使用Mahout構(gòu)建職位推薦案例
3.1.7 數(shù)據(jù)可視化
3.1.7.1 Matplotlib可視化
Matplotlib可能是 Python 2D-繪圖領(lǐng)域使用最廣泛的套件陨溅。它能讓使用者很輕松地將數(shù)據(jù)圖形化终惑,并且提供多樣化的輸出格式。下面的課程將會(huì)探索 matplotlib 的常見用法门扇。
可視化技術(shù)與matplotlib6 可視化與Matplotlib6 繪制折線圖
繪制散點(diǎn)圖
繪制餅狀圖
繪制柱狀圖
繪圖區(qū)域分割
結(jié)合pandas進(jìn)行數(shù)據(jù)可視化
3.1.7.2 SAS和R可視化
R語言使用dplyr雹有、tidyr、reshape2 等包的數(shù)據(jù)操作方法悯嗓; base件舵、lattice 和ggplot2包的圖形語法進(jìn)行可視化展示。SAS可視化文本分析綜合運(yùn)用自然語言處理脯厨、機(jī)器學(xué)習(xí)和語言規(guī)則铅祸,從非結(jié)構(gòu)化數(shù)據(jù)中獲取價(jià)值。該課程可解決各行業(yè)面臨的業(yè)務(wù)難題,包括:管理和解釋記錄临梗、評(píng)估風(fēng)險(xiǎn)和欺詐涡扼、以及通過客戶反饋及早發(fā)現(xiàn)問題。
SAS數(shù)據(jù)可視化7 SAS數(shù)據(jù)可視化7 圖形繪制
條形圖
餅圖
散點(diǎn)圖
箱型圖
R語言數(shù)可視化8 R語言數(shù)據(jù)可視化8 R語言餅圖
R語言散點(diǎn)圖
R語言折線圖
R語言柱形圖
R語言直方圖
R語言箱線圖
R語言樹形圖
R語言地圖和熱力圖
3.1.7.3 可視化工具
可視化除了編程語言之外還可已使用Echart盟庞、NodeBox吃沪、Inkscape等這樣的工具進(jìn)行可視化處理。
可視化工具6 可視化工具:python
可視化工具:Echart
可視化工具:NodeBox
可視化工具:Inkscape
可視化工具:Open Layers
可視化工具:Leaflet
3.1.8 大數(shù)據(jù)案例
大數(shù)據(jù)正在改變我們的世界什猖∑北耄互聯(lián)網(wǎng)發(fā)展以及移動(dòng)通信市場(chǎng)和相關(guān)技術(shù)的迅速擴(kuò)張也已創(chuàng)建大量的數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)可用性和數(shù)據(jù)應(yīng)用對(duì)商業(yè)和更廣泛的社會(huì)領(lǐng)域帶來了巨大影響不狮。有效使用大數(shù)據(jù)有助于公司更精準(zhǔn)地對(duì)重要信息進(jìn)行分析很終提高運(yùn)營(yíng)效率降铸、減少成本、降低風(fēng)險(xiǎn)摇零、加快創(chuàng)新推掸、增加收入。本平臺(tái)詳細(xì)介紹了大數(shù)據(jù)策略的規(guī)劃和執(zhí)行配以不同行業(yè)里不計(jì)其數(shù)的現(xiàn)實(shí)案例加以闡述驻仅。
Hadoop項(xiàng)目案例8 Hadoop項(xiàng)目案例8 QQ好友推薦算法
PageRank算法
Tf-Idf算法
數(shù)據(jù)關(guān)聯(lián)案例
ETL案例
PV UV統(tǒng)計(jì)案例
用戶流失和新增案例
Hadoop總結(jié)
大數(shù)據(jù)案例(34) 大數(shù)據(jù)案例34 數(shù)據(jù)分析生命周期概述6 數(shù)據(jù)分析概述
發(fā)現(xiàn)
數(shù)據(jù)準(zhǔn)備
模型規(guī)劃
模型建立
溝通與實(shí)施
數(shù)據(jù)采集2 數(shù)據(jù)采集的原理
數(shù)據(jù)采集的實(shí)驗(yàn)步驟
數(shù)據(jù)清洗2 數(shù)據(jù)清洗的原理
數(shù)據(jù)清洗的實(shí)驗(yàn)步驟
可視化工具6 可視化工具:python
可視化工具:Echart
可視化工具:NodeBox
可視化工具:Inkscape
可視化工具:Open Layers
可視化工具:Leaflet
數(shù)據(jù)建模2 數(shù)據(jù)建模的原理
數(shù)據(jù)分析方法與過程
模型評(píng)估與優(yōu)化2 模型-數(shù)據(jù)與實(shí)驗(yàn)環(huán)境介紹
模型-數(shù)據(jù)分析方法與過程
出租車數(shù)據(jù)分析2 出租車-數(shù)據(jù)與實(shí)驗(yàn)環(huán)境介紹
出租車-數(shù)據(jù)分析方法與過程
音樂分類2 音樂-數(shù)據(jù)與實(shí)驗(yàn)環(huán)境介紹
音樂-數(shù)據(jù)分析方法與過程
知識(shí)圖譜制作2 知識(shí)圖譜-數(shù)據(jù)與實(shí)驗(yàn)環(huán)境介紹
知識(shí)圖譜-數(shù)據(jù)分析方法與過程
電影評(píng)論情感分析2 電影-數(shù)據(jù)與實(shí)驗(yàn)環(huán)境介紹
電影-數(shù)據(jù)分析方法與過程
金融數(shù)據(jù)分析2 金融-數(shù)據(jù)與實(shí)驗(yàn)環(huán)境介紹
金融-數(shù)據(jù)分析方法與過程
大型商場(chǎng)銷售額預(yù)測(cè)2 銷售-數(shù)據(jù)與實(shí)驗(yàn)環(huán)境介紹
銷售-數(shù)據(jù)分析方法與過程
NBA籃球比賽結(jié)果分析預(yù)測(cè)2 籃球-數(shù)據(jù)與實(shí)驗(yàn)環(huán)境介紹
籃球-數(shù)據(jù)分析方法與過程
3.2 教學(xué)資源
為滿足教學(xué)需求谅畅,針對(duì)紅亞大數(shù)據(jù)教學(xué)平臺(tái)重點(diǎn)實(shí)驗(yàn)提供配套的PPT講義及視頻講解,從實(shí)驗(yàn)知識(shí)介紹噪服、實(shí)驗(yàn)?zāi)康恼毙骸?shí)驗(yàn)原理、實(shí)驗(yàn)拓展粘优、實(shí)驗(yàn)過程等內(nèi)容展開詳細(xì)的介紹牙捉。教材建設(shè)
紅亞科技與全國高校大數(shù)據(jù)專家、出版社共同出版了一套國家“高等教育十三五規(guī)劃”大數(shù)據(jù)教材敬飒,包括Hadoop、Spark芬位、R語言无拗、SAS、大數(shù)據(jù)綜合案例技術(shù)應(yīng)用實(shí)踐教材昧碉。本套教材與大數(shù)據(jù)實(shí)訓(xùn)教學(xué)平臺(tái)相輔相成英染,形成完整的教學(xué)資源,覆蓋理論被饿、實(shí)訓(xùn)四康、實(shí)踐、實(shí)戰(zhàn)類型狭握,可有效的解決大數(shù)據(jù)教學(xué)資源不夠完善的問題闪金。
第四章 數(shù)據(jù)安全科研保障箱
數(shù)據(jù)安全科研實(shí)驗(yàn)箱是在建立在學(xué)生具備完善的數(shù)據(jù)安全基礎(chǔ)知識(shí)的層面上的,在學(xué)生掌握了一定的數(shù)據(jù)安全攻擊防御學(xué)科知識(shí)的同時(shí),亦可進(jìn)行學(xué)科性的知識(shí)拓展研究哎垦;在一定程度上可延伸學(xué)生的學(xué)習(xí)和知識(shí)掌握能力囱嫩;同時(shí)更加全面的提高了學(xué)生的綜合知識(shí)能力。
數(shù)據(jù)安全科研實(shí)驗(yàn)實(shí)驗(yàn)箱集成了四種處理器漏设,包括A8處理器墨闲、M4處理器、Z32處理器郑口、FPGA編程板鸳碧,可通過編程實(shí)現(xiàn)如下科研項(xiàng)目:SM2密碼算法與實(shí)現(xiàn)、12684液晶屏串行顯示實(shí)驗(yàn)犬性、SLE4428邏輯加密卡實(shí)驗(yàn)瞻离、SM3密碼雜湊算法程序設(shè)計(jì)。