大數(shù)據(jù)管理與應用專業(yè)教學實訓平臺建設

第一章 大數(shù)據(jù)發(fā)展背景

1.1 國家政策

? 2017年1月

工業(yè)和信息化部正式發(fā)布了《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016-2020年)》,明確了“十三五”時期大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展思路颅筋、原則和目標腥放,將引導大數(shù)據(jù)產(chǎn)業(yè)持續(xù)健康發(fā)展,有力支撐制造強國和網(wǎng)絡強國建設。

? 2018年9月

工信部公示“2018年大數(shù)據(jù)產(chǎn)業(yè)發(fā)展試點示范項目名單”钮孵,公布了包括大數(shù)據(jù)存儲管理、大數(shù)據(jù)分析挖掘眼滤、大數(shù)據(jù)安全保障巴席、產(chǎn)業(yè)創(chuàng)新大數(shù)據(jù)應用、跨行業(yè)大數(shù)據(jù)融合應用柠偶、民生服務大數(shù)據(jù)應用、大數(shù)據(jù)測試評估睬关、大數(shù)據(jù)重點標準研制及應用诱担、政務數(shù)據(jù)共享開放平臺及公共數(shù)據(jù)共享開放平臺等10個方向200個項目。

? 2019年11月

為進一步落實《國務院關于印發(fā)促進大數(shù)據(jù)發(fā)展行動綱要的通知》和《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016~2020年)》电爹,推進實施國家大數(shù)據(jù)戰(zhàn)略蔫仙,務實推動大數(shù)據(jù)技術(shù)、產(chǎn)業(yè)創(chuàng)新發(fā)展丐箩,我國工業(yè)和信息化部將組織開展2020年大數(shù)據(jù)產(chǎn)業(yè)發(fā)展試點示范項目申報工作摇邦。

1.2 行業(yè)現(xiàn)狀

據(jù)相關資料顯示,隨著互聯(lián)網(wǎng)屎勘、移動互聯(lián)網(wǎng)施籍、物聯(lián)網(wǎng)等信息通信技術(shù)及產(chǎn)業(yè)的不斷發(fā)展,全球數(shù)據(jù)量呈爆發(fā)式增長態(tài)勢概漱。至此丑慎,IDC研究報告指出,根據(jù)ZDNET的統(tǒng)計預計到2020年,中國產(chǎn)生的數(shù)據(jù)總量將超過8.5ZB竿裂,是2013年的10倍玉吁。

此外,值得一提的是腻异,大數(shù)據(jù)市場空間巨大的同時进副,其產(chǎn)業(yè)規(guī)模也有望迎來快速增長。據(jù)前瞻產(chǎn)業(yè)研究院發(fā)布的《中國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展前景與投資戰(zhàn)略規(guī)劃分析報告》統(tǒng)計數(shù)據(jù)顯示悔常,2015年我國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模已達2800億元影斑,截止至2017年我國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模增長至4700億元,規(guī)模增速進一步提高至30.6%这嚣,初步測算2018年我國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模將達6200億元左右鸥昏,同比增長31.9%。并預測在2020年我國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模增長突破萬億元姐帚,達到了10100億元吏垮,同比增長26.3%。

2015-2020年我國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模統(tǒng)計及增長情況預測

數(shù)據(jù)來源:前瞻產(chǎn)業(yè)研究院整理

由此可知罐旗,隨著來自政策膳汪、技術(shù)以及市場等各方面的力量推進之下,大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展?jié)摿^不能小覷九秀。對此遗嗽,業(yè)內(nèi)人士還預期稱,我國大數(shù)據(jù)產(chǎn)業(yè)正在從起步階段步入黃金期鼓蜒,2020年中國有望成世界第一數(shù)據(jù)資源大國痹换。

1.3 專業(yè)背景

大數(shù)據(jù)及相關專業(yè)是以計算機為基礎,以挖掘都弹、分析為主娇豫,以搭建、工具使用為輔畅厢,緊密面向行業(yè)應用的一門綜合性學科冯痢。其方向有數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)、概率論與數(shù)理統(tǒng)計框杜、數(shù)據(jù)挖掘與數(shù)據(jù)分析浦楣、數(shù)據(jù)運維與開發(fā)、算法與數(shù)據(jù)結(jié)構(gòu)咪辱、計算機網(wǎng)絡振劳、并行計算等多個專業(yè)方向。目前全國各類院校已陸續(xù)開始圍繞大數(shù)據(jù)專業(yè)建設展開研究并申報大數(shù)據(jù)專業(yè)油狂。

2016年澎迎,教育部批準北京大學庐杨、對外經(jīng)貿(mào)大學、中南大學率先開設“數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)”專業(yè)夹供;2017年灵份,教育部批準包括中國人民大學、北京郵電大學哮洽、復旦大學在內(nèi)的共計32所高校獲批“數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)專業(yè)”填渠;2018年3月,教育部發(fā)布《2017年度普通高等學校本科專業(yè)備案和審批結(jié)果》鸟辅,共計255所高校獲批開設“數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)專業(yè)”及“大數(shù)據(jù)管理與應用專業(yè)”氛什;2019年3月,教育部發(fā)布《2018年度普通高等學校本科專業(yè)備案和審批結(jié)果》匪凉,共計228所高校獲批開設“數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)專業(yè)” 及“大數(shù)據(jù)管理與應用專業(yè)”枪眉。

“大數(shù)據(jù)技術(shù)與應用”專業(yè)是2016年教育部公布的新增專業(yè)。2017年共有62所職業(yè)院校獲批“大數(shù)據(jù)技術(shù)與應用”專業(yè)再层,2018年共有148所職業(yè)院校獲批“大數(shù)據(jù)技術(shù)與應用”專業(yè)贸铜,2019年度新增195所高職院校獲批“大數(shù)據(jù)技術(shù)與應用”專業(yè)。截止目前聂受,總計405所高職院校成功申請該專業(yè)蒿秦。

第二章 教學平臺

紅亞大數(shù)據(jù)教學平臺基于高校的教學場景,運用云計算技術(shù)蛋济,集課程實驗棍鳖、算法實戰(zhàn)、數(shù)據(jù)科研碗旅、考試于一體的實訓平臺渡处,平臺課程共計800多個任務。學生可通過瀏覽器訪問使用祟辟,可在學校任何一個網(wǎng)絡可達的場所進行學習蚯斯。

系統(tǒng)課程學習模式包括實驗平臺馁菜、項目路徑和職業(yè)路徑摹恨,滿足不同場景的教學需求藻糖。在教學管理方面茫孔,平臺自帶人工智能課程推薦功能叮喳,可為學生提供個性化課程推薦及AI課程助手,助力學生定向就業(yè)缰贝。還可以通過大數(shù)據(jù)分析馍悟,自動生成學業(yè)報告,為學生就業(yè)提供橋梁剩晴,并作為教師教學的得力助手锣咒,為高校的學生能力培養(yǎng)及教師的工作提供強有力的支持侵状。

2.1 學習模式

2.1.1 實驗平臺

該模式以知識體系為核心,將大數(shù)據(jù)內(nèi)容按照不同類型的知識模塊進行分類毅整。如大數(shù)據(jù)基礎體系下包含了:Linux基礎趣兄、編程基礎、數(shù)學基礎悼嫉、數(shù)據(jù)庫基礎等課程艇潭;大數(shù)據(jù)進階體系包含了:Hadoop、Spark數(shù)據(jù)處理戏蔑、R語言蹋凝、Python數(shù)據(jù)處理、SAS數(shù)據(jù)分析等課程总棵;該模式圍繞一個內(nèi)容展開了多方面知識的學習鳍寂,與現(xiàn)在教育方式一致,保留了師生們傳統(tǒng)的學習授課方法情龄。不僅如此迄汛,為滿足學校的已有的課程教學資源,老師可以自定義實驗內(nèi)容及實驗鏡像刃唤,將文本類隔心、實操類、視頻類課件上傳到教學平臺上滿足教學需求尚胞。

2.1.2 職業(yè)路徑

該模式以職業(yè)崗位需求為核心硬霍,綜合分析國內(nèi)眾多企業(yè)的大數(shù)據(jù)相關人才崗位需求,如大數(shù)據(jù)運維工程師笼裳、大數(shù)據(jù)研發(fā)工程師唯卖、大數(shù)據(jù)架構(gòu)工程師,經(jīng)過采集躬柬、篩選拜轨、對比、定模等一系列的流程允青,將崗位技能需求落實到具體的知識點橄碾,圍繞一個崗位展開多方面相關技術(shù)的學習。

教師在后臺可以將實驗按照所需知識點的難易程度設計成一套流程體系颠锉。學生按照流程開始實驗法牲,將每一模塊的技能牢牢掌握后,到最后具備勝任該職業(yè)的能力琼掠,可為自身職業(yè)發(fā)展提供有效幫助拒垃。

2.1.3 項目路徑

項目路徑學習模式是以還原企業(yè)的真實項目完成過程為設計思路,將大數(shù)據(jù)技能知識點與實際項目案例相結(jié)合瓷蛙,讓學生能夠真實的體會到每個知識點在實際項目中的具體作用悼瓮。

將一個項目拆分成多個實驗戈毒,多個實驗間共同使用同一實驗環(huán)境,以實現(xiàn)項目的連貫性和真實性横堡。項目提供整套的實驗環(huán)境及配套工具埋市,用戶在切換實驗時對應的實驗環(huán)境不會改變,在下一個實驗會繼續(xù)使用上一實驗的實驗環(huán)境命贴,并最終完成該項目恐疲。具體項目案例包括大數(shù)據(jù)集群運維項目、圖書館管理系統(tǒng)的設計與實現(xiàn)套么、IBM離職率分析等培己。

2.2 練習算法

2.2.1 算法集

算法集提供了一個環(huán)境,用戶可以在里面寫代碼胚泌、運行代碼省咨、查看結(jié)果,并在其中可視化數(shù)據(jù)玷室,并與平臺中的數(shù)據(jù)集功能進行交互式使用零蓉,可直接調(diào)用平臺當中的數(shù)據(jù)集用于算法在實際數(shù)據(jù)中的實踐測試。鑒于這些優(yōu)點穷缤,它能幫助他們便捷地執(zhí)行各種端到端任務敌蜂,如數(shù)據(jù)清洗、統(tǒng)計建模津肛、構(gòu)建/訓練機器學習模型等章喉。

算法集的一個特色是允許把代碼寫入獨立的cell中,然后單獨執(zhí)行身坐。這樣做意味著用戶可以在測試項目時單獨測試特定代碼塊秸脱,無需從頭開始執(zhí)行代碼。雖然其他的IDE環(huán)境(如RStudio)也提供了這種功能部蛇,但就個人使用情況來看摊唇,算法集的單元結(jié)構(gòu)是設計的最好的。

算法集的優(yōu)勢還體現(xiàn)在靈活性和交互性上涯鲁,除了最基礎的Python巷查,它還允許用戶在上面運行R語言。由于它比IDE平臺更具交互性抹腿,教師也更樂于在各種教程中用它來展示代碼岛请。

2.2.2 數(shù)據(jù)集

數(shù)據(jù)集功能提供數(shù)量眾多的大數(shù)據(jù)數(shù)據(jù)集,包括互聯(lián)網(wǎng)幢踏、零售髓需、電商许师、醫(yī)療等相關數(shù)據(jù)集房蝉,數(shù)據(jù)集中的數(shù)據(jù)可直接與算法集中的算法進行交互使用僚匆,為算法提供所需數(shù)據(jù)的調(diào)用支撐。

教師可根據(jù)數(shù)據(jù)集的內(nèi)容搭幻、格式咧擂、數(shù)量等為學生設定開放式課題,使用真實的數(shù)據(jù)集進行大數(shù)據(jù)項目案例處理分析檀蹋,深度理解掌握大數(shù)據(jù)技術(shù)是如何處理這些數(shù)據(jù)的松申,例如,教師給定一份數(shù)據(jù)讓學生進行預測實驗俯逾,學生需設計算法進行清洗與預測等贸桶。

平臺提供開放式上傳功能,支持用戶將自己的數(shù)據(jù)上傳至平臺當中桌肴,并可設定是否與他人共用皇筛,可幫助用戶解決數(shù)據(jù)存放管理問題,實現(xiàn)用戶數(shù)據(jù)的開放式共享坠七。

2.3 在線考試

2.3.1 理論考核

理論考核采用在線考核模式水醋,將單選題、多選題彪置、判斷題拄踪、填空題、簡答題添加在試卷上拳魁,每一道題的題目惶桐、正選、分值等內(nèi)容可由管理員自行設置潘懊,簡答題題采用關鍵詞進行自動判分耀盗,同時也可以由教師手動判分。

2.3.2 實踐測評

實踐測評考核模式是以實驗操作過程為考核點卦尊,也稱之為實操題考核模式叛拷,由教師在管理端設置考核步驟、分值權(quán)重岂却,平臺提供配套的實驗考試環(huán)境忿薇。學生在實際操作過程中遇到的考核點,需要根據(jù)實際結(jié)果去填寫躏哩,到最后統(tǒng)一匯總分數(shù)署浩。該模式突破了傳統(tǒng)的考核模式,通過實操的方式來加深印象扫尺,鞏固大數(shù)據(jù)知識筋栋。

2.4 智能教務

2.4.1 教學進度分析

課程實驗具有核全局開關功能,打開全局考核后正驻,進行所有實驗時都必須完成實驗當中設定的每一步考核才能查看下一步弊攘。接著抢腐,系統(tǒng)不僅自動檢測到正在進行實驗,也可以手動設定實驗狀態(tài)分析(也可以手動設置分析目標)襟交。查看分析結(jié)果時可查看每個班級的學生在進行每個實驗時完成度迈倍,查看每個實驗的每個步驟的通過率、完成率捣域、完成進度啼染、實驗總結(jié)信息等。

教學進度分析功能可通過智能化的手段焕梅,有效幫助教師分析并掌握整個班級的學習情況迹鹅,根據(jù)學生完成實驗的進度過程進行授課,選擇重點難點部分進行針對性講解贞言,有效降低教師授課壓力徒欣,高效完成授課任務。

2.4.2 教學計劃管理

管理員在后臺可以一次性布置全部的教學計劃蜗字,規(guī)定上課時間與學習課程打肝,隨后學生通過在前端查看,即可了解到每一天的課程安排挪捕。

2.4.3 實驗報告管理

教師通過此功能查看學生的實驗報告粗梭,支持預覽和批閱等功能,后臺自動統(tǒng)計學生學習數(shù)據(jù)级零,展示出每個步驟的學習通過時間断医、成績正確率、班級排名等信息奏纪,并將實驗數(shù)據(jù)與學生的實驗報告有機結(jié)合鉴嗤,形成完成的實驗報告。此功能相較于傳統(tǒng)的實驗報告序调,增加了學生的學習數(shù)據(jù)統(tǒng)計功能醉锅,可大大的減輕教師的負擔,同時為教師了解班級整體的學習狀況提供的有力的支持发绢。

2.5 平臺管理

2.5.1 用戶管理

為滿足教師方便的管理班級學院硬耍,平臺提供用戶組織管理功能。其中用戶管理顯示平臺用戶的信息列表边酒,管理端可對平臺用戶信息進行編輯與刪除经柴,根據(jù)信息進行用戶模糊篩選,便于管理平臺用戶墩朦;角色管理顯示平臺現(xiàn)有角色坯认,用戶可編輯新的角色并賦予角色權(quán)限;組織結(jié)構(gòu)管理顯示平臺現(xiàn)有的組織機構(gòu),管理端可以也可根據(jù)層級分步添加組織牛哺、學院陋气、系別、專業(yè)荆隘、班級,對同級別下的機構(gòu)進行排序赴背。

2.5.2 資源管理

用戶可以在此查看版本信息椰拒、用戶數(shù)量、實驗數(shù)量凰荚,資源監(jiān)控及用戶虛擬機監(jiān)控燃观。同時后臺資源監(jiān)控中心可查看平臺的用戶數(shù)量、實驗數(shù)量便瑟、職業(yè)路徑數(shù)量缆毁、項目路徑數(shù)量、算法集數(shù)量到涂、數(shù)據(jù)集數(shù)量脊框、用戶分布、活躍用戶等數(shù)據(jù)践啄;實時的CPU浇雹、內(nèi)存、硬盤屿讽、實例的使用情況和該時刻學生實驗進行的狀態(tài)昭灵;可對虛擬機進行監(jiān)控所處狀態(tài)。該功能的實現(xiàn)可便捷精準的反應出學生的問題所在伐谈,可對實驗平臺進行實時狀態(tài)的查看烂完,又同時提高了老師的教學質(zhì)量和效率。

第三章 教學課程庫

3.1 實驗體系

大數(shù)據(jù)實驗體系按照大數(shù)據(jù)基礎诵棵、大數(shù)據(jù)采集抠蚣、大數(shù)據(jù)存儲、數(shù)據(jù)處理履澳、數(shù)據(jù)分析柱徙、數(shù)據(jù)挖掘、數(shù)據(jù)可視化奇昙、深度學習护侮、機器學習和大數(shù)據(jù)案例組成。

3.1.1 大數(shù)據(jù)基礎

3.1.1.1 Linux基礎

Linux系統(tǒng)是開源軟件储耐,其可靠性得到肯定羊初,是當今舉世矚目、發(fā)展最快、應用最廣的主流軟件之一长赞。在服務器平臺晦攒、嵌入式系統(tǒng)和云計算系統(tǒng)所運行的操作系統(tǒng)中,Linux占很大比重得哆。大數(shù)據(jù)主流框架Hadoop脯颜、Spark都架設在Linux系統(tǒng)上,所以現(xiàn)在學習和應用Linux成為眾多用戶和學生的首選贩据。

Linux基礎32 Linux基礎32 Linux系統(tǒng)概述3 Linux簡介

Linux應用領域

Linux優(yōu)勢

字符操作環(huán)境2 使用Shell

字符編輯器VI

Linux文件系統(tǒng)3 Linux文件

ext3文件系統(tǒng)

安裝和卸載文件系統(tǒng)

進程管理2 Linux進程概述

進程控制命令

常用命令介紹5 目錄操作

文件操作

磁盤操作

文本編輯

幫助命令

用戶管理4 Linux用戶賬戶概述

管理用戶和群組

命令行配置

用戶管理器配置

系統(tǒng)監(jiān)控與備份4 顯示系統(tǒng)進程

查看硬件信息

查看日志文件

數(shù)據(jù)備份與恢復

軟件包管理4 RPM概述

RPM包的命令介紹

查看軟件包(檢查軟件包簽名)

軟件包管理工具

管理網(wǎng)絡服務4 守護進程服務

配置FTP服務

配置郵件服務器

Apache服務器

3.1.1.2 編程基礎

編程基礎包含Python基礎栋操、R語言基礎、Scala基礎和Java基礎四大模塊共計81個實驗項目饱亮。針對每一個所講解的知識點都進行了深入分析矾芙,并使用生動形象的情境化舉例,將原本復雜的近上、難于理解的知識點和問題進行簡化剔宪,針對每個知識點,精心設計了相應的問題壹无,讓學習者不但能掌握和理解這些知識點葱绒,并且還可以清楚地知道在實際工作中如何去運用。

編程基礎81 Python基礎38 Python基礎38 Python介紹

Python開發(fā)環(huán)境搭建

Python基本數(shù)據(jù)類型

Python變量

Python基本輸入輸出

Python模塊

Python運算符與表達式

Python選擇與循環(huán)結(jié)構(gòu)

Python序列操作

Python列表常用方法

Python元組

Python列表解析式與生成器表達式

Python字符編碼

Python字符串基本操作

Python字符串格式化

Python字符串方法

Python正則表達式與re模塊

Python字典創(chuàng)建與使用

Python字典方法

Python集合創(chuàng)建與使用

Python集合常用運算

Python文件基本概念

Python打開與關閉文件

Python文件對象基本方法

Python數(shù)據(jù)序列化與反序列化

Python文件與文件夾基本操作

Python函數(shù)的定義和調(diào)用

Python函數(shù)參數(shù)

Python變量作用域

Python函數(shù)返回值

Python函數(shù)嵌套定義斗锭、閉包哈街、裝飾器

Python類的定義和使用

Python構(gòu)造方法與析構(gòu)方法

Python成員訪問權(quán)限

Python繼承

Python異常概念與常見表現(xiàn)形式

Python常見異常處理結(jié)構(gòu)

Python的raise語句

R語言基礎14 R語言基礎14 R語言開發(fā)環(huán)境搭建

R語言對象與屬性

R語言向量

R語言矩陣和數(shù)組

R語言列表

R語言數(shù)據(jù)框

R語言構(gòu)建子集

lapply函數(shù)

apply函數(shù)

mapply函數(shù)

split函數(shù)

tapply函數(shù)

R語言重復值處理

R語言排序

Scala基礎16 Scala基礎16 Scala開發(fā)環(huán)境搭建

Scala控制結(jié)構(gòu)和函數(shù)

Scala數(shù)組相關操作

Scala映射與元組

Scala類與對象

Scala包管理

Scala繼承

Scala文件和正則表達式

Scala特質(zhì)

Scala運算符(原本為scala操作符)

Scala高階函數(shù)

Scala集合

Scala模式匹配和樣例類

Scala類型參數(shù)

Scala高級類型

Scala隱式轉(zhuǎn)換和隱式參數(shù)

Java基礎15 Java基礎15 Java開發(fā)環(huán)境搭建

Java的類和對象

Java標識符、關鍵字與運算符

Java基本數(shù)據(jù)類型

Java流程控制

Java繼承與多態(tài)

Java抽象類與接口

Java內(nèi)部類

Java異常處理

Java集合類

Java基礎類庫

Java泛型

Java的輸入與輸出

Java數(shù)據(jù)庫操作

3.1.1.3 數(shù)學基礎

數(shù)字在數(shù)學體系中穩(wěn)固的位置拒迅,而大數(shù)據(jù)技術(shù)也和數(shù)學緊緊地結(jié)合在一起骚秦。數(shù)學基礎共計信息論、線性代數(shù)璧微、概率論與數(shù)理統(tǒng)計作箍、數(shù)值計算和最優(yōu)化方法五大模塊30個實驗項目。大數(shù)據(jù)技術(shù)本身是一門交叉性學科前硫,統(tǒng)計方法為核心胞得,所以學習數(shù)學基礎就顯得尤為重要。

數(shù)學基礎30 信息論6 信息論6 熵

聯(lián)合熵

條件熵

相對熵

互信息

最大熵模型

線性代數(shù)7 線性代數(shù)7 標量

向量

張量

范數(shù)

矩陣

特征分解

幾種常用距離計算

概率論與數(shù)理統(tǒng)計8 概率論與數(shù)理統(tǒng)計8 隨機變量

概率分布

貝葉斯公式

期望

方差

協(xié)方差

常見分布函數(shù)

最大似然估計

數(shù)值計算3 數(shù)值計算3 數(shù)值計算概述

上溢和下溢

計算復雜性與NP問題

最優(yōu)化方法6 最優(yōu)化方法6 最優(yōu)化理論概述

最優(yōu)化問題的數(shù)學描述

凸集與凸集分離方法

梯度下降算法

啟發(fā)式優(yōu)化方法

牛頓法和擬牛頓法

3.1.1.4 數(shù)據(jù)庫基礎

數(shù)據(jù)庫已是當今信息社會須臾不可脫離的重要工具屹电,數(shù)據(jù)庫的教學也就成為計算機科學與技術(shù)專業(yè)的一門必修課程阶剑。在大數(shù)據(jù)技術(shù)中,數(shù)據(jù)庫種類繁多危号,包括了Exce牧愁、MySql、Oracle等等外莲,學習數(shù)據(jù)庫基礎是為大數(shù)據(jù)的存儲做準備猪半。

數(shù)據(jù)庫基礎54 excel6 Excle6 Excel函數(shù)與公式

Excel數(shù)據(jù)統(tǒng)計與匯總

VBA程序基礎

VBA數(shù)據(jù)類型

VBA流程控制

VBA綜合應用

mysql11 Mysql11 MySQL簡介與安裝

MySQL創(chuàng)建連接

MySQL操作數(shù)據(jù)庫

MySQL操作數(shù)據(jù)表

MySQL操作數(shù)據(jù)

MySQL條件限定與正則表達式

MySQL表的連接

MySQL排序兔朦、分組與過濾

MySQL結(jié)果合并

MySQL函數(shù)

MySQL導入與導出

oracle8 Oracle8 Oracle安裝與卸載

Oracle數(shù)據(jù)類型(文本)

表的創(chuàng)建與管理

簡單查詢

單行函數(shù)

分組統(tǒng)計查詢

多表查詢

Sybase PowerDesigner設計工具

mongodb8 MongoDB8 MongoDB簡介與安裝

MongoDB創(chuàng)建連接

MongoDB操作數(shù)據(jù)庫

MongoDB操作集合

MongoDB操作文檔

MongoDB條件操作符與正則表達式

MongoDB之Limit與Skip方法

MongoDB排序與聚合

redis+memcache11 Redis10 Redis簡介、安裝與配置

Redis命令(包括Redis鍵)

Redis數(shù)據(jù)類型

Redis基數(shù)統(tǒng)計

Redis服務器與連接

memcached簡介與安裝

memcached連接

memcached存儲

memcached查找

memcached統(tǒng)計

SQLite(10) SQLite10 SQLite簡介與安裝

SQLite操作數(shù)據(jù)庫

SQLite操作數(shù)據(jù)表

SQLite操作數(shù)據(jù)

SQLite條件限定與通配符

SQLite表的連接

SQLite排序磨确、分組與過濾

SQLite結(jié)果合并

SQLite之Explain細節(jié)描述

SQLite函數(shù)

3.1.2 大數(shù)據(jù)采集

3.1.2.1 Python爬蟲

Python爬蟲是一段自動抓取互聯(lián)網(wǎng)信息的程序沽甥,從互聯(lián)網(wǎng)上抓取對于我們有價值的信息,可使用Python爬蟲對數(shù)據(jù)進行采集乏奥。

Python基礎知識41 Python基礎簡介4 Python語言概述

為何學習Python語言

Python主要應用領域

Python開發(fā)環(huán)境搭建

初識Python7 Python基本數(shù)據(jù)類型

Python變量

Python基本輸入輸出

Python模塊

Python運算符與表達式

Python選擇與循環(huán)結(jié)構(gòu)

Python猜數(shù)字游戲

列表與元組4 Python序列操作

Python列表常用方法

Python元組

Python列表解析式與生成器表達式

字符串與正則表達式5 Python字符編碼

Python字符串基本操作

Python字符串格式化

Python字符串方法

Python正則表達式與re模塊

字典2 Python字典創(chuàng)建與使用

Python字典方法

集合2 Python集合創(chuàng)建與使用

Python集合常用運算

文件操作5 Python文件基本概念

Python打開與關閉文件

Python文件對象基本方法

Python數(shù)據(jù)序列化與反序列化

Python文件與文件夾基本操作

函數(shù)5 Python函數(shù)的定義和調(diào)用

Python函數(shù)參數(shù)

Python變量作用域

Python函數(shù)返回值

Python函數(shù)嵌套定義摆舟、閉包、裝飾器

面向?qū)ο? Python類的定義和使用

Python構(gòu)造方法與析構(gòu)方法

Python成員訪問權(quán)限

Python繼承

異常處理結(jié)構(gòu)3 Python異常概念與常見表現(xiàn)形式

Python常見異常處理結(jié)構(gòu)

Python的raise語句

Python 爬蟲19 爬蟲初識3 爬蟲簡介

爬蟲應用場景

爬蟲基本工作原理

網(wǎng)絡請求基礎6 TCP/IP協(xié)議

HTTP請求格式

HTTP常用請求頭

響應狀態(tài)碼

瀏覽器發(fā)送HTTP請求的過程

cookie和session

使用Python發(fā)送網(wǎng)絡請求5 Requests模塊介紹

使用Requests發(fā)送post請求

使用Requests發(fā)送get請求

使用Requests發(fā)送帶Header請求

使用Requests發(fā)送帶參數(shù)請求

Python爬蟲實戰(zhàn)5 XPATH介紹及節(jié)點選擇

LXML介紹及使用

對抗反爬蟲措施

網(wǎng)站數(shù)據(jù)爬取實驗

IP代理數(shù)據(jù)爬取

3.1.2.2 Flume數(shù)據(jù)抽取

Flume 是一個分布式邓了,可靠且可用的系統(tǒng)恨诱,用于有效地從許多不同的源收集、聚合和移動大量日志數(shù)據(jù)到一個集中式的數(shù)據(jù)存儲區(qū)驶悟。Flume是在數(shù)據(jù)采集中有比不可少的一個環(huán)節(jié)胡野。

Flume7 Flume簡介

Flume架構(gòu)與工作原理

Flume安裝與配置

案例:Avro

案例:Spool

案例:Exec

案例:Syslogtcp

3.1.2.3 Kafka+zookeeper

Kafka它提供了類似于JMS的特性材失,但是在設計實現(xiàn)上完全不同痕鳍,此外它并不是JMS規(guī)范的實現(xiàn)。kafka對消息保存時根據(jù)Topic進行歸類龙巨,發(fā)送消息者成為Producer,消息接受者成為Consumer,此外kafka集群有多個kafka實例組成笼呆,每個實例(server)成為broker。無論是kafka集群旨别,還是producer和consumer都依賴于zookeeper來保證系統(tǒng)可用性集群保存一些meta信息诗赌。Kakfa也是數(shù)據(jù)采集的中一個重要環(huán)節(jié)。

ZooKeeper7 ZooKeeper7 Zookeeper簡介

Zookeeper工作原理

Zookeeper安裝與配置

Zookeeper基本操作實例

集群管理

共享鎖

隊列管理

Kafka4 Kafka簡介

Kafka工作原理

Kafka安裝與配置

生產(chǎn)者消費者實例

Kafka案例

3.1.2.4 ELK

ELK為數(shù)據(jù)的收集秸弛、傳輸铭若、存儲、分析和警告提供了一整套解決方案递览,并且都是開源軟件叼屠,之間互相配合使用,完美銜接绞铃,高效的滿足了很多場合的應用镜雨。目前主流的一種日志系統(tǒng)。

ELK10 ELK10 ELK簡介

安裝與配置Elasticsearch

安裝與配置Logstash

安裝與配置Kibana

處理JSON格式Nginx日志

處理Nginx日志

處理Apache日志

處理Twitterdingyue

紐約交通事故數(shù)據(jù)分析

美國聯(lián)邦選舉委員競選捐款數(shù)據(jù)分析

3.1.3 大數(shù)據(jù)存儲

3.1.3.1 HDFS存儲

HDFS 主要是為了應對海量數(shù)據(jù)的存儲儿捧,由于數(shù)據(jù)量非常大荚坞,因此一臺服務器是解決不能夠應付的,需要一個集群來存儲這些數(shù)據(jù)菲盾。在這個集群中颓影,存在一個 NameNode 節(jié)點,該節(jié)點用于管理元數(shù)據(jù)懒鉴,即用戶上傳的文件位于哪個服務器上瞭空,都多少個副本等信息。此外,還有多個 DataNode 節(jié)點咆畏,這些節(jié)點就是文件存儲位置南捂。

Hadoop基礎4 Hadoop初識簡介4 Hadoop介紹

Hadoop體系架構(gòu)

Hadoop軟件安裝及配置

單節(jié)點偽分布式安裝

分布式存儲HDFS5 分布式存儲HDFS5 HDFS安裝

HDFS的相關概念

HDFS的文件存儲機制

HDFS的數(shù)據(jù)存儲管理

HDFS的數(shù)據(jù)的讀寫過程

3.1.3.2 HBase存儲

HBase是一種NoSQL數(shù)據(jù)庫,這意味著它不像傳統(tǒng)的RDBMS數(shù)據(jù)庫那樣支持SQL作為查詢語言旧找。HBase是一種分布式存儲的數(shù)據(jù)庫溺健,技術(shù)上來講,它更像是分布式存儲而不是分布式數(shù)據(jù)庫钮蛛,它缺少很多RDBMS系統(tǒng)的特性鞭缭,比如列類型,輔助索引魏颓,觸發(fā)器岭辣,和高級查詢語言等待。

HBase6 HBase6 HBase簡介

HBase的shell應用v2.0

使用Hive操作HBase

HBase的JavaAPI應用

HBase學生選課案例

HBase微博案例

3.1.4 數(shù)據(jù)處理

3.1.4.1 Pandas數(shù)據(jù)處理

Pandas是基于NumPy的一種工具甸饱,該工具是為了解決數(shù)據(jù)分析任務而創(chuàng)建的沦童。Pandas納入了大量庫和一些標準的數(shù)據(jù)模型,提供了高效地操作大型數(shù)據(jù)集所需的工具叹话。Pandas提供了大量能使我們快速便捷地處理數(shù)據(jù)的函數(shù)和方法偷遗。

使用pandas進行數(shù)據(jù)處理13 基礎概念4 Series和DataFrame簡介

DataFrame常用屬性方法

數(shù)據(jù)訪問

文件讀取(原讀寫文件)

數(shù)據(jù)清洗3 pandas缺失值處理

pandas重復值處理

pandas異常值處理

數(shù)據(jù)集成2 使用鍵參數(shù)的DataFrame合并

軸向連接

數(shù)據(jù)變換4 利用函數(shù)或映射進行數(shù)據(jù)轉(zhuǎn)換

替換值

重命名軸索引

離散化和面元

3.1.4.2 R語言數(shù)據(jù)處理

R語言在處理數(shù)據(jù)的過程中驼壶,經(jīng)常需要根據(jù)需求從完整的實驗設計和數(shù)據(jù)中篩選氏豌、整理出可以直接使用的部分,這就涉及到數(shù)據(jù)整理和變換工作热凹。常用的數(shù)據(jù)整理和變換主要包括以下幾類:選取特定分析變量泵喘、篩選滿足條件的數(shù)據(jù)、按照某個變量排序般妙、對數(shù)據(jù)進行分組和匯總纪铺。

R語言數(shù)據(jù)處理17 R語言數(shù)據(jù)處理12 R語言數(shù)據(jù)導入

R語言數(shù)據(jù)導出

R語言重復值處理

R語言缺失值處理

R語言空格值處理和字段抽取

R語言記錄抽取和隨機抽樣

R語言記錄合并

R語言字段匹配

R語言數(shù)據(jù)標準化

數(shù)據(jù)分組

日期格式處理與日期抽取

虛擬變量

3.1.4.3 SAS數(shù)據(jù)處理

SAS數(shù)據(jù)處理系統(tǒng)主要完成以數(shù)據(jù)為中心的四大任務:數(shù)據(jù)訪問、數(shù)據(jù)管理股冗、數(shù)據(jù)呈現(xiàn)霹陡、數(shù)據(jù)分析四個步驟,一下實驗可以滿足這個四個大任務的使用止状。

SAS數(shù)據(jù)分析(34) SAS基礎簡介4 SAS基礎簡介4 SAS概述

SAS的特點及模塊組成

SAS軟件基本介紹-SAS_Studio安裝過程

SAS數(shù)據(jù)導入導出4 SAS數(shù)據(jù)導入導出4 讀數(shù)據(jù)和生成數(shù)據(jù)集

寫數(shù)據(jù)

導入數(shù)據(jù)

導出數(shù)據(jù)

條件判斷和循環(huán)語句3 條件判斷和循環(huán)語句3 SAS語句的基本組成

條件判斷語句

循環(huán)語句

SAS數(shù)據(jù)分析綜合應用5 SAS數(shù)據(jù)分析綜合應用5 建立營銷響應模型

預測股票價格

建立信用評分模型

預測門店銷售額

人口教育情況分析

3.1.4.4 Spark數(shù)據(jù)處理

Spark是一種與 Hadoop 相似的開源集群計算環(huán)境烹棉,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負載方面表現(xiàn)得更加優(yōu)越怯疤,換句話說浆洗,Spark 啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外集峦,它還可以優(yōu)化迭代工作負載伏社。所以使用Spark進行數(shù)據(jù)分析比Hadoop的MR快很多抠刺。

Spark數(shù)據(jù)處理(82) Spark基礎19 Spark簡介5 Spark介紹

Spark體系架構(gòu)

Spark安裝與配置

Spark運行模式

Spark生態(tài)系統(tǒng)BDAS

Spark核心概念4 RDD彈性分布式數(shù)據(jù)集

RDD的依賴關系

RDD共享變量

Spark優(yōu)化

RDD編程10 創(chuàng)建RDD

轉(zhuǎn)化操作

行動操作

惰性求值

傳遞參數(shù)

持久化

Pair_RDD的創(chuàng)建

Pair_RDD的轉(zhuǎn)化操作

Pair_RDD的行動操作

數(shù)據(jù)分區(qū)

數(shù)據(jù)讀取與存儲13 文件系統(tǒng)2 Amazon_S3的讀取與存儲

HDFS中的讀取與存儲

數(shù)據(jù)庫4 Cassandra

Elasticsearch

HBase

Java_JDBC連接

文件格式7 文本文件的讀取與存儲

JSON文件的讀取與存儲

CSV與TSV文件的讀取與存儲

序列文件的讀取與存儲

對象文件的讀取與存儲

Hadoop的輸入輸出讀寫

壓縮文件的讀取與存儲

Spark程序結(jié)構(gòu)4 Spark程序結(jié)構(gòu)4 Spark架構(gòu)設計

Spark算子分類

Spark核心組件

Spark程序執(zhí)行基本流程

Spark流式計算6 Spark流式計算6 Spark_Streaming介紹

Spark_Streaming架構(gòu)

Spark_Streaming部署

Spark_Streaming編程

Spark_Streaming性能調(diào)優(yōu)

Flume、Kafka與Spark Streamng結(jié)合使用

Spark SQL9 Spark SQL9 Spark_SQL介紹

Spark_SQL架構(gòu)

DataFrame

Spark_SQL的Shell

Spark_SQL的UDF使用

JDBC操作MySQL

Spark_SQL性能調(diào)優(yōu)

網(wǎng)站日志分析實例

Spark與機器學習13 Spark Mllib13 特征提取和轉(zhuǎn)化

降維操作

協(xié)同過濾算法原理及使用

FP-growth算法及使用

Spark機器學習的優(yōu)勢和潛力

Spark_MLlib的數(shù)據(jù)類型

線性回歸算法原理與使用

邏輯回歸算法的原理及使用

支持向量機算法原理與使用

樸素貝葉斯算法原理與使用

決策樹算法原理與使用

隨機森林算法原理與使用

K-Means算法原理與使用

GraphX7 GraphX7 GraphX簡介

Graphx常用數(shù)據(jù)結(jié)構(gòu)

GraphX圖算法

GraphX屬性圖

GraphX圖操作符

GraphX-Pregel-API

PageRank算法實戰(zhàn)

案例分析11 案例分析11 網(wǎng)絡日志分析

電商廣告案例

實時路況案例

黑名單案例

性別預測案例

年齡預測案例

垃圾郵件案例

圖片分類案例

電影推薦案例

推薦系統(tǒng)案例

金融數(shù)據(jù)分析案例

3.1.4.5 Impala與Storm

Impala它提供SQL語義摘昌,能查詢存儲在Hadoop的HDFS和HBase中的PB級大數(shù)據(jù)速妖。已有的Hive系統(tǒng)雖然也提供了SQL語義,但由于Hive底層執(zhí)行使用的是MapReduce引擎聪黎,仍然是一個批處理過程罕容,難以滿足查詢的交互性。相比之下稿饰,Impala的最大特點也是最大賣點就是它的快速锦秒。

Impala3 Impala3 impala簡介

數(shù)據(jù)庫語句

impala table操作

Storm5 Storm5 Storm簡介

Storm架構(gòu)與運行原理

Storm安裝與配置

Storm入門實例

Storm日志分析實戰(zhàn)

3.1.4.6 MapReduce

MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算喉镰。概念"Map(映射)“和"Reduce(歸約)”旅择,是它們的主要思想,都是從函數(shù)式編程語言里借來的侣姆,還有從矢量編程語言里借來的特性生真。它極大地方便了編程人員在不會分布式并行編程的情況下,將自己的程序運行在分布式系統(tǒng)上铺敌。

MapReduce編程模型7 MapReduce編程模型7 MapReduce簡介

MapReduce架構(gòu)

MapReduce接口類

MapReduce代碼編程

MapReduce經(jīng)典案例—WordCount

分布式資源調(diào)度系統(tǒng)YARN的安裝

MapReduce和YARN命令

3.1.5 數(shù)據(jù)分析

3.1.5.1 Hive數(shù)據(jù)分析

Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具汇歹,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表屁擅,并提供簡單的sql查詢功能偿凭,可以將sql語句轉(zhuǎn)換為MapReduce任務進行運行。 其優(yōu)點是學習成本低派歌,可以通過類SQL語句快速實現(xiàn)簡單的MapReduce統(tǒng)計弯囊,不必開發(fā)專門的MapReduce應用,十分適合數(shù)據(jù)倉庫的統(tǒng)計分析胶果。

數(shù)據(jù)倉庫Hive6 Hadoop數(shù)據(jù)倉庫Hive6 Hive簡介

Hive-DDL

Hive-DML

Hive UDFV

Hive數(shù)據(jù)清洗項目

Hive統(tǒng)計UV項目

3.1.5.2 Python數(shù)據(jù)分析

Python數(shù)據(jù)處理需要完成數(shù)據(jù)獲取匾嘱、數(shù)據(jù)清洗、數(shù)據(jù)探索早抠、數(shù)據(jù)呈現(xiàn)霎烙、數(shù)據(jù)規(guī)模化和自動化的過程蕊连。主要內(nèi)容包括:Python基礎知識悬垃,如何從CSV、Excel甘苍、XML尝蠕、JSON和PDF文件中提取數(shù)據(jù),如何獲取與存儲數(shù)據(jù)载庭,各種數(shù)據(jù)清洗與分析技術(shù),數(shù)據(jù)可視化方法卧斟,如何從網(wǎng)站和API中提取數(shù)據(jù)等技能膝宁。

Python相關算法23 分類與預測6 決策樹

K近鄰分類算法

支持向量機

Python隨機森林

Logistic回歸分析

人工智能網(wǎng)絡

常用聚類分析算法3 K-Means聚類算法

系統(tǒng)聚類算法

DBSCAN聚類算法

關聯(lián)規(guī)則算法2 Apriori算法簡介

Apriori算法應用

協(xié)同過濾算法2 基于用戶的協(xié)同過濾算法

基于物品的協(xié)同過濾算法

時間序列數(shù)據(jù)分析4 時間序列預處理

平穩(wěn)時間序列分析

非平穩(wěn)時間序列分析

Python主要時序模式算法

離群點檢測方法4 離群點檢測概述

基于密度的離群點檢測方法

基于聚類的離群點檢測方法

基于距離的離群點檢測方法

數(shù)據(jù)降維2 數(shù)據(jù)降維概述

常用降維方法-1.機器學習簡介

常用降維方法-2.機器學習數(shù)學預備知識

常用降維方法-3.常用降維方法的目的

常用降維方法-4.常用降維方法解讀

模型調(diào)優(yōu)與實戰(zhàn)8 模型評估與調(diào)優(yōu)3 模型評估和調(diào)優(yōu)的意義

評估指標

模型調(diào)優(yōu)建議與注意事項

數(shù)據(jù)分析與挖掘?qū)崙?zhàn)5 電子商務的智能推薦

財政收入分析

電商產(chǎn)品評價分析

電力竊漏識別分析

電器使用情況分析

3.1.5.3 Pig數(shù)據(jù)分析

Pig是一種數(shù)據(jù)流語言和運行環(huán)境,用于檢索非常大的數(shù)據(jù)集标锄。為大型數(shù)據(jù)集的處理提供了一個更高層次的抽象。Pig包括兩部分:一是用于描述數(shù)據(jù)流的語言茁计,稱為Pig Latin鸯绿;二是用于運行Pig Latin程序的執(zhí)行環(huán)境。

Pig語言7 Pig簡介

Pig的安裝與運行

命令行交互工具Grunt

Pig數(shù)據(jù)模型

Pig Latin基礎知識

Pig Latin關系操作

Pig Latin高級應用

3.1.5.4 R語言數(shù)據(jù)分析

R語言提供數(shù)據(jù)分析功能簸淀,主要課程包括了R語言的基礎進階部分瓶蝴、R語言數(shù)據(jù)分析部分以及R語言案例。

R語言基礎18 R語言簡介3 R語言概述與應用領域

為何學習R語言

R語言開發(fā)環(huán)境搭建

R語言數(shù)據(jù)結(jié)構(gòu)6 R語言數(shù)據(jù)類型

Array數(shù)組和factor因子

List列表和DataFrame數(shù)據(jù)框

R語言程序結(jié)構(gòu)

R語言向量化計算

對象改值3 就地改值

邏輯值取子集

缺失信息

R的記號體系2 值的選取

發(fā)牌實例和洗牌實例

S類系統(tǒng)4 S類系統(tǒng)簡介與屬性

泛型函數(shù)

S類系統(tǒng)方法

類租幕、S3與調(diào)試

R語言數(shù)據(jù)分析11 R語言數(shù)據(jù)分析11 基本統(tǒng)計

對比分析

分組分析

分布分析

交叉分析

結(jié)構(gòu)分析

相關分析

簡單線性回歸分析

多重線性回歸分析

RFM分析

矩陣分析

R語言數(shù)據(jù)分析綜合應用10 R語言數(shù)據(jù)分析綜合應用10 建立銷售響應模型

預測銷售額

水質(zhì)評估

財政收入分析預測模型

騎車數(shù)據(jù)可視化分析

房價指數(shù)的分析與預測

電商評論情感分析

航空公司價值分析

游戲玩家付費行為預測

用戶留存分析實戰(zhàn)

3.1.6 數(shù)據(jù)挖掘

3.1.6.1 SAS和R數(shù)據(jù)挖掘

SAS和R語言可以在基礎的教學和分析上進行數(shù)據(jù)的挖掘舷手,主要課程如下。

SAS數(shù)據(jù)挖掘6 SAS數(shù)據(jù)挖掘6 主成分分析

因子分析

聚類分析

判別分析

相關分析

生存分析

R語言數(shù)據(jù)挖掘11 R語言數(shù)據(jù)挖掘11 數(shù)據(jù)挖掘簡介

數(shù)據(jù)挖掘常見問題

數(shù)據(jù)挖掘流程

分類預測基本流程

R語言數(shù)據(jù)預處理(一)

R語言數(shù)據(jù)預處理(二)-轉(zhuǎn)換

R語言決策樹分類方法

R語言高級分類方法

R語言聚類分析與關聯(lián)分析

智能推薦

時間序列

離群點檢測

R語言網(wǎng)頁數(shù)據(jù)抓取3 R語言網(wǎng)頁數(shù)據(jù)抓取3 HTML數(shù)據(jù)抓取

JSON數(shù)據(jù)抓取

使用Google分析網(wǎng)頁結(jié)構(gòu)

3.1.6.2 Mahout

Mahout是Apache Software Foundation(ASF)旗下的一個開源項目劲绪。提供一些可擴展的機器學習領域經(jīng)典算法的實現(xiàn)男窟,旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應用程序。Mahout包含許多實現(xiàn)贾富,包括聚類歉眷、分類、推薦過濾颤枪、頻繁子項挖掘汗捡。此外,通過使用Apache Hadoop庫畏纲。 Mahout可以有效地擴展到云中扇住。

Mahout5 Mahout5 Mahout簡介

推薦算法

聚類算法

分類算法

使用Mahout構(gòu)建職位推薦案例

3.1.7 數(shù)據(jù)可視化

3.1.7.1 Matplotlib可視化

Matplotlib可能是 Python 2D-繪圖領域使用最廣泛的套件。它能讓使用者很輕松地將數(shù)據(jù)圖形化盗胀,并且提供多樣化的輸出格式艘蹋。下面的課程將會探索 matplotlib 的常見用法。

可視化技術(shù)與matplotlib6 可視化與Matplotlib6 繪制折線圖

繪制散點圖

繪制餅狀圖

繪制柱狀圖

繪圖區(qū)域分割

結(jié)合pandas進行數(shù)據(jù)可視化

3.1.7.2 SAS和R可視化

R語言使用dplyr票灰、tidyr女阀、reshape2 等包的數(shù)據(jù)操作方法; base屑迂、lattice 和ggplot2包的圖形語法進行可視化展示浸策。SAS可視化文本分析綜合運用自然語言處理、機器學習和語言規(guī)則屈糊,從非結(jié)構(gòu)化數(shù)據(jù)中獲取價值的榛。該課程可解決各行業(yè)面臨的業(yè)務難題,包括:管理和解釋記錄逻锐、評估風險和欺詐夫晌、以及通過客戶反饋及早發(fā)現(xiàn)問題雕薪。

SAS數(shù)據(jù)可視化7 SAS數(shù)據(jù)可視化7 圖形繪制

條形圖

餅圖

散點圖

箱型圖

R語言數(shù)可視化8 R語言數(shù)據(jù)可視化8 R語言餅圖

R語言散點圖

R語言折線圖

R語言柱形圖

R語言直方圖

R語言箱線圖

R語言樹形圖

R語言地圖和熱力圖

3.1.7.3 可視化工具

可視化除了編程語言之外還可已使用Echart、NodeBox晓淀、Inkscape等這樣的工具進行可視化處理所袁。

可視化工具6 可視化工具:python

可視化工具:Echart

可視化工具:NodeBox

可視化工具:Inkscape

可視化工具:Open Layers

可視化工具:Leaflet

3.1.8 大數(shù)據(jù)案例

大數(shù)據(jù)正在改變我們的世界⌒钻互聯(lián)網(wǎng)發(fā)展以及移動通信市場和相關技術(shù)的迅速擴張也已創(chuàng)建大量的數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)燥爷。數(shù)據(jù)可用性和數(shù)據(jù)應用對商業(yè)和更廣泛的社會領域帶來了巨大影響。有效使用大數(shù)據(jù)有助于公司更精準地對重要信息進行分析很終提高運營效率懦窘、減少成本前翎、降低風險、加快創(chuàng)新畅涂、增加收入港华。本平臺詳細介紹了大數(shù)據(jù)策略的規(guī)劃和執(zhí)行配以不同行業(yè)里不計其數(shù)的現(xiàn)實案例加以闡述。

Hadoop項目案例8 Hadoop項目案例8 QQ好友推薦算法

PageRank算法

Tf-Idf算法

數(shù)據(jù)關聯(lián)案例

ETL案例

PV UV統(tǒng)計案例

用戶流失和新增案例

Hadoop總結(jié)

大數(shù)據(jù)案例(34) 大數(shù)據(jù)案例34 數(shù)據(jù)分析生命周期概述6 數(shù)據(jù)分析概述

發(fā)現(xiàn)

數(shù)據(jù)準備

模型規(guī)劃

模型建立

溝通與實施

數(shù)據(jù)采集2 數(shù)據(jù)采集的原理

數(shù)據(jù)采集的實驗步驟

數(shù)據(jù)清洗2 數(shù)據(jù)清洗的原理

數(shù)據(jù)清洗的實驗步驟

可視化工具6 可視化工具:python

可視化工具:Echart

可視化工具:NodeBox

可視化工具:Inkscape

可視化工具:Open Layers

可視化工具:Leaflet

數(shù)據(jù)建模2 數(shù)據(jù)建模的原理

數(shù)據(jù)分析方法與過程

模型評估與優(yōu)化2 模型-數(shù)據(jù)與實驗環(huán)境介紹

模型-數(shù)據(jù)分析方法與過程

出租車數(shù)據(jù)分析2 出租車-數(shù)據(jù)與實驗環(huán)境介紹

出租車-數(shù)據(jù)分析方法與過程

音樂分類2 音樂-數(shù)據(jù)與實驗環(huán)境介紹

音樂-數(shù)據(jù)分析方法與過程

知識圖譜制作2 知識圖譜-數(shù)據(jù)與實驗環(huán)境介紹

知識圖譜-數(shù)據(jù)分析方法與過程

電影評論情感分析2 電影-數(shù)據(jù)與實驗環(huán)境介紹

電影-數(shù)據(jù)分析方法與過程

金融數(shù)據(jù)分析2 金融-數(shù)據(jù)與實驗環(huán)境介紹

金融-數(shù)據(jù)分析方法與過程

大型商場銷售額預測2 銷售-數(shù)據(jù)與實驗環(huán)境介紹

銷售-數(shù)據(jù)分析方法與過程

NBA籃球比賽結(jié)果分析預測2 籃球-數(shù)據(jù)與實驗環(huán)境介紹

籃球-數(shù)據(jù)分析方法與過程

3.2 教學資源

為滿足教學需求午衰,針對紅亞大數(shù)據(jù)教學平臺重點實驗提供配套的PPT講義及視頻講解立宜,從實驗知識介紹、實驗目的臊岸、實驗原理橙数、實驗拓展、實驗過程等內(nèi)容展開詳細的介紹帅戒。教材建設

紅亞科技與全國高校大數(shù)據(jù)專家灯帮、出版社共同出版了一套國家“高等教育十三五規(guī)劃”大數(shù)據(jù)教材,包括Hadoop蜘澜、Spark施流、R語言响疚、SAS鄙信、大數(shù)據(jù)綜合案例技術(shù)應用實踐教材。本套教材與大數(shù)據(jù)實訓教學平臺相輔相成忿晕,形成完整的教學資源装诡,覆蓋理論、實訓践盼、實踐鸦采、實戰(zhàn)類型,可有效的解決大數(shù)據(jù)教學資源不夠完善的問題咕幻。

第四章 數(shù)據(jù)安全科研保障箱

數(shù)據(jù)安全科研實驗箱是在建立在學生具備完善的數(shù)據(jù)安全基礎知識的層面上的渔伯,在學生掌握了一定的數(shù)據(jù)安全攻擊防御學科知識的同時,亦可進行學科性的知識拓展研究肄程;在一定程度上可延伸學生的學習和知識掌握能力锣吼;同時更加全面的提高了學生的綜合知識能力选浑。

數(shù)據(jù)安全科研實驗實驗箱集成了四種處理器,包括A8處理器玄叠、M4處理器古徒、Z32處理器、FPGA編程板读恃,可通過編程實現(xiàn)如下科研項目:SM2密碼算法與實現(xiàn)隧膘、12684液晶屏串行顯示實驗、SLE4428邏輯加密卡實驗寺惫、SM3密碼雜湊算法程序設計疹吃。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市西雀,隨后出現(xiàn)的幾起案子互墓,更是在濱河造成了極大的恐慌,老刑警劉巖蒋搜,帶你破解...
    沈念sama閱讀 211,376評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件篡撵,死亡現(xiàn)場離奇詭異,居然都是意外死亡豆挽,警方通過查閱死者的電腦和手機育谬,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,126評論 2 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來帮哈,“玉大人膛檀,你說我怎么就攤上這事∧锸蹋” “怎么了咖刃?”我有些...
    開封第一講書人閱讀 156,966評論 0 347
  • 文/不壞的土叔 我叫張陵,是天一觀的道長憾筏。 經(jīng)常有香客問我嚎杨,道長,這世上最難降的妖魔是什么氧腰? 我笑而不...
    開封第一講書人閱讀 56,432評論 1 283
  • 正文 為了忘掉前任枫浙,我火速辦了婚禮,結(jié)果婚禮上古拴,老公的妹妹穿的比我還像新娘箩帚。我一直安慰自己,他們只是感情好黄痪,可當我...
    茶點故事閱讀 65,519評論 6 385
  • 文/花漫 我一把揭開白布紧帕。 她就那樣靜靜地躺著,像睡著了一般桅打。 火紅的嫁衣襯著肌膚如雪是嗜。 梳的紋絲不亂的頭發(fā)上轻纪,一...
    開封第一講書人閱讀 49,792評論 1 290
  • 那天,我揣著相機與錄音叠纷,去河邊找鬼刻帚。 笑死,一個胖子當著我的面吹牛涩嚣,可吹牛的內(nèi)容都是我干的崇众。 我是一名探鬼主播,決...
    沈念sama閱讀 38,933評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼航厚,長吁一口氣:“原來是場噩夢啊……” “哼顷歌!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起幔睬,我...
    開封第一講書人閱讀 37,701評論 0 266
  • 序言:老撾萬榮一對情侶失蹤眯漩,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后麻顶,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體赦抖,經(jīng)...
    沈念sama閱讀 44,143評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,488評論 2 327
  • 正文 我和宋清朗相戀三年辅肾,在試婚紗的時候發(fā)現(xiàn)自己被綠了队萤。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,626評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡矫钓,死狀恐怖要尔,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情新娜,我是刑警寧澤赵辕,帶...
    沈念sama閱讀 34,292評論 4 329
  • 正文 年R本政府宣布,位于F島的核電站概龄,受9級特大地震影響还惠,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜旁钧,卻給世界環(huán)境...
    茶點故事閱讀 39,896評論 3 313
  • 文/蒙蒙 一吸重、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧歪今,春花似錦、人聲如沸颜矿。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,742評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽骑疆。三九已至田篇,卻和暖如春替废,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背泊柬。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工椎镣, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人兽赁。 一個月前我還...
    沈念sama閱讀 46,324評論 2 360
  • 正文 我出身青樓状答,卻偏偏與公主長得像,于是被迫代替她去往敵國和親刀崖。 傳聞我的和親對象是個殘疾皇子惊科,可洞房花燭夜當晚...
    茶點故事閱讀 43,494評論 2 348

推薦閱讀更多精彩內(nèi)容