現(xiàn)在大數(shù)據(jù)處理領(lǐng)域最火爆的非Spark莫屬枫浙,今年夏天Berkeley大學(xué)開放了兩門Spark入門網(wǎng)絡(luò)課程朦拖。跟著學(xué)習(xí)了一下我磁,感覺非常適合入門孽文,課程同時會涉及到數(shù)據(jù)分析方法、ML的一些基礎(chǔ)算法夺艰。
兩門課程如下:
第一門 CS100 《BerkeleyX: CS100.1x Introduction to Big Data with Apache Spark》
第二門CS190 《BerkeleyX: CS190.1x Scalable Machine Learning》
從這兩門課程的參與人數(shù)上也可以看出來spark到底有多火熱:
CS100
The over 70,000 students from over 170 countries who enrolled in this course:10,700 students finished lab 1, 8,700 lab 2, 7,400 lab 3, and 6,800 lab 4.
CS190
Nearly 50,000 students from 163 countries are enrolled in this course
個人比較推薦的2個理由:
- 課程提供一套環(huán)境芋哭,在自己PC上安裝VBox,vagrant后,本機上就有一個Spark環(huán)境郁副,方便學(xué)習(xí)减牺;
- 課程的作業(yè)設(shè)計非常好,循序漸進(jìn),有難度拔疚》事。總共5周的教學(xué),有4 個lab要做稚失。 每個 lab 會由淺至深介紹spark的各種用法栋艳,并且以實際應(yīng)用為主。整個做下來對 Spark RDD操作句各,Python 數(shù)據(jù)處理吸占,mllib 都會有所了解。
課程目錄:
CS100:
lab1 學(xué)習(xí) Spark模型凿宾、transformation矾屯、action、 word count 程序初厚;
lab2 應(yīng)用 Spark 進(jìn)行日志分析件蚕,數(shù)據(jù)統(tǒng)計,畫圖惧所;
lab3 實現(xiàn)文本分析骤坐,介紹TF-IDF算法绪杏,并進(jìn)行算法評估下愈;
lab4 介紹機器學(xué)習(xí) 用協(xié)同過濾算法實現(xiàn)電影推薦
CS190:
lab1 python,Numpy 介紹
lab2 同CS100 lab1蕾久,Spark RDD操作势似,wordcount 實現(xiàn)
lab3 線性回歸 算法預(yù)測 歌曲發(fā)型年份
lab4 邏輯回歸 進(jìn)行CTR預(yù)測
lab5 PCA算法