數(shù)據(jù)科學資源整理

數(shù)據(jù)科學主要包括兩個方面:用數(shù)據(jù)的方法研究科學和用科學的方法研究數(shù)據(jù)(好吧著洼,這明顯是在玩文字游戲~)下愈,前者包括生物信息學、天體信息學项玛、數(shù)字地球等領(lǐng)域荞估;后者包括統(tǒng)計學比被、機器學習、數(shù)據(jù)挖掘泼舱、數(shù)據(jù)庫等領(lǐng)域。

所以大家形容數(shù)據(jù)科學家“比軟件工程師更擅長統(tǒng)計學枷莉,比統(tǒng)計學家更擅長統(tǒng)計工程”娇昙。看來數(shù)學笤妙、統(tǒng)計學和機器學習……一樣都跑不脫了冒掌。

數(shù)學的話這里推薦一下可汗學院出的講解視頻,非常經(jīng)典:網(wǎng)易公開課

麻省理工的線性代數(shù)課也值得一看:麻省理工公開課:線性代數(shù)_全35集

關(guān)于機器學習的資源我之前已經(jīng)整理過了 蹲盘,所以這里就不過多贅述了股毫。偷懶:)

這里主要就介紹一些課程和數(shù)據(jù)庫吧,大致內(nèi)容是這樣的:

1)學習網(wǎng)站

2)從入門到進階的項目

3)獲取數(shù)據(jù)集的網(wǎng)站

4)工具列表

5)其它

那就繼續(xù)往下看吧召衔。

一铃诬、學習網(wǎng)站

國內(nèi)的搜了下基本都是零零散散的,專題性不是很強苍凛,所以喜歡看視頻的話可以去慕課網(wǎng)趣席、網(wǎng)易公開課找主題相關(guān)的課程(關(guān)鍵詞:機器學習/數(shù)據(jù)挖掘/數(shù)據(jù)分析等),實驗樓提供文檔和在線實操醇蝴,w3cschool的課也不錯宣肚,階段性也比較強。

國外對數(shù)據(jù)科學可能針對性更強一點悠栓,大家可以了解下這幾個網(wǎng)站:

EdX

DataCamp(贊C拐恰)

Dataquest

Udemy

二、從入門到進階的項目

這樣寫會比較系統(tǒng)惭适,而且都是比較經(jīng)典的一些項目笙瑟,大家看看都會不會。

1癞志、初級

剛?cè)腴T還是會推薦一些比較容易的數(shù)據(jù)集逮走,而且也不需要復雜的數(shù)據(jù)科學技術(shù),可以使用基本回歸或分類算法來解決。

鳶尾花分類:根據(jù)可用屬性預測花的種類

貸款預測:預測貸款是否會獲得批準

Big mart銷售預測:預測商店的銷售情況

波士頓住房數(shù)分析:預測自住房屋的中位數(shù)值

學生在校表現(xiàn)評估:使用分類和聚類技術(shù)來處理數(shù)據(jù)

研究身高與體重:預測一個人的身高或體重

2师溅、中級

中級的話會更有挑戰(zhàn)性一點茅信,數(shù)據(jù)集更大,需要一些良好的模式識別技能墓臭。

黑色星期五銷售預測:預測購買金額

文本挖掘:根據(jù)標簽對文檔進行分類

歌曲年代預測

人口普查分析:預測美國人口的收入水平

電影推薦:向用戶推薦新電影

Twitter情感分析:確定哪些推文容易受歡迎

3蘸鲸、高級

下面會涉及到神經(jīng)網(wǎng)絡,深度學習窿锉,推薦系統(tǒng)等高級主題酌摇。

數(shù)字識別:識別圖像中的數(shù)字

城市聲音分類:從音頻中分出聲音類型

人聲識別:尋找聲音的主人

芝加哥犯罪分析:預測犯罪類型

演員年齡預測

上面的項目都挺有意思的,大家可以跟著動手練練嗡载。

又給大家找了幾個中文文檔:

NBA常規(guī)賽結(jié)果預測

神經(jīng)網(wǎng)絡實現(xiàn)手寫字符識別系統(tǒng)

K-近鄰算法實現(xiàn)手寫數(shù)字識別系統(tǒng)

三窑多、獲取數(shù)據(jù)集的網(wǎng)站

1、亞馬遜網(wǎng)絡服務

亞馬遜在其AWS web service上提供大型數(shù)據(jù)集洼滚,比如

Google圖書的n-gram列表:大量書籍的常用詞匯和詞匯組

Common Crawl Corpus:來自超過50億個網(wǎng)頁的爬行數(shù)據(jù)

Landsat圖像:地球表面的中等分辨率衛(wèi)星圖像

2埂息、谷歌云平臺

和亞馬遜一樣,谷歌也有一個云托管服務遥巴。Google BigQuery公共數(shù)據(jù)集列出了網(wǎng)頁上的所有數(shù)據(jù)集千康,比如

Github活動:包含280多萬個公共Github存儲庫的所有公共活動。

歷史天氣:數(shù)據(jù)來自9000 NOAA氣象站從1929年到2016年铲掐。

3拾弃、Kaggle

Kaggle是一個組織機器學習競賽的數(shù)據(jù)科學社區(qū),網(wǎng)站上有各種外部貢獻的有趣數(shù)據(jù)集摆霉。你可以通過參加比賽從Kaggle下載數(shù)據(jù)豪椿。每個比賽都有自己的相關(guān)數(shù)據(jù)集。在新的Kaggle Data sets中也有用戶提供的數(shù)據(jù)集携栋。

4砂碉、UCI機器學習庫:用戶提供的有趣數(shù)據(jù)集

5、Quandl:經(jīng)濟和金融數(shù)據(jù)的存儲庫

6刻两、Twitter:擁有強大的流媒體API

7增蹭、Quantopian:開發(fā),測試和操作股票交易算法的網(wǎng)站

四磅摹、工具列表

Tableau:數(shù)據(jù)可視化分析軟件滋迈,幫助快速輕松地分析數(shù)據(jù)

Bokeh:一個交互式可視化庫,面向現(xiàn)代Web瀏覽器進行演示户誓。它的目標是提供優(yōu)雅饼灿、簡潔的多功能圖形構(gòu)造

Apache Hadoop:允許使用簡單的編程模型跨計算機集群分布式處理大型數(shù)據(jù)集

D3.js:用于根據(jù)數(shù)據(jù)操作文檔的JavaScript庫。

Jupyter:一個開源Web應用程序帝美,允許創(chuàng)建和共享包含實時代碼碍彭、方程式、可視化和敘述文本的文檔。

OpenRefine:處理凌亂數(shù)據(jù)的強大工具

Orange:新手也能用的開源機器學習和數(shù)據(jù)可視化工具

KNIME:無縫地混合工具和數(shù)據(jù)類型

DataMelt:面向科學家庇忌、工程師和學生的免費數(shù)學軟件舞箍,可用于數(shù)值計算,統(tǒng)計皆疹,符號計算疏橄,數(shù)據(jù)分析和數(shù)據(jù)可視化等。

RapidMiner:通過使用最新的機器學習算法和技術(shù)(如Tensorflow略就,Hadoop和Spark)消除了尖端數(shù)據(jù)科學的復雜性捎迫。

五、其它:

什么是數(shù)據(jù)科學表牢?數(shù)據(jù)科學的基本內(nèi)容

如何成為數(shù)據(jù)科學家窄绒?

統(tǒng)計學習方法學習筆記一

Iris Data Set(鳶尾屬植物數(shù)據(jù)集)

數(shù)據(jù)挖掘的一般過程

很棒的機器學習項目

數(shù)據(jù)集大全:25個深度學習的開放數(shù)據(jù)集

數(shù)據(jù)極客|數(shù)據(jù)科學交流社區(qū)

沒資源?下一秒就可以加入的10個數(shù)據(jù)科學項目崔兴!

最適合練手30個的機器學習開源項目


以上就是我整理的關(guān)于數(shù)據(jù)科學的一些內(nèi)容彰导,如果不全還請各位大佬多多包涵(o°ω°o)

大家可以補充,我看到也會再更新上來滴恼布。

希望小伙伴們能多分享一點學習經(jīng)驗,帶帶二師弟~們啊~

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末搁宾,一起剝皮案震驚了整個濱河市折汞,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌盖腿,老刑警劉巖爽待,帶你破解...
    沈念sama閱讀 217,277評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異翩腐,居然都是意外死亡鸟款,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評論 3 393
  • 文/潘曉璐 我一進店門茂卦,熙熙樓的掌柜王于貴愁眉苦臉地迎上來何什,“玉大人,你說我怎么就攤上這事等龙〈υ” “怎么了?”我有些...
    開封第一講書人閱讀 163,624評論 0 353
  • 文/不壞的土叔 我叫張陵蛛砰,是天一觀的道長罐栈。 經(jīng)常有香客問我,道長泥畅,這世上最難降的妖魔是什么荠诬? 我笑而不...
    開封第一講書人閱讀 58,356評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上柑贞,老公的妹妹穿的比我還像新娘方椎。我一直安慰自己,他們只是感情好凌外,可當我...
    茶點故事閱讀 67,402評論 6 392
  • 文/花漫 我一把揭開白布辩尊。 她就那樣靜靜地躺著,像睡著了一般康辑。 火紅的嫁衣襯著肌膚如雪摄欲。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,292評論 1 301
  • 那天疮薇,我揣著相機與錄音胸墙,去河邊找鬼。 笑死按咒,一個胖子當著我的面吹牛迟隅,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播励七,決...
    沈念sama閱讀 40,135評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼智袭,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了掠抬?” 一聲冷哼從身側(cè)響起吼野,我...
    開封第一講書人閱讀 38,992評論 0 275
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎两波,沒想到半個月后瞳步,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,429評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡腰奋,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,636評論 3 334
  • 正文 我和宋清朗相戀三年单起,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片劣坊。...
    茶點故事閱讀 39,785評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡嘀倒,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出局冰,到底是詐尸還是另有隱情括儒,我是刑警寧澤,帶...
    沈念sama閱讀 35,492評論 5 345
  • 正文 年R本政府宣布锐想,位于F島的核電站帮寻,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏赠摇。R本人自食惡果不足惜固逗,卻給世界環(huán)境...
    茶點故事閱讀 41,092評論 3 328
  • 文/蒙蒙 一浅蚪、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧烫罩,春花似錦惜傲、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至隘弊,卻和暖如春哈踱,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背梨熙。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評論 1 269
  • 我被黑心中介騙來泰國打工开镣, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人咽扇。 一個月前我還...
    沈念sama閱讀 47,891評論 2 370
  • 正文 我出身青樓邪财,卻偏偏與公主長得像,于是被迫代替她去往敵國和親质欲。 傳聞我的和親對象是個殘疾皇子树埠,可洞房花燭夜當晚...
    茶點故事閱讀 44,713評論 2 354

推薦閱讀更多精彩內(nèi)容