從事大數(shù)據(jù)行業(yè)的人都清楚猴抹,R是用于統(tǒng)計(jì)分析带族、繪圖的語言和操作環(huán)境,同時(shí)它還是一個(gè)用于統(tǒng)計(jì)計(jì)算和統(tǒng)計(jì)制圖的優(yōu)秀工具蟀给。今天炉菲,大圣眾包威客平臺(tái)(www.dashengzb.cn)特意整理出從入門到進(jìn)階的相關(guān)書籍,以供參考坤溃。
一拍霜、初學(xué)入門:
入門者可首選以下兩本書。前者從統(tǒng)計(jì)角度入手薪介,分高中低三部分由淺入深地講解如何用R來實(shí)現(xiàn)統(tǒng)計(jì)分析祠饺;后者從程序編寫的角度入手,對(duì)R本身的特點(diǎn)進(jìn)行了清晰的介紹汁政。
《RinAction》
《RinAction》是一本介紹R系統(tǒng)和使用案例的書道偷,讓其成為開發(fā)人員的強(qiáng)大的工具包。除了介紹R語言记劈,本書還包括對(duì)其開發(fā)環(huán)境的介紹勺鸦。同時(shí),它著重介紹了實(shí)用的解決方案目木,還提供了一個(gè)實(shí)用的統(tǒng)計(jì)數(shù)據(jù)的優(yōu)秀課程换途,包括使用R的特征來處理混亂和不完整數(shù)據(jù)的方法。
2.《TheArtofRProgramming》
《TheArtofRProgramming》將帶領(lǐng)讀者瀏覽R語言的軟件開發(fā)過程刽射,無論是面向功能還是面向?qū)ο蟮木幊叹狻?shù)學(xué)模擬的運(yùn)行,以及簡(jiǎn)化復(fù)雜數(shù)據(jù)和常用的格式均能學(xué)習(xí)到誓禁⌒赶ⅲ《TheArtofRProgramming》是教授讀者運(yùn)用統(tǒng)計(jì)計(jì)算能力的一本優(yōu)秀的指南。
二摹恰、統(tǒng)計(jì)進(jìn)階:
這兩本書基本上涵蓋了統(tǒng)計(jì)的一些高階內(nèi)容辫继,例如多元分析怒见、多層回歸模型、薈萃分析姑宽、生存分析等內(nèi)容遣耍。案例豐富,公式不算多低千,值得反復(fù)學(xué)習(xí)和參考。
《A Hand book of Statistical Analyses Using R》
像最暢銷的前兩個(gè)版本一樣馏颂,《AHandbookofStatisticalAnalysesUsingR》第三版解釋了如何進(jìn)行一系列的統(tǒng)計(jì)分析示血,包括從簡(jiǎn)單推理、遞歸分配救拉,再到聚類分析难审。無論讀者是數(shù)據(jù)分析師、數(shù)據(jù)科學(xué)家還是學(xué)生亿絮,本手冊(cè)都展示了如何使用R輕松有效地評(píng)估數(shù)據(jù)的方法告喊。結(jié)合真實(shí)例子,本書強(qiáng)調(diào)了數(shù)據(jù)的實(shí)際應(yīng)用和結(jié)果派昧。
2.《ModernAppliedStatisticswithS》
這是一本使用S環(huán)境進(jìn)行統(tǒng)計(jì)分析的指南黔姜,它提供了S的使用介紹和現(xiàn)代統(tǒng)計(jì)方法的課程。本書將重點(diǎn)介紹實(shí)際問題和對(duì)實(shí)際數(shù)據(jù)集的全面分析蒂萎。
三秆吵、科學(xué)計(jì)算:
除了統(tǒng)計(jì)分析外,此書獨(dú)特之處在于使用R來做數(shù)值分析五慈,如求根纳寂、最優(yōu)化、數(shù)值積分泻拦,等等毙芜。令人驚喜的是,它還包括了一些常見的模擬技術(shù)争拐。書后的習(xí)題和最后的案例非常有用腋粥。
《IntroductiontoScientificProgrammingandSimulationUsingR》
第二版《IntroductiontoScientificProgrammingandSimulationUsingR》,繼續(xù)以清晰架曹、實(shí)用和透徹的方式灯抛,介紹科學(xué)計(jì)劃和隨機(jī)建模。讀者可以通過其中的實(shí)驗(yàn)提供的R代碼和數(shù)據(jù)來學(xué)習(xí)編程音瓷。這個(gè)版本精煉地演示了如何將算法轉(zhuǎn)換為代碼对嚼,并且易于閱讀,并提供了豐富的例子和習(xí)題绳慎。
四纵竖、數(shù)據(jù)挖掘:
這兩本側(cè)重于數(shù)據(jù)挖掘的R語言書籍漠烧,全是以案例為線索,示范的代碼量很大靡砌,跟一遍下來會(huì)有很大的收獲已脓。
《DataMiningwithR:LearningwithCaseStudies》
功能強(qiáng)大和大量附加軟件包,使得R成為許多數(shù)據(jù)挖掘工具的絕佳替代品通殃。從實(shí)踐者的角度探索這一領(lǐng)域度液,《DataMiningwithR:LearningwithCaseStudies》使用了很多實(shí)例來說明R和數(shù)據(jù)挖掘的力量。為了展示主要的數(shù)據(jù)挖掘過程和技術(shù)画舌,本書作者采用了實(shí)踐的方法堕担,利用一系列詳細(xì)的、真實(shí)的案例研究說理曲聂,并提供了所有必要的步驟霹购、代碼和數(shù)據(jù)。
2.《MachineLearningforHackers》
現(xiàn)在存儲(chǔ)和收集技術(shù)比以往更為廉價(jià)與精確朋腋,從大數(shù)據(jù)集中提取相關(guān)信息的方法齐疙,是任何經(jīng)驗(yàn)豐富的程序員都希望學(xué)習(xí)的。有了這本書旭咽,讀者將以實(shí)用的方式贞奋,使用黑盒解決方案和案例研究來學(xué)習(xí)機(jī)器學(xué)習(xí)和統(tǒng)計(jì)工具,而不是傳統(tǒng)的重量級(jí)演示穷绵。
五忆矛、數(shù)據(jù)繪圖:
ggplot2還有什么好說的呢,R中最優(yōu)秀的繪圖包请垛,但由于近期該包升級(jí)很快催训,這書顯得有些過時(shí),幸好在中文版中它進(jìn)行了大幅的更新宗收。
《ggplot2ElegantGraphicsforDataAnalysis》
ggplot2是一個(gè)專門為生產(chǎn)圖形而量身定制的迷你語言漫拭,讀者能夠從書中學(xué)到所需要的一切。ggplot2是R的數(shù)據(jù)可視化包混稽,可以幫助用戶輕松地創(chuàng)建數(shù)據(jù)圖形采驻。
六、參考手冊(cè):
有時(shí)候我們需要類似詞典的案頭參考手冊(cè)匈勋,以方便隨時(shí)查閱礼旅;又或者可以通讀一遍以查漏補(bǔ)缺。以下兩本書雖然有些厚度洽洁,但仍然推薦之痘系。
《RCookbook》
借助超過200種實(shí)用方案,本書可幫助讀者快速高效地執(zhí)行R數(shù)據(jù)分析饿自。R語言提供了進(jìn)行統(tǒng)計(jì)工作所需的一切汰翠,但其結(jié)構(gòu)可能難以掌握龄坪。這套簡(jiǎn)潔,面向任務(wù)的書籍使讀者可以立即調(diào)動(dòng)R复唤,從基本任務(wù)健田、輸入和輸出、一般統(tǒng)計(jì)佛纫、圖形和線性回歸等解決方案都涵蓋得到妓局。由于有很高的悅讀性,《RCookbook》不僅是一本解決方案的手冊(cè)呈宇,更是用來探索R語言的愉快的方式好爬。
2.《RinaNutshell》
本書中,作者向讀者介紹了R的環(huán)境攒盈,讓讀者了解了面向?qū)ο蟮腞語言的基礎(chǔ)知識(shí)抵拘,以及R圖形用戶界面和控制臺(tái)哎榴。然后型豁,通過醫(yī)學(xué)、商業(yè)和運(yùn)動(dòng)等各種實(shí)例尚蝌,讀者將學(xué)習(xí)到如何使用這個(gè)卓越的工具來解決自己的數(shù)據(jù)分析問題迎变。
七、高級(jí)編程:
如果你是初學(xué)者飘言,不建議看這兩本書衣形。如果你想進(jìn)階為專家級(jí)R用戶,那你需要精讀它們姿鸿。前者講解了R鮮為人知的一面谆吴,例如字符處理、正則表達(dá)和XML苛预,還有報(bào)錯(cuò)處理以及與其它語言的交互句狼;后者更是編寫生產(chǎn)級(jí)代碼的圣經(jīng)指南。
《RProgrammingforBioinformatics》
作者在書中檢查了字符串處理和操作的不同方面热某,討論了R與其他語言的接口腻菇,并描述了如何編寫軟件包。最后昔馋,他還討論了R代碼的調(diào)試和分析筹吐。通過許多例子和練習(xí),本實(shí)用指南專注于開發(fā)R編程技能秘遏,以解決生物信息學(xué)和計(jì)算生物學(xué)中遇到的問題丘薛。
2.《SoftwareforDataAnalysisProgrammingwithR》
本書通過R編程,從簡(jiǎn)單的交互式使用開始逐步進(jìn)行邦危。同時(shí)榔袋,它還可以根據(jù)需要添加更高級(jí)的編程技術(shù)周拐,讓用戶成長(zhǎng)為軟件貢獻(xiàn)者,從而使他們的職業(yè)和社區(qū)受益凰兑。此書是R的高級(jí)編程書妥粟,由R語言的作者編寫。
(更多大數(shù)據(jù)與商業(yè)智能領(lǐng)域干貨吏够、或電子書勾给,可添加個(gè)人微信號(hào)(dashenghuaer))