從STATA過渡到R的經(jīng)驗

1. 下決心

如果只能學(xué)一個統(tǒng)計軟件养匈,必須是R。最重要的原因是R已經(jīng)被整合進(jìn)數(shù)據(jù)科學(xué)的生產(chǎn)鏈條當(dāng)中,其他任何統(tǒng)計軟件都無法相比二蓝,鼓搗數(shù)據(jù)的早晚要融入這個生態(tài)引镊,越早動手越好朦蕴,有點后悔兩年前第一次學(xué)的時候沒堅持下來。有這一條就足夠了弟头,其他必要性不多解釋吩抓,剛刪了以前那篇啰里啰唆的文章。

2. 先學(xué)赴恨、并盡快上手tidyverse疹娶,還要完整地學(xué)

這條實在太重要了,其實應(yīng)該放到最前面伦连。以前拉拉雜雜看了很多資料雨饺,都沒有從STATA用戶的角度講該如何高效率地學(xué)習(xí)R,我自己也是走了很多彎路惑淳,第一次學(xué)習(xí)甚至放棄了额港。其實STATA用戶從tidyverse入手會非常有優(yōu)勢,如果當(dāng)時就知道這一點歧焦,那一次或許就已經(jīng)學(xué)會了移斩。

2.1 tidyverse是什么?

對于STATA用戶來說,R語言難學(xué)的地方在于自帶的版本(BASE)語法邏輯與STATA非常不一樣绢馍,想要延續(xù)STATA語法的思考方式向瓷,使用BASE基本上無法完成任何一個工作,學(xué)習(xí)成本非常高舰涌。

BASE語法的問題是有點過時猖任, 面對多個數(shù)據(jù)庫的操作非常啰嗦,所以Hadley Wickham就在R的基礎(chǔ)上開發(fā)出tidyverse包舵稠,語法更為現(xiàn)代超升,并且覆蓋了統(tǒng)計軟件的全部基本功能入宦。從BASE過渡到tidyverse,經(jīng)常會感嘆為什么以前不知道這個包室琢。

很好奇陳強(qiáng)為什么不在自己的教材里提這一點乾闰。

2.2 學(xué)習(xí)路徑

熟悉學(xué)習(xí)tidyverse之前,仍然不能跳過學(xué)習(xí)R的基本語法盈滴,不然很多東西沒法搞懂涯肩。具體來說,STATA用戶從零學(xué)R巢钓,可以按下面這個步驟:

  • R語言實戰(zhàn)(R in Action), RIA
    先看這本書的前兩個單元病苗。這本書的優(yōu)點是詳細(xì)講解了R(BASE)的操作方式和邏輯,是繼續(xù)學(xué)習(xí)的基礎(chǔ)症汹。缺點是介紹特定功能時會跨越不同的包硫朦,增加了新手學(xué)習(xí)的難度。
  • R for Data Science, R4DS by Hadley Wickham
    這是講tidyverse的教材背镇,就我看過的所有教材來講(不限于R或者統(tǒng)計咬展,上百本總有了),這本也有資格稱得上是最好的瞒斩。有統(tǒng)計和STATA的基礎(chǔ)破婆,這本學(xué)起來非常快胸囱。

這次學(xué)R是邊干邊學(xué)祷舀,直接用R干活,在此過程中強(qiáng)烈感覺到tidyverse的語法理解起來更容易烹笔,于是RIA看到第七章裳扯,也就是第二單元結(jié)束,決定先停下箕宙,轉(zhuǎn)攻R4DS嚎朽。從第二單元開始铺纽,STATA柬帕、RIA和統(tǒng)計的基礎(chǔ)開始發(fā)揮作用,學(xué)習(xí)就變得非辰泼牛快了陷寝。

如果把R當(dāng)作一門課來講,RIA前兩個單元中我會只講數(shù)據(jù)處理其馏,繪圖凤跑、甚至基礎(chǔ)統(tǒng)計部份會暫時略去,講完數(shù)據(jù)處理就立刻轉(zhuǎn)到R4DS叛复,作圖部分留給R4DS里面的ggplot2仔引。中高統(tǒng)計部分是否按照RIA來講還沒想成熟扔仓。

(2021.8月補充:雖然差不多所有有關(guān)數(shù)據(jù)的操作,tidyverse都提供了更現(xiàn)代的語法咖耘,但是R的原始語法還是有必要掌握翘簇,“R語言與深度學(xué)習(xí)”里用得還是非常多。)

3. 使用R的幫助文檔

以前寫過儿倒,第一次讀幫助文檔的時候版保,先花點時間搞清楚幫助文檔的結(jié)構(gòu),包括都有哪些部分夫否、哪個部分是什么功能彻犁、每個部分在文檔的什么位置出現(xiàn), 等等凰慈。閱讀時要注意R命令的函數(shù)思維方式汞幢,問自己結(jié)果變量、自變量微谓、參數(shù)分別是什么急鳄。

4. 對于碎片化技巧的學(xué)習(xí),看視頻優(yōu)于閱讀

不同于tidyverse這種具有很大格局的包堰酿,R里面還有滿足特定功能碎片化的包疾宏,這種很適合用視頻學(xué)。舉個例子:我做的一個活兒需要把數(shù)據(jù)表導(dǎo)出成為html格式触创,表里面還包含多列類似Excel的迷你圖坎藐,在油管上找到了一個視頻,一個晚上就做出來了哼绑,順便還學(xué)會了Rstudio里如何寫snippets岩馍。

6. 收集中……


關(guān)于R曾經(jīng)受過兩次誤導(dǎo)。

第一次是十年前看到Angrist說他不愿意用R抖韩,因為R的統(tǒng)計包不如STATA多蛀恩,經(jīng)常需要自己編程, 而就連寫STATA的程序都會經(jīng)常犯錯誤茂浮,用R可能會花更多時間在抓bug上面双谆。當(dāng)時想,既然Angrist都覺得STATA夠用席揽,自己就沒必要學(xué)了吧顽馋。

第二次是去年,想在R里面找到類似_n_N的工具幌羞,看到Nick說R的用戶很難理解這兩個工具寸谜,語氣有點酸,也讓我產(chǎn)生R很笨重的印象属桦。幸虧當(dāng)時沒全信熊痴,感覺像_n_N這么好用的東西就算基礎(chǔ)R里沒有他爸,也會有人做個包,事實上dplyr里面有相對應(yīng)的工具果善。


(2021/5/23更新)

把另一個活又重干了一遍讲逛,學(xué)過tidyverse,終于敢說自己會R了岭埠,正式進(jìn)入中級水平盏混。前幾個活在基本上啥也不會的狀態(tài),只靠懂?dāng)?shù)據(jù)結(jié)構(gòu)和不停查google惜论,居然敲出幾千行代碼许赃,而且還能運行出結(jié)果。有點佩服自己了馆类。


(2021/6/30更新)
R語言里面關(guān)于機(jī)器學(xué)習(xí)的書混聊,2018年之前寫的不要買。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末乾巧,一起剝皮案震驚了整個濱河市句喜,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌沟于,老刑警劉巖咳胃,帶你破解...
    沈念sama閱讀 219,490評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異旷太,居然都是意外死亡展懈,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,581評論 3 395
  • 文/潘曉璐 我一進(jìn)店門供璧,熙熙樓的掌柜王于貴愁眉苦臉地迎上來存崖,“玉大人,你說我怎么就攤上這事睡毒±淳澹” “怎么了?”我有些...
    開封第一講書人閱讀 165,830評論 0 356
  • 文/不壞的土叔 我叫張陵演顾,是天一觀的道長供搀。 經(jīng)常有香客問我,道長偶房,這世上最難降的妖魔是什么趁曼? 我笑而不...
    開封第一講書人閱讀 58,957評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮棕洋,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘乒融。我一直安慰自己掰盘,他們只是感情好摄悯,可當(dāng)我...
    茶點故事閱讀 67,974評論 6 393
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著愧捕,像睡著了一般奢驯。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上次绘,一...
    開封第一講書人閱讀 51,754評論 1 307
  • 那天瘪阁,我揣著相機(jī)與錄音,去河邊找鬼邮偎。 笑死管跺,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的禾进。 我是一名探鬼主播豁跑,決...
    沈念sama閱讀 40,464評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼泻云!你這毒婦竟也來了艇拍?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤宠纯,失蹤者是張志新(化名)和其女友劉穎卸夕,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體婆瓜,經(jīng)...
    沈念sama閱讀 45,847評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡娇哆,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,995評論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了勃救。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片碍讨。...
    茶點故事閱讀 40,137評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖蒙秒,靈堂內(nèi)的尸體忽然破棺而出勃黍,到底是詐尸還是另有隱情,我是刑警寧澤晕讲,帶...
    沈念sama閱讀 35,819評論 5 346
  • 正文 年R本政府宣布覆获,位于F島的核電站,受9級特大地震影響瓢省,放射性物質(zhì)發(fā)生泄漏弄息。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,482評論 3 331
  • 文/蒙蒙 一勤婚、第九天 我趴在偏房一處隱蔽的房頂上張望摹量。 院中可真熱鬧,春花似錦、人聲如沸缨称。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,023評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽睦尽。三九已至器净,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間当凡,已是汗流浹背山害。 一陣腳步聲響...
    開封第一講書人閱讀 33,149評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留沿量,地道東北人浪慌。 一個月前我還...
    沈念sama閱讀 48,409評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像欧瘪,于是被迫代替她去往敵國和親眷射。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,086評論 2 355

推薦閱讀更多精彩內(nèi)容