《Learning R》筆記 Chapter 7 下 Factor

創(chuàng)建

在創(chuàng)建和讀入dataframe時(shí)容劳，R在默認(rèn)條件下會(huì)自動(dòng)將含有字符串的column轉(zhuǎn)化為factor需纳。factor()函數(shù)則能夠手動(dòng)將string轉(zhuǎn)化為factor。levels()和nlevel()能夠查看factor的具體情況。

> x <- iris$Species
> class(x)
[1] "factor"
> levels(x) ; nlevels(x)
[1] "setosa"     "versicolor" "virginica" 
[1] 3

操作

要改動(dòng)factor中的levels先后順序我注，應(yīng)當(dāng)在factor(... , levels=c() )中改動(dòng)捆憎，不能直接向levels()中傳遞變量舅柜，否則極容易出錯(cuò)。relevel()則是較為安全的一個(gè)函數(shù)躲惰，它能夠?qū)⒛硞€(gè)level直接提到最前作為ref level致份，適用于某些回歸分析。
事實(shí)上relevel()是factor()的wrapper础拨。

relevel(x, ref, ...)
> y <- sample(x,6) ; y
[1] versicolor setosa     virginica  setosa     virginica  versicolor
Levels: setosa versicolor virginica
> relevel(y , 'versicolor') 
[1] versicolor setosa     virginica  setosa     virginica  versicolor
Levels: versicolor setosa virginica #函數(shù)直接輸出新的string

如果在數(shù)據(jù)清洗過程中氮块，某個(gè)level對(duì)應(yīng)的值全部被刪除，以至于string存在無用的‘空’level诡宗√喜酰可以使用droplevels()來進(jìn)行精簡(jiǎn)。接受factor或df輸入塔沃，輸出新的factor或df蝠引。

## S3 method for class 'factor'
droplevels(x, exclude = if(anyNA(levels(x))) NULL else NA, ...)
## S3 method for class 'data.frame'
droplevels(x, except, exclude, ...)

從連續(xù)變量中構(gòu)建

R中的cut()函數(shù)能夠?qū)⑦B續(xù)變量轉(zhuǎn)換為區(qū)間分割的factor。在這里breaks是#either a numeric vector of two or more unique cut points or a single number蛀柴。也就是說要么輸入間隔數(shù)螃概，要么輸入一個(gè)vector來規(guī)定所有的間隔刻度線，不能只給出中部的刻度不給兩端鸽疾，否則會(huì)產(chǎn)生NA吊洼。

cut(x, breaks, labels = NULL, 
    include.lowest = FALSE, right = TRUE, dig.lab = 3, #左開右閉
    ordered_result = FALSE, ...)

> x=runif(5,0,10)
> x
[1] 3.2502069 3.7256012 8.8114966 9.6004756 0.8837793
> cut(x,c(3,6,9)) #上限和下限都沒有定義
[1] (3,6] (3,6] (6,9] <NA>  <NA> 
Levels: (3,6] (6,9]
> cut(x,c(3,6,9,Inf)) #下限沒有定義
[1] (3,6]   (3,6]   (6,9]   (9,Inf] <NA>   
Levels: (3,6] (6,9] (9,Inf]
> cut(x,c(-Inf,3,6,9,Inf)) #正確方式
[1] (3,6]    (3,6]    (6,9]    (9, Inf] (-Inf,3]
Levels: (-Inf,3] (3,6] (6,9] (9, Inf]

數(shù)據(jù)清洗時(shí)的一個(gè)小trick

一個(gè)vector本應(yīng)全是numeric類型，但由于來源輸入的問題制肮，導(dǎo)致這個(gè)vector成了string冒窍，此時(shí)應(yīng)當(dāng)怎么辦？
例如一個(gè)vector x=c( 4.645 6.843 2.187 6.351 7.338 6.367) ,由于mistyping弄企，成了c( "4.645" "6..843" "2.187" "6.351" "7.338" "6.367" ) 超燃。而在讀入時(shí)，由于R還會(huì)自動(dòng)嘗試把字符串轉(zhuǎn)換為factor拘领，導(dǎo)致事實(shí)上我們手頭得到的是這樣一個(gè)factor y.

> y
[1] 4.645  6..843 2.187  6.351  7.338  6.367 
Levels: 2.187 4.645 6..843 6.351 6.367 7.338

書中推薦按照factor -- string -- numeric 的順序來清洗意乓。R的手冊(cè)中推薦更有效的方式是首先將factor的levels轉(zhuǎn)換為數(shù)值，再將數(shù)值按照原factor中unclass的數(shù)值來進(jìn)行排列（因?yàn)閍s.integer(某factor)得到的是unclass數(shù)值）

> as.numeric(as.character(y))
[1] 4.645    NA 2.187 6.351 7.338 6.367
Warning message:
NAs introduced by coercion 
> as.numeric(levels(y))[as.integer(y)] #推薦方法
[1] 4.645    NA 2.187 6.351 7.338 6.367
Warning message:
NAs introduced by coercion

快速生成levels / Generate Factor Levels

gl()是factor的另一個(gè)wrapper，能夠快速生成factor.

gl(n, k, length = n*k, labels = seq_len(n), ordered = FALSE)
> gl(3,3,8,labels = LETTERS[1:3])
[1] A A A B B B C C
Levels: A B C

交互 / Interaction

將兩個(gè)factor交互届良，產(chǎn)生新的factor笆凌。

> x=gl(3,3,labels=LETTERS[1:3])
> y=gl(3,3,labels = LETTERS[24:26])
> interaction(x,y)
[1] A.X A.X A.X B.Y B.Y B.Y C.Z C.Z C.Z
Levels: A.X B.X C.X A.Y B.Y C.Y A.Z B.Z C.Z

最后編輯于：2018.02.21 15:10:42

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市士葫，隨后出現(xiàn)的幾起案子乞而，更是在濱河造成了極大的恐慌，老刑警劉巖慢显，帶你破解...
沈念sama閱讀 210,914評(píng)論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件爪模，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡荚藻，警方通過查閱死者的電腦和手機(jī)屋灌，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 89,935評(píng)論 2贊 383
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來应狱，“玉大人共郭，你說我怎么就攤上這事〖采耄” “怎么了除嘹？”我有些...
開封第一講書人閱讀 156,531評(píng)論 0贊 345
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長岸蜗。經(jīng)常有香客問我尉咕，道長，這世上最難降的妖魔是什么散吵？我笑而不...
開封第一講書人閱讀 56,309評(píng)論 1贊 282
?港島之戀（遺憾婚禮）
正文為了忘掉前任龙考，我火速辦了婚禮，結(jié)果婚禮上矾睦，老公的妹妹穿的比我還像新娘。我一直安慰自己炎功，他們只是感情好枚冗，可當(dāng)我...
茶點(diǎn)故事閱讀 65,381評(píng)論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著蛇损，像睡著了一般赁温。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上淤齐，一...
開封第一講書人閱讀 49,730評(píng)論 1贊 289
城市分裂傳說
那天股囊，我揣著相機(jī)與錄音，去河邊找鬼更啄。笑死稚疹，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的祭务。我是一名探鬼主播内狗，決...
沈念sama閱讀 38,882評(píng)論 3贊 404
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼怪嫌，長吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了柳沙？” 一聲冷哼從身側(cè)響起岩灭，我...
開封第一講書人閱讀 37,643評(píng)論 0贊 266
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎赂鲤，沒想到半個(gè)月后噪径，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 44,095評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡数初，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,448評(píng)論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年熄云，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片妙真。...
茶點(diǎn)故事閱讀 38,566評(píng)論 1贊 339
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡缴允，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出珍德，到底是詐尸還是另有隱情练般，我是刑警寧澤，帶...
沈念sama閱讀 34,253評(píng)論 4贊 328
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布锈候，位于F島的核電站薄料，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏泵琳。R本人自食惡果不足惜摄职，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,829評(píng)論 3贊 312
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望获列。院中可真熱鬧谷市，春花似錦、人聲如沸击孩。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,715評(píng)論 0贊 21
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽巩梢。三九已至创泄，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間括蝠，已是汗流浹背鞠抑。一陣腳步聲響...
開封第一講書人閱讀 31,945評(píng)論 1贊 264
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留忌警，地道東北人搁拙。一個(gè)月前我還...
沈念sama閱讀 46,248評(píng)論 2贊 360
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親感混。傳聞我的和親對(duì)象是個(gè)殘疾皇子端幼，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,440評(píng)論 2贊 348