《Learning R》筆記 Chapter 7 下 Factor

創(chuàng)建

在創(chuàng)建和讀入dataframe時(shí)容劳,R在默認(rèn)條件下會(huì)自動(dòng)將含有字符串的column轉(zhuǎn)化為factor需纳。factor()函數(shù)則能夠手動(dòng)將string轉(zhuǎn)化為factor。levels()和nlevel()能夠查看factor的具體情況。

> x <- iris$Species
> class(x)
[1] "factor"
> levels(x) ; nlevels(x)
[1] "setosa"     "versicolor" "virginica" 
[1] 3

操作

要改動(dòng)factor中的levels先后順序我注,應(yīng)當(dāng)在factor(... , levels=c() )中改動(dòng)捆憎,不能直接向levels()中傳遞變量舅柜,否則極容易出錯(cuò)。relevel()則是較為安全的一個(gè)函數(shù)躲惰,它能夠?qū)⒛硞€(gè)level直接提到最前作為ref level致份,適用于某些回歸分析。
事實(shí)上relevel()是factor()的wrapper础拨。

relevel(x, ref, ...)
> y <- sample(x,6) ; y
[1] versicolor setosa     virginica  setosa     virginica  versicolor
Levels: setosa versicolor virginica
> relevel(y , 'versicolor') 
[1] versicolor setosa     virginica  setosa     virginica  versicolor
Levels: versicolor setosa virginica #函數(shù)直接輸出新的string

如果在數(shù)據(jù)清洗過程中氮块,某個(gè)level對(duì)應(yīng)的值全部被刪除,以至于string存在無用的‘空’level诡宗√喜酰可以使用droplevels()來進(jìn)行精簡(jiǎn)。接受factor或df輸入塔沃,輸出新的factor或df蝠引。

## S3 method for class 'factor'
droplevels(x, exclude = if(anyNA(levels(x))) NULL else NA, ...)
## S3 method for class 'data.frame'
droplevels(x, except, exclude, ...)

從連續(xù)變量中構(gòu)建

R中的cut()函數(shù)能夠?qū)⑦B續(xù)變量轉(zhuǎn)換為區(qū)間分割的factor。在這里breaks是#either a numeric vector of two or more unique cut points or a single number蛀柴。也就是說要么輸入間隔數(shù)螃概,要么輸入一個(gè)vector來規(guī)定所有的間隔刻度線,不能只給出中部的刻度不給兩端鸽疾,否則會(huì)產(chǎn)生NA吊洼。

cut(x, breaks, labels = NULL, 
    include.lowest = FALSE, right = TRUE, dig.lab = 3, #左開右閉
    ordered_result = FALSE, ...)

> x=runif(5,0,10)
> x
[1] 3.2502069 3.7256012 8.8114966 9.6004756 0.8837793
> cut(x,c(3,6,9)) #上限和下限都沒有定義
[1] (3,6] (3,6] (6,9] <NA>  <NA> 
Levels: (3,6] (6,9]
> cut(x,c(3,6,9,Inf)) #下限沒有定義
[1] (3,6]   (3,6]   (6,9]   (9,Inf] <NA>   
Levels: (3,6] (6,9] (9,Inf]
> cut(x,c(-Inf,3,6,9,Inf)) #正確方式
[1] (3,6]    (3,6]    (6,9]    (9, Inf] (-Inf,3]
Levels: (-Inf,3] (3,6] (6,9] (9, Inf]

數(shù)據(jù)清洗時(shí)的一個(gè)小trick

一個(gè)vector本應(yīng)全是numeric類型,但由于來源輸入的問題制肮,導(dǎo)致這個(gè)vector成了string冒窍,此時(shí)應(yīng)當(dāng)怎么辦?
例如一個(gè)vector x=c( 4.645 6.843 2.187 6.351 7.338 6.367) ,由于mistyping弄企,成了c( "4.645" "6..843" "2.187" "6.351" "7.338" "6.367" ) 超燃。而在讀入時(shí),由于R還會(huì)自動(dòng)嘗試把字符串轉(zhuǎn)換為factor拘领,導(dǎo)致事實(shí)上我們手頭得到的是這樣一個(gè)factor y.

> y
[1] 4.645  6..843 2.187  6.351  7.338  6.367 
Levels: 2.187 4.645 6..843 6.351 6.367 7.338

書中推薦按照factor -- string -- numeric 的順序來清洗意乓。R的手冊(cè)中推薦更有效的方式是首先將factor的levels轉(zhuǎn)換為數(shù)值,再將數(shù)值按照原factor中unclass的數(shù)值來進(jìn)行排列(因?yàn)閍s.integer(某factor)得到的是unclass數(shù)值)

> as.numeric(as.character(y))
[1] 4.645    NA 2.187 6.351 7.338 6.367
Warning message:
NAs introduced by coercion 
> as.numeric(levels(y))[as.integer(y)] #推薦方法
[1] 4.645    NA 2.187 6.351 7.338 6.367
Warning message:
NAs introduced by coercion     

快速生成levels / Generate Factor Levels

gl()是factor的另一個(gè)wrapper,能夠快速生成factor.

gl(n, k, length = n*k, labels = seq_len(n), ordered = FALSE)
> gl(3,3,8,labels = LETTERS[1:3])
[1] A A A B B B C C
Levels: A B C

交互 / Interaction

將兩個(gè)factor交互届良,產(chǎn)生新的factor笆凌。

> x=gl(3,3,labels=LETTERS[1:3])
> y=gl(3,3,labels = LETTERS[24:26])
> interaction(x,y)
[1] A.X A.X A.X B.Y B.Y B.Y C.Z C.Z C.Z
Levels: A.X B.X C.X A.Y B.Y C.Y A.Z B.Z C.Z
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市士葫,隨后出現(xiàn)的幾起案子乞而,更是在濱河造成了極大的恐慌,老刑警劉巖慢显,帶你破解...
    沈念sama閱讀 210,914評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件爪模,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡荚藻,警方通過查閱死者的電腦和手機(jī)屋灌,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,935評(píng)論 2 383
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來应狱,“玉大人共郭,你說我怎么就攤上這事〖采耄” “怎么了除嘹?”我有些...
    開封第一講書人閱讀 156,531評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長岸蜗。 經(jīng)常有香客問我尉咕,道長,這世上最難降的妖魔是什么散吵? 我笑而不...
    開封第一講書人閱讀 56,309評(píng)論 1 282
  • 正文 為了忘掉前任龙考,我火速辦了婚禮,結(jié)果婚禮上矾睦,老公的妹妹穿的比我還像新娘。我一直安慰自己炎功,他們只是感情好枚冗,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,381評(píng)論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著蛇损,像睡著了一般赁温。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上淤齐,一...
    開封第一講書人閱讀 49,730評(píng)論 1 289
  • 那天股囊,我揣著相機(jī)與錄音,去河邊找鬼更啄。 笑死稚疹,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的祭务。 我是一名探鬼主播内狗,決...
    沈念sama閱讀 38,882評(píng)論 3 404
  • 文/蒼蘭香墨 我猛地睜開眼怪嫌,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了柳沙?” 一聲冷哼從身側(cè)響起岩灭,我...
    開封第一講書人閱讀 37,643評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎赂鲤,沒想到半個(gè)月后噪径,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,095評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡数初,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,448評(píng)論 2 325
  • 正文 我和宋清朗相戀三年熄云,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片妙真。...
    茶點(diǎn)故事閱讀 38,566評(píng)論 1 339
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡缴允,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出珍德,到底是詐尸還是另有隱情练般,我是刑警寧澤,帶...
    沈念sama閱讀 34,253評(píng)論 4 328
  • 正文 年R本政府宣布锈候,位于F島的核電站薄料,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏泵琳。R本人自食惡果不足惜摄职,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,829評(píng)論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望获列。 院中可真熱鬧谷市,春花似錦、人聲如沸击孩。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,715評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽巩梢。三九已至创泄,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間括蝠,已是汗流浹背鞠抑。 一陣腳步聲響...
    開封第一講書人閱讀 31,945評(píng)論 1 264
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留忌警,地道東北人搁拙。 一個(gè)月前我還...
    沈念sama閱讀 46,248評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親感混。 傳聞我的和親對(duì)象是個(gè)殘疾皇子端幼,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,440評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容

  • 背景 一年多以前我在知乎上答了有關(guān)LeetCode的問題, 分享了一些自己做題目的經(jīng)驗(yàn)。 張土汪:刷leetcod...
    土汪閱讀 12,737評(píng)論 0 33
  • (1)常見的數(shù)據(jù)類型 在R中弧满,常見的數(shù)據(jù)類型一共有5種:字符型character,數(shù)值型numeric,整形int...
    汪汪家的寶貝閱讀 1,329評(píng)論 0 2
  • 1.警惕人格破產(chǎn) 1.2人前有多諂媚婆跑,人后就有多惡毒 1.2.1 一個(gè)人趨炎附勢(shì),必然也是見利忘義之徒 1.2.2...
    FinalThorn閱讀 392評(píng)論 0 0
  • 最近庭呜,由于加班再加上身體不舒服滑进,有一天竟然起床后發(fā)現(xiàn)7點(diǎn)半了,班車已經(jīng)走了募谎,我要走好遠(yuǎn)去坐公交車 等我收拾好扶关,趕到...
    Anna娜閱讀 131評(píng)論 0 0
  • 吃了兩塊月餅,一個(gè)棗泥月餅一個(gè)五仁月餅数冬,這就算過節(jié)了节槐!在工地上班也不太講究這些了! 陜北的中秋下著小雨拐纱,今天還特意...
    公子召閱讀 685評(píng)論 0 3