「R基礎(chǔ)」如何讀取大文件的部分內(nèi)容

同理心

在小丫畫(huà)圖交付的一個(gè)代碼項(xiàng)目中榨乎,需要先從XENA下載一個(gè)表達(dá)量數(shù)據(jù):https://toil.xenahubs.net/download/tcga_RSEM_gene_tpm.gz

樣本大概是10,5,35個(gè), 考慮到人類(lèi)的基因大概有2w多個(gè),那么這就是一個(gè)10000 X 20000的大樣本數(shù)據(jù)辆琅,鑒于這還是一個(gè)TPM蕴茴,數(shù)據(jù)類(lèi)型是浮點(diǎn)型迅诬,文件解壓縮之后就是4.61G, 如果全部加載到R語(yǔ)言中箭养,大部分的電腦估計(jì)都受不了

library(pryr)
test <- data.table::fread("./tcga_RSEM_gene_tpm.gz")
object_size(test)
# 5.11 GB

考慮到并非所有數(shù)據(jù)都是我們所需要的奥喻,是否可以只讀取部分的數(shù)據(jù)呢偶宫?原作者的解決方案是通過(guò)R調(diào)用命令行的方式,提取部分?jǐn)?shù)據(jù)环鲤,然后讓R語(yǔ)言進(jìn)行加載纯趋。

system命令

可是大部分人的操作系統(tǒng)都是Windows,所有運(yùn)行的時(shí)候就會(huì)報(bào)錯(cuò)冷离,能不能就用戶(hù)R語(yǔ)言解決這個(gè)問(wèn)題呢吵冒?當(dāng)然可以,只要你認(rèn)真讀過(guò)read.table的那么多參數(shù)西剥,你就會(huì)知道他的那么多參數(shù)并不是裝飾用的痹栖。

讀取前幾行

讓我們先學(xué)習(xí)一個(gè)簡(jiǎn)單的參數(shù)nrows, 他的作用就是讀取前N行,知道它之后瞭空,那就不需要去調(diào)用head

headtcga <- read.table("./tcga_RSEM_gene_tpm",
                       sep = "\t",
                       stringsAsFactors = FALSE,
                       nrow = 1)

效果就是讀取第一行揪阿,構(gòu)建一個(gè)數(shù)據(jù)框,然后將其轉(zhuǎn)成向量咆畏。但既然目標(biāo)是向量南捂,其實(shí)還有另一種實(shí)現(xiàn)方案,readLines讀取的就是一個(gè)字符串旧找,然后將其分隔成向量即可溺健。

headtcga <- readLines("tcga_RSEM_gene_tpm", n =1)
headtcga <- strsplit(headtcga, split="\t")[[1]]

讀取指定列

讀取指定列會(huì)稍微困難一些,因?yàn)?code>colClasses不太好理解钦讳。R語(yǔ)言在用read.table讀取數(shù)據(jù)的時(shí)候其實(shí)做了很多事情矿瘦,有一件事情就是負(fù)責(zé)確認(rèn)每一列的數(shù)據(jù)類(lèi)型枕面,R語(yǔ)言需要根據(jù)不同數(shù)據(jù)類(lèi)型進(jìn)行內(nèi)存分配。

如果你想實(shí)現(xiàn)讀取指定列缚去,那么你就得自己去設(shè)置每一列的數(shù)據(jù)類(lèi)型潮秘。如果哪些列不需要,就將其它的數(shù)據(jù)類(lèi)型定義為NULL易结,R語(yǔ)言就會(huì)忽略它枕荞。

讀取代碼如下:

cat(paste0("Begin at ", Sys.time(),"\n"))
first_5_rows <- read.table("./tcga_RSEM_gene_tpm", nrows = 5,
                           stringsAsFactors = FALSE, 
                           header = FALSE,
                           skip = 1,
                           check.names = FALSE)
classes <- sapply(first_5_rows, class)
 # targetnum 你需要讀取的列
classes[-targetnum] <- rep("NULL", length(classes) - length(targetnum)) #將非目標(biāo)列定義為NULL
classes[1] <- "character" # 加上第一列
# 讀取文件(跳過(guò)第一行)
targetCancerTPM <- read.table("tcga_RSEM_gene_tpm",  
                   sep= "\t", 
                   skip = 1,
                   colClasses = classes)
colnames(targetCancerTPM) <- tcgasample[targetnum]
targetCancerTPM[1:3, 1:3]
cat(paste0("End at ", Sys.time(),"\n"))

如果僅讀取我們需要的列的話(huà),最終只消耗了500M的內(nèi)存搞动,相對(duì)于之前的5G內(nèi)存躏精,減少了將近10倍。

讀取指定行和指定列

這就是需要對(duì)文件進(jìn)行逐行讀取解析了鹦肿,我用readLines造了一個(gè)輪子矗烛,函數(shù)名為read_part,目前能用的參數(shù)為

  • file: 輸入的文件路徑,支持.gz文件
  • rows: 讀取指定行, 比如說(shuō)1:100, 就是前100行箩溃。當(dāng)為-1時(shí)則是讀取所有行
  • rows: 讀取指定列, 比如說(shuō)c(1,3,4,5,6), 就是1,3,4,5,6列瞭吃。當(dāng)為-1時(shí)則是讀取所有列
  • comment.char = "#", 會(huì)把"#"開(kāi)頭的行忽略掉,這個(gè)參數(shù)我還需要考慮下是否保留涣旨。
# 函數(shù)目標(biāo):
# 讀取文件中的指定行和指定列
# 不包括注釋行
read_part <- function(file, rows = 1, columns = -1, sep = "\t",
                      stringsAsFactors = FALSE,
                      header = FALSE,
                      check.names = FALSE, 
                      comment.char = "#", ...){
  dfl <- list()
  if (grepl("gz$", file)){
    con <- gzfile(file, open = "rb")
  } else{
    con <- file(file, open = "r")
  }
  
  i <- 0
  j <- 1
  repeat{
    
    rec <- readLines(con, 1)
    if (length(rec) == 0) break
    i <- i + 1
 
    # 當(dāng)rows = -1時(shí), 會(huì)讀取所有行 
    # 超過(guò)目標(biāo)行時(shí)停止讀取
    if (i > max(rows) & rows != -1) break  
    # 不考慮注釋行
    if (grepl(comment.char, rec )) next
    if ( ! i %in% rows & rows != -1) next
    
    items <- strsplit(rec, split = sep, fixed = TRUE)[[1]]
    if ( columns == -1){
      select_cols <- items
    } else{
      select_cols <- items[columns]
    }
    #print(select_cols)
    dfl[[j]] <- select_cols
    j <- j + 1
    
    
  }
  close(con) 
  df <- do.call(rbind, dfl)
  return(df)
}

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末歪架,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子霹陡,更是在濱河造成了極大的恐慌和蚪,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,290評(píng)論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件烹棉,死亡現(xiàn)場(chǎng)離奇詭異攒霹,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)浆洗,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,107評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門(mén)剔蹋,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人辅髓,你說(shuō)我怎么就攤上這事∩倭海” “怎么了洛口?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,872評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵,是天一觀(guān)的道長(zhǎng)凯沪。 經(jīng)常有香客問(wèn)我第焰,道長(zhǎng),這世上最難降的妖魔是什么妨马? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,415評(píng)論 1 283
  • 正文 為了忘掉前任挺举,我火速辦了婚禮杀赢,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘湘纵。我一直安慰自己脂崔,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,453評(píng)論 6 385
  • 文/花漫 我一把揭開(kāi)白布梧喷。 她就那樣靜靜地躺著砌左,像睡著了一般。 火紅的嫁衣襯著肌膚如雪铺敌。 梳的紋絲不亂的頭發(fā)上汇歹,一...
    開(kāi)封第一講書(shū)人閱讀 49,784評(píng)論 1 290
  • 那天,我揣著相機(jī)與錄音偿凭,去河邊找鬼产弹。 笑死,一個(gè)胖子當(dāng)著我的面吹牛弯囊,可吹牛的內(nèi)容都是我干的痰哨。 我是一名探鬼主播,決...
    沈念sama閱讀 38,927評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼常挚,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼作谭!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起奄毡,我...
    開(kāi)封第一講書(shū)人閱讀 37,691評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤折欠,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后吼过,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體锐秦,經(jīng)...
    沈念sama閱讀 44,137評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,472評(píng)論 2 326
  • 正文 我和宋清朗相戀三年盗忱,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了酱床。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,622評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡趟佃,死狀恐怖扇谣,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情闲昭,我是刑警寧澤罐寨,帶...
    沈念sama閱讀 34,289評(píng)論 4 329
  • 正文 年R本政府宣布,位于F島的核電站序矩,受9級(jí)特大地震影響鸯绿,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,887評(píng)論 3 312
  • 文/蒙蒙 一瓶蝴、第九天 我趴在偏房一處隱蔽的房頂上張望毒返。 院中可真熱鬧,春花似錦舷手、人聲如沸拧簸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,741評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)狡恬。三九已至,卻和暖如春蝎宇,著一層夾襖步出監(jiān)牢的瞬間弟劲,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,977評(píng)論 1 265
  • 我被黑心中介騙來(lái)泰國(guó)打工姥芥, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留兔乞,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,316評(píng)論 2 360
  • 正文 我出身青樓凉唐,卻偏偏與公主長(zhǎng)得像庸追,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子台囱,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,490評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容

  • ORA-00001: 違反唯一約束條件 (.) 錯(cuò)誤說(shuō)明:當(dāng)在唯一索引所對(duì)應(yīng)的列上鍵入重復(fù)值時(shí)淡溯,會(huì)觸發(fā)此異常。 O...
    我想起個(gè)好名字閱讀 5,253評(píng)論 0 9
  • 關(guān)于Mongodb的全面總結(jié) MongoDB的內(nèi)部構(gòu)造《MongoDB The Definitive Guide》...
    中v中閱讀 31,906評(píng)論 2 89
  • 國(guó)家電網(wǎng)公司企業(yè)標(biāo)準(zhǔn)(Q/GDW)- 面向?qū)ο蟮挠秒娦畔?shù)據(jù)交換協(xié)議 - 報(bào)批稿:20170802 前言: 排版 ...
    庭說(shuō)閱讀 10,926評(píng)論 6 13
  • 過(guò)往看到“您已成功預(yù)約”并不稀奇簿训,可今天這句話(huà)成功抓住了我的注意力咱娶。為何?原來(lái)它是某商業(yè)平臺(tái)公眾號(hào)的引流標(biāo)題强品。當(dāng)下...
    遇見(jiàn)白娘子她妹閱讀 199評(píng)論 0 0
  • 今天在南京膘侮,恰逢孩子爹過(guò)生日。 把老師的畫(huà)稍作修改的榛,畫(huà)了一朵小紅花送給他琼了。 接觸禪繞畫(huà)不過(guò)20天,老師要求的作業(yè)都...
    Rabbit622閱讀 375評(píng)論 2 3