【生信技能樹::作業(yè)&習(xí)題】R語言初級練習(xí)題

初級10 個題目,盡量根據(jù)參考代碼理解及完成:http://www.bio-info-trainee.com/3793.html

打開以后好像不止10個

  1. 打開Rstudio告訴我它的工作目錄

    getwd()

  2. 新建6個向量旦袋,基于不同的原子類型锣杂。(重點是字符串玩祟,數(shù)值孽椰,邏輯值)

    a <- c(1,2,3,4,5,6)
    b <- c("a","b","c","d")
    c <- c(T,F,F,T)
    
  1. 新建5個其它數(shù)據(jù)結(jié)構(gòu)鹃愤,矩陣搓彻,數(shù)組如绸,數(shù)據(jù)框,列表旭贬,因子(重點是數(shù)據(jù)框怔接,矩陣)

    mymatrix <- matrix(1:20, nrow = 5, ncol = 4)
    myarray <- array(1:24, c(2,3,4))
    mydf <- data.frame(PatientID = C("pa01","pa02","pa03"),
                      age = c(22,33,44),
                      exp = c(12,23,34))
    mylist <- list(mymatrix, mydf, a, b, c)
    status <- c("well", "moderate", "poor")
    myfactor <- factor(status, levels = c("poor", "moderate", "well"))
    
  1. 在你新建的數(shù)據(jù)框進(jìn)行切片操作,比如首先取第1稀轨,3行扼脐, 然后取第4,6列

    df[c(1,3), ]
    df[ , c(4,6)]
    
  1. 使用data函數(shù)來加載R內(nèi)置數(shù)據(jù)集 rivers 描述它奋刽。并且可以查看更多的R語言內(nèi)置的數(shù)據(jù)集:https://mp.weixin.qq.com/s/dZPbCXccTzuj0KkOL7R31g

    data("rivers")
    class(rivers)
    str(rivers)
    length(rivers)
    summary(rivers)
    head(rivers); tail(rivers)
    
  1. 下載 https://www.ncbi.nlm.nih.gov/sra?term=SRP133642 里面的 RunInfo Table 文件讀入到R里面谎势,了解這個數(shù)據(jù)框,多少列杨名,每一列都是什么屬性的元素脏榆。

    這一步卡住了一會兒,主要是不知道這個RunInfo Table為何物台谍,在哪里下載须喂。要是知道文件名就好了。最開始以為是GSE頁面下的serie.matix文件坞生,這個文件的格式直接用R讀取,怎么也讀不好掷伙。網(wǎng)上搜到的代碼其實都讀不進(jìn)去,還是用Excel好使任柜。然而,并不是這個文件摔认。。参袱。

    下載文件的地方

RunInfo Table文件下載位置.png

可以從這里進(jìn)來

SRA入口.png
options(stringsAsFactors = F)
rit = read.table("SraRunTable.txt", sep = "\t", header = T)
dim(rit)
str(rit)
  1. 下載 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE111229 里面的樣本信息讀入到R里面,了解這個數(shù)據(jù)框,多少列抹蚀,每一列都是什么屬性的元素剿牺。

    我不知道我下載的樣本信息對不對,是不是GSE111229_series_matrix.txt.gz文件环壤,如果是的就按照接下來的看

    正常用read.table讀都會有各式各樣的報錯晒来,原因在于這個破表長成這樣(Excel打開):

    series.matrix用Excel打開的樣子.png

    幾種報錯的原因:

    • 0 obs. of n variables :這里每一行都有"!",所以comment.char="!"以后镐捧,所有行都跳過了潜索。
    • line 30 did not have 2 elements :這個惡心的第30行是空的,行列的長度不齊

    所以正確的輸入應(yīng)該是這樣:

    options(stringsAsFactors = F)
    dat <- read.table("GSE111229_series_matrix.txt", sep = "\t", header = FALSE, 
                      fill = TRUE, # 如果長度不齊懂酱,補(bǔ)齊
                      skip = 30) # 前面30行沒用的注釋信息略過不讀
    str(dat)
    dim(dat) # 45 obs. of 769 variables
    

    讀入以后我存成txt竹习,用Excel打開看了看,不明白為什么View(b)打開會特別慢特別卡列牺。

讀入以后長這樣.png

這個行列很變態(tài)整陌,要做下一題的話還需要處理一下這個數(shù)據(jù)框,比如轉(zhuǎn)置一下

dat = as.data.frame(t(b))
rownames(dat) <- NULL
colnames(dat) <- dat[1, ]
dat <- dat[2:nrow(dat), ]
  1. 把兩個表關(guān)聯(lián)起來瞎领,使用merge函數(shù)泌辫。

    這兩個表里面相同的列是rit$Sample_Namedat$ID_REF,都是GSM number

    head(rit$Sample_Name); head(dat$ID_REF) # 先來show一下相同的列的內(nèi)容
    c <- merge(rit, dat, by.x = "Sample_Name", by.y = "ID_REF", all.x = T)
    
  1. 對前面讀取的 RunInfo Table 文件在R里面探索其MBases列九默,包括 箱線圖(boxplot)和五分位數(shù)(fivenum)震放,還有頻數(shù)圖(hist),以及密度圖(density) 驼修。

    head(rit$MBases)
    str(rit$MBases)
    quantile(rit$MBases)
    fivenum(rit$MBases)
    boxplot(rit$MBases)
    hist(rit$MBases)
    plot(density(rit$MBases))
    
  2. 把前面讀取的樣本信息表格的樣本名字根據(jù)下劃線分割看第3列元素的統(tǒng)計情況殿遂。第三列代表該樣本所在的plate

  3. 根據(jù)plate把關(guān)聯(lián)到的 RunInfo Table 信息的MBases列分組檢驗是否有統(tǒng)計學(xué)顯著的差異。

  4. 分組繪制箱線圖(boxplot)乙各,頻數(shù)圖(hist)墨礁,以及密度圖(density) 。

  5. 使用ggplot2把上面的圖進(jìn)行重新繪制耳峦。

  6. 使用ggpubr把上面的圖進(jìn)行重新繪制恩静。

  7. 隨機(jī)取384個MBases信息,跟前面的兩個plate的信息組合成新的數(shù)據(jù)框蹲坷,第一列是分組驶乾,第二列是MBases,總共是384*3行數(shù)據(jù)冠句。

第10題找不到哪個元素是含有下劃線的轻掩,所以導(dǎo)致后面的題目都沒有辦法做。我又開始懷疑我在第7題樣本信息這里找到的表是不是對的了懦底。。。聚唐。丐重。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市扮惦,隨后出現(xiàn)的幾起案子亲桦,更是在濱河造成了極大的恐慌,老刑警劉巖客峭,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件舔琅,死亡現(xiàn)場離奇詭異,居然都是意外死亡课蔬,警方通過查閱死者的電腦和手機(jī)郊尝,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進(jìn)店門流昏,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人铺遂,你說我怎么就攤上這事茎刚。” “怎么了粮坞?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵莫杈,是天一觀的道長奢入。 經(jīng)常有香客問我,道長关顷,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任痘番,我火速辦了婚禮汞舱,結(jié)果婚禮上宗雇,老公的妹妹穿的比我還像新娘。我一直安慰自己逾礁,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布腻扇。 她就那樣靜靜地躺著幼苛,像睡著了一般焕刮。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上括荡,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天畸冲,我揣著相機(jī)與錄音观腊,去河邊找鬼。 笑死苫耸,一個胖子當(dāng)著我的面吹牛儡陨,可吹牛的內(nèi)容都是我干的量淌。 我是一名探鬼主播类少,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼渔扎,長吁一口氣:“原來是場噩夢啊……” “哼晃痴!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起倘核,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤紧唱,失蹤者是張志新(化名)和其女友劉穎隶校,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體绰疤,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡轻庆,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年余爆,在試婚紗的時候發(fā)現(xiàn)自己被綠了夸盟。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡转捕,死狀恐怖唆垃,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情枢步,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布矾瑰,位于F島的核電站隘擎,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏货葬。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一休傍、第九天 我趴在偏房一處隱蔽的房頂上張望磨取。 院中可真熱鬧,春花似錦忙厌、人聲如沸拐邪。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽东臀。三九已至,卻和暖如春宰掉,著一層夾襖步出監(jiān)牢的瞬間赁濒,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工挪拟, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留击你,地道東北人谎柄。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓朝巫,卻偏偏與公主長得像石景,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子糙臼,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容