day51 轉(zhuǎn)錄組 DESeq2分析總結(jié)

對(duì)day49，day50兩次學(xué)習(xí)的總結(jié)赘理。
拿到reads表達(dá)矩陣后宦言，在自己電腦上用DESeq2這個(gè)R包進(jìn)行數(shù)據(jù)分析。

一商模、先要準(zhǔn)備表達(dá)矩陣和分組表格
1奠旺，表達(dá)矩陣
count之后的txt文件進(jìn)行整理，只留下geneid和四個(gè)樣本列施流。

image.png

其中有一些行不完整响疚，有NA的數(shù)據(jù)，在后面讀入的時(shí)候一定要用fill=TURE參數(shù)瞪醋。

2忿晕，分組表格
可以用txt設(shè)置分組表格，但是可能是用WPS建立表格趟章，轉(zhuǎn)成txt有格式問(wèn)題杏糙，一直報(bào)錯(cuò)：“Error in make.names(col.names, unique = TRUE) :
invalid multibyte string at '<ff><fe>s'
In addition: Warning messages:
1: In read.table(file = file, header = header, sep = sep, quote = quote, :
line 1 appears to contain embedded nulls”
最后解決辦法是，轉(zhuǎn)成scv格式蚓土，用read.csv 命令讀入宏侍。group_list一列的列名必須是“group_list”。

image.png

二蜀漆、在R中編輯谅河，依此運(yùn)行下面的腳本：

#step1: read counts
rm(list = ls()) #首先清空R中的變量
setwd("/Users/meraner/Documents/bioinfo")
a=read.table('/Users/meraner/Documents/bioinfo/counts2.txt', fill=T, header=T, row.names=1, stringsAsFactors = F) 
a = na.omit(a) #含有NA值的行刪除
index1=c(rowSums(a)>0) 
exprSet=a[index1,] 
write.csv(exprSet,'filter_reads_matrix.csv' ) #過(guò)濾后的數(shù)據(jù)保存

說(shuō)明
由于count文件中可能會(huì)有很一些行里面有缺省NA，就是沒(méi)比對(duì)成功的。所以用fill=TURE绷耍，即可讀入吐限，這些數(shù)據(jù)顯示為NA。在Mac電腦的R里面需要用fill=T肮邮肌诸典！不然會(huì)報(bào)錯(cuò)： object 'TURE' not 。
接著可以刪除有NA的行崎苗。即用no.omit命令把NA的行去除狐粱，避免后面分析中的干擾。這些NA數(shù)據(jù)的基因名通常都很奇怪胆数，很長(zhǎng)一串后續(xù)分析有點(diǎn)兒煩肌蜻，去除更好。
index1為邏輯型必尼。就是計(jì)算每一行的和蒋搜，得到的數(shù)大于零就是ture，等于零就是false判莉，再把ture的那些行單獨(dú)拎出來(lái)建立一個(gè)expreSet表達(dá)框豆挽，就是過(guò)濾過(guò)后的數(shù)據(jù)，用來(lái)進(jìn)行后面的分析骂租。

#step2: set group & build dds
library(DESeq2)
coldata <- read.csv ('/Users/meraner/Documents/bioinfo/group.csv', row.names=1, stringsAsFactors =T)
group_list=coldata[,1]  #取這一列的數(shù)據(jù)為變量group_list
colnames(exprSet)<-rownames(coldata) #把表達(dá)矩陣的列名重設(shè)為簡(jiǎn)單格式且和coldata里的樣本名保持一致
dds <- DESeqDataSetFromMatrix(countData = exprSet, colData = coldata, design = ~group_list)  #這個(gè)命令創(chuàng)建DEseqDataSet（dds）祷杈。

說(shuō)明
創(chuàng)建一個(gè)數(shù)據(jù)框coldata，只有一列內(nèi)容渗饮，即分組信息但汞。行名為樣本名，順序必須和前面表達(dá)矩陣從左到右的順序一致互站。
建立一個(gè)變量group_list（名字必須是這個(gè)）私蕾，里面內(nèi)容就是每個(gè)樣本的分組信息，順序必須和前面表達(dá)矩陣從左到右的順序一致胡桃。這個(gè)變量還必須是一個(gè)因子型的踩叭。所以用了stringsAsFactors =T。
countData用于說(shuō)明數(shù)據(jù)來(lái)源翠胰，colData用于說(shuō)明不同組數(shù)據(jù)的實(shí)驗(yàn)操作類(lèi)型容贝，design用于聲明自變量，即誰(shuí)和誰(shuí)進(jìn)行對(duì)比

#step3: DEG
dds2 <- DESeq(dds)  
res <- results(dds2,contrast = c("group_list","siSUZ12","con")) 
resOrdered<- res[order(res$padj),]  
DEG=as.data.frame(resOrdered)
write.csv(DEG,file = "treat_vs_con.csv") 
DEGsig <-subset(res, padj < 0.001 & abs(log2FoldChange) > 1)
write.csv(DEGsig,file= "treat_vs_con_sig.csv")

說(shuō)明
用DESeq命令對(duì)dds數(shù)據(jù)進(jìn)行運(yùn)算及分析,共三步：文庫(kù)大小估計(jì)之景；離散程度估計(jì)斤富；統(tǒng)計(jì)檢驗(yàn)。生成結(jié)果文件是按照siSUZ12組vs. con組進(jìn)行比較的锻狗。#order函數(shù)是給出從小到大排序后的位置(默認(rèn)升序), 將結(jié)果文件按照res文件中的padj這一列進(jìn)行降序排列满力，其中$符號(hào)表示res中的padj這一列焕参。再按照自定義閾值提取差異基因。

#step4：normalization matrix
rld <- rlogTransformation(dds2)  ## 得到經(jīng)過(guò)normlization的表達(dá)矩陣油额。
exprSet_new=assay(rld)  #生成歸一化的矩陣文件
write.csv(exprSet_new,'Normalized_matrix.csv' ) #導(dǎo)出數(shù)據(jù)叠纷，保存為csv格式。

說(shuō)明
rlogTransformation是DESeq2包中的一個(gè)命令（函數(shù)）潦嘶，在help文檔中查看涩嚣，它能把原始含有reads的表達(dá)數(shù)值，根據(jù)整個(gè)樣本和每個(gè)基因的長(zhǎng)度等衬以，計(jì)算出相對(duì)表達(dá)缓艳。并表示為log2格式，因此最后導(dǎo)出的數(shù)據(jù)里會(huì)有負(fù)數(shù)看峻。比如-1.7，就是2^（-1.7）=0.3衙吩。
assay是SummarizedExperiment包中的函數(shù)互妓，可以把陣提取出來(lái)。

#step5: visulization
#fig1
hist(exprSet_new)
#fig2
tiff(filename = "exprBOX.tiff",width = 1500, height = 1500, units = "px", res = 150)
par(cex = 1.2) #指定符號(hào)的大小
par(mar=c(10, 5, 5, 5))
n.sample=ncol(exprSet) #樣本數(shù)
if(n.sample>40) par(cex = 0.5)
n.sample=ncol(exprSet)#樣本數(shù)
cols <- rainbow(n.sample*1.2)
boxplot(exprSet_new, col = cols,main="expression value",las=2)
dev.off()
#fig3
sigGene= read.csv('treat_vs_con_sig.csv',row.names=1) 
for(i in rownames(sigGene)){
  genename=paste(i,sep="") #基因名
  pdf(file=paste(i,'_counts.pdf',sep="")) #以pdf格式輸出
  plotCounts(dds2, genename, intgroup = "group_list")
  dev.off() 
}
#fig4
tiff(filename = "PCA.tiff", width = 1500, height = 1500, units = "px", res = 150)
plotPCA(rld, intgroup="group_list")
dev.off()

說(shuō)明
hist() 用來(lái)做直方圖（柱形圖）坤塞，應(yīng)該用歸一化的數(shù)據(jù)來(lái)看冯勉。
boxplot是用來(lái)看每個(gè)樣本的整體表達(dá)水平。
plotCounts是用來(lái)看單個(gè)感興趣基因的表達(dá)差異
plotPCA用來(lái)做PCA聚類(lèi)分析
生成的圖片都保存在工作目錄中摹芙，就是前面setwd的那個(gè)路徑灼狰。

最后編輯于：2022.08.23 10:33:13

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市浮禾，隨后出現(xiàn)的幾起案子交胚，更是在濱河造成了極大的恐慌，老刑警劉巖盈电，帶你破解...
沈念sama閱讀 206,013評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件蝴簇，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡匆帚，警方通過(guò)查閱死者的電腦和手機(jī)熬词，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)吸重，“玉大人互拾，你說(shuō)我怎么就攤上這事『啃遥” “怎么了颜矿？”我有些...
開(kāi)封第一講書(shū)人閱讀 152,370評(píng)論 0贊 342
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)鞭铆。經(jīng)常有香客問(wèn)我或衡，道長(zhǎng)焦影，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 55,168評(píng)論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任封断，我火速辦了婚禮斯辰，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘坡疼。我一直安慰自己彬呻，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 64,153評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布柄瑰。她就那樣靜靜地躺著闸氮，像睡著了一般。火紅的嫁衣襯著肌膚如雪教沾。梳的紋絲不亂的頭發(fā)上蒲跨，一...
開(kāi)封第一講書(shū)人閱讀 48,954評(píng)論 1贊 283
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音授翻，去河邊找鬼或悲。笑死，一個(gè)胖子當(dāng)著我的面吹牛堪唐，可吹牛的內(nèi)容都是我干的巡语。我是一名探鬼主播，決...
沈念sama閱讀 38,271評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼淮菠，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼男公！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起合陵，我...
開(kāi)封第一講書(shū)人閱讀 36,916評(píng)論 0贊 259
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤枢赔，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后曙寡，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體糠爬，經(jīng)...
沈念sama閱讀 43,382評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,877評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年举庶，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了执隧。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 37,989評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡户侥，死狀恐怖镀琉，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情蕊唐，我是刑警寧澤屋摔，帶...
沈念sama閱讀 33,624評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站替梨，受9級(jí)特大地震影響钓试，放射性物質(zhì)發(fā)生泄漏装黑。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,209評(píng)論 3贊 307
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一弓熏、第九天我趴在偏房一處隱蔽的房頂上張望恋谭。院中可真熱鬧，春花似錦挽鞠、人聲如沸疚颊。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 30,199評(píng)論 0贊 19
一樁弒父案信认，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)材义。三九已至，卻和暖如春嫁赏，著一層夾襖步出監(jiān)牢的瞬間其掂，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 31,418評(píng)論 1贊 260
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工潦蝇，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留清寇，地道東北人。一個(gè)月前我還...
沈念sama閱讀 45,401評(píng)論 2贊 352
代替公主和親
正文我出身青樓护蝶，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親翩迈。傳聞我的和親對(duì)象是個(gè)殘疾皇子持灰，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,700評(píng)論 2贊 345

day51 轉(zhuǎn)錄組 DESeq2分析總結(jié)

推薦閱讀更多精彩內(nèi)容