最近有一批轉(zhuǎn)錄組數(shù)據(jù),其實不是時間序列的數(shù)據(jù)厢塘,而是從低到高有4個梯度的Al濃度處理的數(shù)據(jù)茶没,每個三個重復(fù),共有12個數(shù)據(jù)晚碾,想著看一下4個梯度處理下基因表達的模式抓半,使用了STEM軟件,mark一下用法格嘁。
2020-3-14 更新:軟件下載地址
官網(wǎng),帶文檔
STEM是分析時間序列的軟件笛求。基本介紹可參考廬州月光糕簿。其實我覺得軟件其實很容易上手探入,主要是軟件對于數(shù)據(jù)文件格式的要求。具體來說懂诗,對于基因在不同處理下的表達數(shù)據(jù)的文件獲得就得費一番功夫蜂嗽,注意一點工具手冊上說可以上傳有生物學(xué)重復(fù)的文件,但是我沒看到具體如何做殃恒,我直接將我的表達量數(shù)據(jù)在重復(fù)數(shù)據(jù)中去中位數(shù)來代表這個處理的基因表達量(軟件也是這樣做的)植旧。
- 選取在4組實驗組兩兩比對中有顯著表達差異的基因,然后取并集离唐。取并集需要在R中操作:
Reduce(union,list(v1=c(1,2,4,6,8),v2=c(1,4,7,9),v3=c(1,2,6,8,10)))
#需要把差異基因保存為向量的格式
然后在已經(jīng)準(zhǔn)備好的fpkm或者tpm基因表達量中篩選得到差異基因的表達量病附,也是在R中來做
sig_fpkm <- fpkm[sig,]# 前提是你已經(jīng)得到了sig(包含了差異基因名的列表),fpkm數(shù)據(jù)框的rownname也是基因名
sig_fpkm <- na.omit(sig_fpkm) # 刪除沒有匹配到行
注意,有可能最后得到的有表達量的差異基因數(shù)少于你前面得到的差異基因數(shù)亥鬓,因為有可能你的fpkm/tpm文件經(jīng)過過濾(類似于rowSums(NA)>=10完沪,rowSum <12),從而刪掉有可能在某個比對中被認為是差異基因的低表達基因嵌戈。
接下來如果你還有 GO注釋文件覆积,你需要調(diào)整格式類似于下圖格式
如果本來原始的全部基因GO注釋文件時Excel表格類似于下圖:
就需要進行格式轉(zhuǎn)換:
這里有一個方法
R中將兩列合為一列。然后應(yīng)該是保存為文本格式就可以了熟呛,或者保存為csv技健。然后將csv內(nèi)容復(fù)制到notepadd++里面。但是結(jié)果中會出現(xiàn)數(shù)量不一的逗號惰拱,類似于下圖:
需要在notepadd++通過正則去掉
(,+)$ # 替換為空
這樣就得到干凈的數(shù)據(jù)了
這是所要求的全部的注釋格式。接下來是篩選,將文本在Excel中使用Excel里面的 vlookup 函數(shù)偿短。參考用法
也就是將差異基因復(fù)制到所有注釋所在的excel文檔中欣孤,而基因名應(yīng)該在第一列降传。就可以!當(dāng)然最后還是出現(xiàn)沒有匹配出現(xiàn)#N/A段只。首先數(shù)據(jù)先復(fù)制,再以只保留值得形式粘貼,然后選中有#N/A的列柠掂,CTRL + G → 定位條件→常量 只勾選錯誤,確定悉抵,如此只選中含有#N/A的單元格,右鍵刪除审磁,整行。完成!
最后就是將兩個文件瘩蚪,差異基因表達數(shù)據(jù)和對應(yīng)的注釋文件輸入到STEM軟件中崩哩,設(shè)置好參數(shù)。
結(jié)果出圖:
點擊其中一個所得基因的表達趨勢
點擊 下方對應(yīng)的按鈕就可以得到對應(yīng)的基因和GO列表,在此不贅述了。至于可以深入做GO分析细诸,需要好好研究一下手冊。
總的來說,軟件上手很容易,但是準(zhǔn)備輸入文件,調(diào)整格式需要花一番功夫
感覺,特別是對于文本操作(shell腳本沪铭,sed,正則匹配)已骇,不同格式之間的相互轉(zhuǎn)化,不同軟件的操作(R,Excel,Notepadd++),說到底還是不太熟練碘橘,基本功不扎實,有些操作應(yīng)該是有很簡單的做法吱肌,但是確實想不出來痘拆,看來還是要靜下心來把這些知識吃透,不應(yīng)該東學(xué)一點氮墨,西學(xué)一點纺蛆,什么都會一點,什么都不精通规揪。自勉G攀稀!猛铅!