花了5天始腾,把視頻看完娇掏。順便整理了一下呕寝。
IF4.5分左右
套路:TCGA數(shù)據(jù)下載,選擇想要研究的基因婴梧,然后對(duì)基因ID進(jìn)行轉(zhuǎn)換下梢,提取矩陣中基因表達(dá)量,然后做差異表達(dá)分析-散點(diǎn)圖-疾病和正橙洌或腫瘤與癌旁比較孽江,配對(duì)的差異分析-腫瘤與癌旁,然后對(duì)TCGA臨床數(shù)據(jù)進(jìn)行下載和整理番电,生產(chǎn)分析與基因聯(lián)合竟坛,然后臨床相關(guān)性分析-與性別-分期等是否有關(guān),然后COX分析-模型預(yù)測(cè)疾病風(fēng)險(xiǎn)-探究單基因是否可以作為預(yù)后因子钧舌,GSEA富集分析-哪些基因哪些通路調(diào)控
1數(shù)據(jù)下載
TCGA-GDC
進(jìn)入download界面下載
檢測(cè)CART是否有數(shù)據(jù) 有的話 清空
選擇癌癥類型-TCGA-Type等細(xì)分
選擇Files-Data Category(轉(zhuǎn)錄本)-Data Type(基因表達(dá))-Workflw Type(FPKM)-點(diǎn)擊cart進(jìn)入界面- 下載三個(gè)文件download和metadata(名字)
2數(shù)據(jù)整理
使用腳本對(duì)數(shù)據(jù)進(jìn)行整理
解壓到目錄中(不要當(dāng)前文件夾)
然后對(duì)獲得的目錄進(jìn)行合并解壓(
使用perl腳本)下載Perl
下載下面那個(gè),然后安裝
安裝驗(yàn)證是否成功-在菜單欄cmd-輸入perl -v
將腳本復(fù)制到解壓后目錄下
然后cmd-cd空格輸入路徑-輸入perl 腳本名稱及后綴
完成之后對(duì)新文件夾內(nèi)所有目錄解壓涎跨,將新文件夾移動(dòng)到外面洼冻。然后將meta文件和腳本拷貝到新文件夾
然后cd 空格 目錄名-perl 腳本名稱 meta名稱-運(yùn)行(時(shí)間比較長(zhǎng),等光標(biāo)到>之后)
3 ID轉(zhuǎn)換
TCGA數(shù)據(jù)中ID第4個(gè)0開頭為腫瘤樣本
將之前得到到mRNA matrix.txt文件復(fù)制到第四個(gè)文件中隅很。
human.gtf文件為gene symbol與ID對(duì)應(yīng)文件撞牢,看mRNA matrix.txt中ID是否gtf中都有,沒有的刪除行叔营。然后全放到一個(gè)文件下屋彪,運(yùn)行腳本
cmd cd空格+路徑 perl空格+腳本
4 提取單基因表達(dá)數(shù)據(jù)
對(duì)上述得到的數(shù)據(jù),進(jìn)行提取
首先對(duì)數(shù)據(jù)進(jìn)行整理绒尊,如果有重復(fù)基因畜挥,對(duì)其進(jìn)行取均值。
將上述得到的文件復(fù)制到文件5目錄下
將腳本打開 復(fù)制命令到R中或搜索lima 安裝軟件
然后按要求改內(nèi)容
改完之后輸入R中進(jìn)行運(yùn)行婴谱。
5 散點(diǎn)差異圖繪制
將單基因的數(shù)據(jù)復(fù)制大6腳本目錄中
安裝install.packages("beeswarm")
復(fù)制工作目錄蟹但,復(fù)制單基因的數(shù)據(jù)的文件名
根據(jù)基因表達(dá)范圍確定縱軸范圍
復(fù)制腳本到R
6 配對(duì)差異分析
然后全放到一個(gè)文件下,運(yùn)行腳本
cmd cd空格+路徑Enter perl空格+腳本 Enter-得到兩個(gè)文件
打開腳本谭羔,改工作目錄华糖。
復(fù)制腳本到R中進(jìn)行運(yùn)行。
7 臨床相關(guān)性分析
臨床數(shù)據(jù)下載
搜索TCGA GDC瘟裸。清空Cart
點(diǎn)擊
選擇腫瘤類型
選擇數(shù)據(jù)類型
因?yàn)槭桥R床信息客叉,所以選擇最后一個(gè)
數(shù)據(jù)格式Data Format選擇BCR XML
然后加入Cart中下載
將下載好的文件與10腳本放置于同一目錄下
cmd cd空格+路徑Enter perl空格+腳本 Enter
得到XLS文件,從中提取數(shù)據(jù)整理表格
8 生存分析
對(duì)得到的臨床數(shù)據(jù)進(jìn)行整理,按生存時(shí)間排序兼搏,去除未知數(shù)據(jù)卵慰,復(fù)制前三列ID 生存時(shí)間 生存狀態(tài)到新建time.txt中。將單基因表達(dá)文件與腳本和新建time.txt放置到同一個(gè)目錄下向族。
cmd cd空格+路徑Enter perl空格+腳本 Enter
得到生存分析的輸入文件呵燕,將其和12腳本放置同一目錄下,打開R件相,安裝軟件
設(shè)置工作目錄和基因名稱
同時(shí)改后面year
然后將腳本復(fù)制到R中再扭,運(yùn)行
將這個(gè)命令放到最后,然后運(yùn)行夜矗,得到5年生存率泛范。
9 臨床相關(guān)性分析
單基因表達(dá)量和臨床文件拷貝到13腳本
整理臨床數(shù)據(jù),如按照分期紊撕,則刪掉其他的罢荡,然后按分期排序,改分期太細(xì)的对扶,按四大分然后復(fù)制到TXT中区赵。其他臨床數(shù)據(jù)分級(jí)等一樣
然后cmd cd空格+路徑Enter perl空格+腳本 Enter
得到臨床新輸入文件。
ks檢驗(yàn)浪南,打開14腳本笼才,按要求修改格式
兩種之間比較wilcox.test,兩種以上krushal.test
然后復(fù)制14腳本到R中運(yùn)行
10 邏輯回歸比較
復(fù)制singleGeneClinical.txt文件到15中,打開腳本15络凿,改相關(guān)信息骡送,輸入R
分期1為對(duì)照 分期2與分期1比 分期X與分期1比 改信息,得到OR和置信區(qū)間
然后復(fù)制到R中絮记,得到單獨(dú)比的數(shù)據(jù)
11 COX分析
獨(dú)立性預(yù)后
腳本在16中摔踱。拷貝單基因表達(dá)文件singleGene怨愤,和臨床信息文件clinical派敷,以及clinical.xls。對(duì)XLS進(jìn)行排序撰洗,刪除缺少信息的數(shù)據(jù)膀息,如果某個(gè)性狀的unknown太多,則去除這個(gè)信息列了赵,不然刪太多行后沒有樣本潜支。
對(duì)分期分級(jí)等及性別進(jìn)行數(shù)字化,男1柿汛,女0冗酿。然后將處理好的數(shù)據(jù)復(fù)制到文本中埠对,新建clinical.txt
然后cmd cd空格+路徑Enter perl空格+腳本 Enter
得到coxInput.txt,COX分析輸入文件
單因素COX
將coxInput.txt復(fù)制到目錄中裁替,復(fù)制17腳本到R中運(yùn)行得到uniCox.xls
當(dāng)基因的HR值不明顯時(shí)项玛,可log,如果基因中有0的數(shù)值弱判,需要加1
多因素COX
單因素是單獨(dú)一個(gè)一個(gè)輸入襟沮,多因素一起
復(fù)制coxInput.txt到18。
打開腳本昌腰,需要安裝survminer包开伏,survival包已經(jīng)安裝好,然后設(shè)置遭商,工作目錄雙斜杠固灵,基因。
復(fù)制腳本到R中運(yùn)行劫流。
基因不顯著的時(shí)候巫玻,可以去log。
11 GSEA分析
GSEA富集分析祠汇,主要分析這個(gè)基因通過什么通路或功能來對(duì)癌癥的發(fā)生產(chǎn)生影響
搜索仍秤,GSEA ,download可很,注冊(cè)下載軟件
下載jre诗力,然后下載界面中下載Java8版本的jre,然后直接安裝根穷。cmd java判斷是否安裝好。
輸入文件:5文件中导坟,uniquesymbol屿良。提取基因信息。只需要腫瘤樣品惫周,刪掉正常尘惧,低表達(dá)l高表達(dá)h
將文件全部放到目錄19,cmd cd空格+路徑Enter perl空格+腳本+基因名稱Enter
獲得Ch和GCT兩個(gè)文件递递。
GSEA富集分析
將CLS和GCT和jre軟件復(fù)制到20目錄下
cmd cd空格+路徑Enter
java- Xmx2G-jar軟件名Enter 喷橙,得到界面
導(dǎo)入文件Ch和GCT兩個(gè)文件
設(shè)施好后運(yùn)行。
時(shí)間很久登舞,結(jié)束后找到index文件
打開index贰逾,打開htm,對(duì)通路進(jìn)行篩選
多GSEA富集圖
節(jié)省了單GSEA的富集菠秒,如果有多條通路疙剑。21腳本
打開20的HTML的高表達(dá)和低表達(dá)的excel表,整理,F(xiàn)DR>0.05的可以刪掉言缤,如果都>0.05的只能刪p值大于0.05.然后將選擇的通路的excel表嚼蚀,全部復(fù)制到21中。
在R中安裝包ggplot2.然后復(fù)制腳本到R中運(yùn)行管挟。