2019-12-22 Day10-14-學(xué)習(xí) TCGA數(shù)據(jù)庫(kù)單基因文章套路

花了5天始腾,把視頻看完娇掏。順便整理了一下呕寝。
IF4.5分左右
套路:TCGA數(shù)據(jù)下載,選擇想要研究的基因婴梧,然后對(duì)基因ID進(jìn)行轉(zhuǎn)換下梢,提取矩陣中基因表達(dá)量,然后做差異表達(dá)分析-散點(diǎn)圖-疾病和正橙洌或腫瘤與癌旁比較孽江,配對(duì)的差異分析-腫瘤與癌旁,然后對(duì)TCGA臨床數(shù)據(jù)進(jìn)行下載和整理番电,生產(chǎn)分析與基因聯(lián)合竟坛,然后臨床相關(guān)性分析-與性別-分期等是否有關(guān),然后COX分析-模型預(yù)測(cè)疾病風(fēng)險(xiǎn)-探究單基因是否可以作為預(yù)后因子钧舌,GSEA富集分析-哪些基因哪些通路調(diào)控

1數(shù)據(jù)下載

TCGA-GDC


image.png

進(jìn)入download界面下載


image.png

檢測(cè)CART是否有數(shù)據(jù) 有的話 清空
image.png

選擇癌癥類型-TCGA-Type等細(xì)分
選擇Files-Data Category(轉(zhuǎn)錄本)-Data Type(基因表達(dá))-Workflw Type(FPKM)-點(diǎn)擊cart進(jìn)入界面- 下載三個(gè)文件download和metadata(名字)

2數(shù)據(jù)整理

使用腳本對(duì)數(shù)據(jù)進(jìn)行整理


image.png

解壓到目錄中(不要當(dāng)前文件夾)
然后對(duì)獲得的目錄進(jìn)行合并解壓(


image.png

使用perl腳本)下載Perl
image.png

下載下面那個(gè),然后安裝
安裝驗(yàn)證是否成功-在菜單欄cmd-輸入perl -v


image.png

將腳本復(fù)制到解壓后目錄下
image.png

然后cmd-cd空格輸入路徑-輸入perl 腳本名稱及后綴
image.png

image.png

完成之后對(duì)新文件夾內(nèi)所有目錄解壓涎跨,將新文件夾移動(dòng)到外面洼冻。然后將meta文件和腳本拷貝到新文件夾
然后cd 空格 目錄名-perl 腳本名稱 meta名稱-運(yùn)行(時(shí)間比較長(zhǎng),等光標(biāo)到>之后)

3 ID轉(zhuǎn)換

TCGA數(shù)據(jù)中ID第4個(gè)0開頭為腫瘤樣本
將之前得到到mRNA matrix.txt文件復(fù)制到第四個(gè)文件中隅很。
human.gtf文件為gene symbol與ID對(duì)應(yīng)文件撞牢,看mRNA matrix.txt中ID是否gtf中都有,沒有的刪除行叔营。然后全放到一個(gè)文件下屋彪,運(yùn)行腳本
cmd cd空格+路徑 perl空格+腳本


image.png

image.png

4 提取單基因表達(dá)數(shù)據(jù)

對(duì)上述得到的數(shù)據(jù),進(jìn)行提取
首先對(duì)數(shù)據(jù)進(jìn)行整理绒尊,如果有重復(fù)基因畜挥,對(duì)其進(jìn)行取均值。
將上述得到的文件復(fù)制到文件5目錄下
將腳本打開 復(fù)制命令到R中或搜索lima 安裝軟件


image.png

image.png

然后按要求改內(nèi)容
改完之后輸入R中進(jìn)行運(yùn)行婴谱。

5 散點(diǎn)差異圖繪制

將單基因的數(shù)據(jù)復(fù)制大6腳本目錄中
安裝install.packages("beeswarm")
復(fù)制工作目錄蟹但,復(fù)制單基因的數(shù)據(jù)的文件名
根據(jù)基因表達(dá)范圍確定縱軸范圍
復(fù)制腳本到R

6 配對(duì)差異分析

然后全放到一個(gè)文件下,運(yùn)行腳本
cmd cd空格+路徑Enter perl空格+腳本 Enter-得到兩個(gè)文件
打開腳本谭羔,改工作目錄华糖。
復(fù)制腳本到R中進(jìn)行運(yùn)行。

7 臨床相關(guān)性分析

臨床數(shù)據(jù)下載
搜索TCGA GDC瘟裸。清空Cart
點(diǎn)擊


image.png

選擇腫瘤類型
選擇數(shù)據(jù)類型


image.png

因?yàn)槭桥R床信息客叉,所以選擇最后一個(gè)
數(shù)據(jù)格式Data Format選擇BCR XML
然后加入Cart中下載
image.png

將下載好的文件與10腳本放置于同一目錄下
cmd cd空格+路徑Enter perl空格+腳本 Enter
得到XLS文件,從中提取數(shù)據(jù)整理表格

8 生存分析

對(duì)得到的臨床數(shù)據(jù)進(jìn)行整理,按生存時(shí)間排序兼搏,去除未知數(shù)據(jù)卵慰,復(fù)制前三列ID 生存時(shí)間 生存狀態(tài)到新建time.txt中。將單基因表達(dá)文件與腳本和新建time.txt放置到同一個(gè)目錄下向族。
cmd cd空格+路徑Enter perl空格+腳本 Enter
得到生存分析的輸入文件呵燕,將其和12腳本放置同一目錄下,打開R件相,安裝軟件


image.png

設(shè)置工作目錄和基因名稱


image.png

image.png

同時(shí)改后面year
然后將腳本復(fù)制到R中再扭,運(yùn)行
將這個(gè)命令放到最后,然后運(yùn)行夜矗,得到5年生存率泛范。
image.png

9 臨床相關(guān)性分析

image.png

單基因表達(dá)量和臨床文件拷貝到13腳本
整理臨床數(shù)據(jù),如按照分期紊撕,則刪掉其他的罢荡,然后按分期排序,改分期太細(xì)的对扶,按四大分然后復(fù)制到TXT中区赵。其他臨床數(shù)據(jù)分級(jí)等一樣


image.png

然后cmd cd空格+路徑Enter perl空格+腳本 Enter
得到臨床新輸入文件。
ks檢驗(yàn)浪南,打開14腳本笼才,按要求修改格式
兩種之間比較wilcox.test,兩種以上krushal.test


image.png

然后復(fù)制14腳本到R中運(yùn)行

10 邏輯回歸比較

image.png

復(fù)制singleGeneClinical.txt文件到15中,打開腳本15络凿,改相關(guān)信息骡送,輸入R
分期1為對(duì)照 分期2與分期1比 分期X與分期1比 改信息,得到OR和置信區(qū)間


image.png

image.png

然后復(fù)制到R中絮记,得到單獨(dú)比的數(shù)據(jù)


image.png

image.png

11 COX分析

獨(dú)立性預(yù)后


image.png

腳本在16中摔踱。拷貝單基因表達(dá)文件singleGene怨愤,和臨床信息文件clinical派敷,以及clinical.xls。對(duì)XLS進(jìn)行排序撰洗,刪除缺少信息的數(shù)據(jù)膀息,如果某個(gè)性狀的unknown太多,則去除這個(gè)信息列了赵,不然刪太多行后沒有樣本潜支。
對(duì)分期分級(jí)等及性別進(jìn)行數(shù)字化,男1柿汛,女0冗酿。然后將處理好的數(shù)據(jù)復(fù)制到文本中埠对,新建clinical.txt
然后cmd cd空格+路徑Enter perl空格+腳本 Enter
得到coxInput.txt,COX分析輸入文件

單因素COX
image.png

image.png

將coxInput.txt復(fù)制到目錄中裁替,復(fù)制17腳本到R中運(yùn)行得到uniCox.xls
當(dāng)基因的HR值不明顯時(shí)项玛,可log,如果基因中有0的數(shù)值弱判,需要加1


image.png

image.png
多因素COX

單因素是單獨(dú)一個(gè)一個(gè)輸入襟沮,多因素一起
復(fù)制coxInput.txt到18。
打開腳本昌腰,需要安裝survminer包开伏,survival包已經(jīng)安裝好,然后設(shè)置遭商,工作目錄雙斜杠固灵,基因。
復(fù)制腳本到R中運(yùn)行劫流。
基因不顯著的時(shí)候巫玻,可以去log。


image.png

11 GSEA分析

GSEA富集分析祠汇,主要分析這個(gè)基因通過什么通路或功能來對(duì)癌癥的發(fā)生產(chǎn)生影響
搜索仍秤,GSEA ,download可很,注冊(cè)下載軟件


image.png

下載jre诗力,然后下載界面中下載Java8版本的jre,然后直接安裝根穷。cmd java判斷是否安裝好。
輸入文件:5文件中导坟,uniquesymbol屿良。提取基因信息。只需要腫瘤樣品惫周,刪掉正常尘惧,低表達(dá)l高表達(dá)h


image.png

將文件全部放到目錄19,cmd cd空格+路徑Enter perl空格+腳本+基因名稱Enter
獲得Ch和GCT兩個(gè)文件递递。
GSEA富集分析

將CLS和GCT和jre軟件復(fù)制到20目錄下
cmd cd空格+路徑Enter
java- Xmx2G-jar軟件名Enter 喷橙,得到界面


image.png

image.png

導(dǎo)入文件Ch和GCT兩個(gè)文件


image.png

image.png

設(shè)施好后運(yùn)行。
時(shí)間很久登舞,結(jié)束后找到index文件
image.png

打開index贰逾,打開htm,對(duì)通路進(jìn)行篩選
image.png

image.png
多GSEA富集圖
image.png

節(jié)省了單GSEA的富集菠秒,如果有多條通路疙剑。21腳本
打開20的HTML的高表達(dá)和低表達(dá)的excel表,整理,F(xiàn)DR>0.05的可以刪掉言缤,如果都>0.05的只能刪p值大于0.05.然后將選擇的通路的excel表嚼蚀,全部復(fù)制到21中。


image.png

在R中安裝包ggplot2.然后復(fù)制腳本到R中運(yùn)行管挟。


image.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末轿曙,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子僻孝,更是在濱河造成了極大的恐慌导帝,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,839評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件皮璧,死亡現(xiàn)場(chǎng)離奇詭異舟扎,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)悴务,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門睹限,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人讯檐,你說我怎么就攤上這事羡疗。” “怎么了别洪?”我有些...
    開封第一講書人閱讀 153,116評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵叨恨,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我挖垛,道長(zhǎng)痒钝,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,371評(píng)論 1 279
  • 正文 為了忘掉前任痢毒,我火速辦了婚禮送矩,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘哪替。我一直安慰自己栋荸,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評(píng)論 5 374
  • 文/花漫 我一把揭開白布凭舶。 她就那樣靜靜地躺著晌块,像睡著了一般。 火紅的嫁衣襯著肌膚如雪帅霜。 梳的紋絲不亂的頭發(fā)上匆背,一...
    開封第一講書人閱讀 49,111評(píng)論 1 285
  • 那天,我揣著相機(jī)與錄音身冀,去河邊找鬼靠汁。 笑死蜂大,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的蝶怔。 我是一名探鬼主播奶浦,決...
    沈念sama閱讀 38,416評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼踢星!你這毒婦竟也來了澳叉?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,053評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤沐悦,失蹤者是張志新(化名)和其女友劉穎成洗,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體藏否,經(jīng)...
    沈念sama閱讀 43,558評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡瓶殃,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了副签。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片遥椿。...
    茶點(diǎn)故事閱讀 38,117評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖淆储,靈堂內(nèi)的尸體忽然破棺而出冠场,到底是詐尸還是另有隱情,我是刑警寧澤本砰,帶...
    沈念sama閱讀 33,756評(píng)論 4 324
  • 正文 年R本政府宣布碴裙,位于F島的核電站,受9級(jí)特大地震影響点额,放射性物質(zhì)發(fā)生泄漏舔株。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評(píng)論 3 307
  • 文/蒙蒙 一还棱、第九天 我趴在偏房一處隱蔽的房頂上張望载慈。 院中可真熱鬧,春花似錦诱贿、人聲如沸娃肿。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至凭豪,卻和暖如春焙蹭,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背嫂伞。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評(píng)論 1 262
  • 我被黑心中介騙來泰國(guó)打工孔厉, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留拯钻,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,578評(píng)論 2 355
  • 正文 我出身青樓撰豺,卻偏偏與公主長(zhǎng)得像粪般,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子污桦,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容

  • 個(gè)人學(xué)習(xí)批處理的初衷來源于實(shí)際工作亩歹;在某個(gè)迭代版本有個(gè)BS(安卓手游模擬器)大需求,從而在測(cè)試過程中就重復(fù)涉及到...
    Luckykailiu閱讀 4,691評(píng)論 0 11
  • [TOC] ##Assoc 顯示或修改文件擴(kuò)展名關(guān)聯(lián) Assoc [.Ext[=[Filetype]]] .Ex...
    btijjj閱讀 333評(píng)論 0 1
  • 命令簡(jiǎn)介 cmd是command的縮寫.即命令行 凡橱。 雖然隨著計(jì)算機(jī)產(chǎn)業(yè)的發(fā)展小作,Windows 操作系統(tǒng)的應(yīng)用越來...
    Littleston閱讀 3,314評(píng)論 0 12
  • feisky云計(jì)算、虛擬化與Linux技術(shù)筆記posts - 1014, comments - 298, trac...
    不排版閱讀 3,815評(píng)論 0 5
  • win7 cmd管理員權(quán)限設(shè)置 net localgroup administrators 用戶名 /add 把“...
    f675b1a02698閱讀 5,135評(píng)論 0 11