TCGA 突變信息轉(zhuǎn)置0,1 (機(jī)器學(xué)習(xí)輸入)

下載多個(gè)TCGA maf文件

每個(gè)腫瘤都有4個(gè)maf文件蟀俊,是用不同的軟件找出的突變信息钦铺,所以只要挑出一個(gè)就好。然后合并多個(gè)腫瘤的maf文件肢预,直接文件追加就行矛洞。

MutSigCV進(jìn)行突變負(fù)荷分析尋找Driver Gene

http://www.reibang.com/p/c86fadbff4c3
這個(gè)文章里講的很詳細(xì),生成的 sig_genes.txt 文件烫映,里邊有基因和p值沼本,代表基因?yàn)轵?qū)動(dòng)基因的可信度。
補(bǔ)充:TCGA里的maf文件對(duì)應(yīng)的參考基因組是GRCh38锭沟。所以不能使用MutSigCV官網(wǎng)的hg19抽兆,上面的文章里也寫(xiě)有方法,下面是實(shí)施的具體步驟冈钦。其中刪除換行符時(shí)候郊丛,用 sed -e ':a;N;s/\n//;ta' filename 沒(méi)有成功李请,似乎文件太大?所以使用下面方法厉熟。處理完后最好 wc 命令看下染色體長(zhǎng)度是不是官方標(biāo)明的長(zhǎng)度相等导盅,確保參考基因組構(gòu)建成功了。否則運(yùn)行程序的時(shí)候會(huì)有如下報(bào)錯(cuò)Error using MutSigCV>MutSig_preprocess (line 542) probable build mismatch between mutation_file and chr_files
誰(shuí)要是懶得構(gòu)建揍瑟,我發(fā)你郵箱白翻。

ls | while read file;do sed -i '1d' $file;done #刪除第一行
ls | while read file;do cat $file | tr "\n" " " >${file}new;done #新生成的文件里是換行符換成了空格
ls | while read file;do sed s/[[:space:]]//g $file > ${file}new;done #刪除空格

驅(qū)動(dòng)基因與患者信息對(duì)應(yīng)

根據(jù)p值篩選前5000個(gè)基因,然后轉(zhuǎn)置成0绢片,1(突變?yōu)?)滤馍。

library(data.table)
library(dplyr)

sig_genes=read.table(file = "output.sig_genes.txt",sep = "\t",header = T,stringsAsFactors=F)
maf=fread("my_input_data.maf",sep="\t",header=T,
          fill=T,blank.lines.skip=T,stringsAsFactors=F)
genes=sig_genes$gene[1:5000]
samples=unique(maf$Tumor_Sample_Barcode)

result=matrix(data=NA,length(genes),length(samples))
n=1
for(s in samples){
  g=which(maf$Tumor_Sample_Barcode==s) %>% maf$Hugo_Symbol[.]
  l=genes %in% g
  result[,n]=ifelse(l,1,0)
  n=n+1
}

result.table=as.data.frame(result)
result.table.1=rbind(samples,result.table)
result.table.1=cbind(c("gene",genes),result.table.1)

write.table(result.table.1,file = "result_matrix.txt",
            quote=F,sep="\t",row.names = F,col.names = F)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市底循,隨后出現(xiàn)的幾起案子巢株,更是在濱河造成了極大的恐慌,老刑警劉巖熙涤,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件阁苞,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡祠挫,警方通過(guò)查閱死者的電腦和手機(jī)那槽,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)等舔,“玉大人骚灸,你說(shuō)我怎么就攤上這事』胖玻” “怎么了甚牲?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)涤浇。 經(jīng)常有香客問(wèn)我鳖藕,道長(zhǎng),這世上最難降的妖魔是什么只锭? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任著恩,我火速辦了婚禮,結(jié)果婚禮上蜻展,老公的妹妹穿的比我還像新娘喉誊。我一直安慰自己,他們只是感情好纵顾,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布伍茄。 她就那樣靜靜地躺著,像睡著了一般施逾。 火紅的嫁衣襯著肌膚如雪敷矫。 梳的紋絲不亂的頭發(fā)上例获,一...
    開(kāi)封第一講書(shū)人閱讀 51,125評(píng)論 1 297
  • 那天,我揣著相機(jī)與錄音曹仗,去河邊找鬼榨汤。 笑死,一個(gè)胖子當(dāng)著我的面吹牛怎茫,可吹牛的內(nèi)容都是我干的收壕。 我是一名探鬼主播,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼轨蛤,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼蜜宪!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起祥山,我...
    開(kāi)封第一講書(shū)人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤圃验,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后枪蘑,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體损谦,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡岖免,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年岳颇,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片颅湘。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡话侧,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出闯参,到底是詐尸還是另有隱情瞻鹏,我是刑警寧澤,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布鹿寨,位于F島的核電站新博,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏脚草。R本人自食惡果不足惜赫悄,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望馏慨。 院中可真熱鬧埂淮,春花似錦、人聲如沸写隶。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)慕趴。三九已至痪蝇,卻和暖如春鄙陡,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背躏啰。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來(lái)泰國(guó)打工柔吼, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人丙唧。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓愈魏,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親想际。 傳聞我的和親對(duì)象是個(gè)殘疾皇子培漏,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容