B站視頻地址:https://www.bilibili.com/video/av49363776?from=search&seid=17709076368945641839
特此致謝:生信技能樹
101
需要了解的內(nèi)容:TCGA的研究范圍偷俭、數(shù)據(jù)來源阁谆、數(shù)據(jù)格式议谷、數(shù)據(jù)儲存、基本的生物學(xué)概念禾怠、腫瘤學(xué)知識、熟悉使用R語言
R語言教程:https://www.bilibili.com/video/av25643438?from=search&seid=2313097517440657329
102
配套代碼:https://github.com/jmzeng1314/tcga_example 也可以把整個(gè)github上的代碼打包下來(就是考驗(yàn)網(wǎng)速---事實(shí)證明:網(wǎng)速卒)
miRNA數(shù)據(jù)庫:http://www.mirbase.org/
miRNA 的命名方式:(引自周凡逛绵,莊詩美.《microRNA與腫瘤》, 生命科學(xué), 2008, 20(2):207-212. )
(1) miRNA 簡寫成miR墙歪,再根據(jù)其被克隆的先后順序加上阿拉伯?dāng)?shù)字,如miR-21
(2) 高度同源的miRNA 在數(shù)字后加上英文小寫字母(a舍悯、b 航棱、c),如miR-199a 和miR-199b萌衬;
(3) 由不同染色體上的DNA序列轉(zhuǎn)錄加工而成的具有相同成熟體序列的miRNA饮醇,則在后面加上阿拉伯?dāng)?shù)字以區(qū)分, 如miR-199a-1 和miR-199a-2;
(4) 如果一個(gè)前體的2 個(gè)臂分別加工產(chǎn)生miRNA秕豫,則根據(jù)克隆實(shí)驗(yàn)驳阎,在表達(dá)水平較低的miRNA 后面加“”,如miR-199a和miR-199a馁蒂,或進(jìn)行如下命名呵晚,miR-142-5p(也可命名為miR-142-s,表示從5' 端的臂加工而來)和miR-142-3p(也可命名為miR-142-as沫屡,表示從3′端的臂加工而來)饵隙;
(5) 將物種縮寫置于miRNA 之前,如hsa-miR-195 沮脖;
(6) 確定命名規(guī)則之前發(fā)現(xiàn)的miRNA金矛,如let-7,則保留原來名字勺届。
流程:
下載數(shù)據(jù)
提取表達(dá)矩陣驶俊、臨床信息
差異分析---count用DEG+limma;micro-reads用limma
把每個(gè)結(jié)果存成Rdata
bach--logrank(去NA免姿、修改變量名稱饼酿、引入臨床信息開始做生存分析---生存分析的幾個(gè)統(tǒng)計(jì)學(xué)方法?)
bach--cox(cox回歸,探究多因素對生存期的影響)及森林圖制作
LASSO回歸(聽說要用泰勒公式展開故俐,先放著)
(還有很多可以做的想鹰,慢慢去開發(fā))
103
TCGA的用法:用于驗(yàn)證自己的數(shù)據(jù),或者做了數(shù)據(jù)挖掘后药版,進(jìn)行臨床驗(yàn)證辑舷,可以多組學(xué)、多平臺聯(lián)合分析槽片。多讀文獻(xiàn)多開腦洞
聽說技能樹承包了你2020生物信息學(xué)文獻(xiàn) https://mp.weixin.qq.com/s/7nvBDPZb2uGVglwJE7p_Rw
201
數(shù)據(jù)權(quán)限: 3級何缓、4級才能下載分析;1級还栓、2級需要申請下載歌殃。
大家記得去掃視頻4:36 的二維碼 https://www.bilibili.com/video/av49363776?p=4
測序--比對(BWA)--去除重復(fù)---堿基校正---BAM---IGV可視化---QC---mutation(somatic--體細(xì)胞突變--僅存在于特定組織中,不遺傳給后代蝙云;germinal--種系突變--全身大部分細(xì)胞都突變氓皱,且可遺傳 )---indels/purity(可下載作為數(shù)據(jù)校正)、ploidy/CNV/rearrangements(結(jié)構(gòu)變異)----annotation
六種數(shù)據(jù):外顯子勃刨、表達(dá)數(shù)據(jù)波材、甲基化、蛋白質(zhì)身隐、CNV廷区、臨床信息、miRNA
網(wǎng)頁工具
GDC---目前TCGA的整合
cbioportal--按照文章來分
UCSC---可以用Python下載
FIREHOSE
oncolnc---看生存相關(guān)專用
gepia
tanric---lncRNA
TCIA---與TCGA配套的影像資料
ICGC---比TCGA更大
202
GTEx: 可以與TCGA聯(lián)合做正常 對照組或eQTL的分析
203---Xena
不需要編程
關(guān)于篩選空白樣本(左側(cè)有黑色邊框即為保留的)
- 可以直接找文獻(xiàn)贾铝,官方也有幫助手冊https://cbiit.webex.com/recordingservice/sites/cbiit/recording/play/d5a83a983b924f3dabe053dce439f754
- https://docs.google.com/presentation/d/1J0cbcWLkf4zL3q9sOCU8tRg7nvjYqlySMurRTTtDCrg/edit#slide=id.g36b4f396f2_0_278
- https://docs.google.com/presentation/d/1rZaMmNbx3zZ21wnOudncWjV3Gt7buYFDYC5UjYxl_lo/edit#slide=id.g78f6768f9d_1_931
讀取數(shù)據(jù)出現(xiàn)空值要設(shè)置 fill=F,去除含空值數(shù)據(jù):na.omit()隙轻,去除特定行的辦法如下
204
firehose:http://gdac.broadinstitute.org/
(鑒于它數(shù)據(jù)更新的慢而且我已經(jīng)學(xué)會了GDC全套,所以各位看視頻吧)
205
文章規(guī)律(還是那句話:多看文章垢揩,多開腦洞玖绿,讓技能樹的文獻(xiàn)推送承包你今年的文獻(xiàn)吧)
https://mp.weixin.qq.com/s/7nvBDPZb2uGVglwJE7p_Rw
第三章單獨(dú)寫一個(gè)
從未想到GDC下載到數(shù)據(jù)合并整理
整整讓我費(fèi)了好久的腦子(大概是太久沒做了)
尤其是304節(jié),我整整看了四五遍才大致理清楚要怎么做
結(jié)果:腦子:懂了沒叁巨,趕緊做斑匪;手:不,你不會锋勺。