基因課FTP地址:ftp://http://gsx.genek.tv/2020-3-10%E7%9B%B4%E6%92%AD%E4%B8%80%E4%B8%AA%E5%AE%8C%E6%95%B4%E7%9A%84%E8%BD%AC%E5%BD%95%E7%BB%84%E9%A1%B9%E7%9B%AE/
聽張旭東老師的課
發(fā)展情形
- 蛋白質(zhì)組學(xué)瘟忱、代謝組學(xué)技術(shù)不成熟玻靡,費(fèi)用高 → 大量做轉(zhuǎn)錄組學(xué)(間接)
- 表達(dá)芯片已經(jīng)大部分被轉(zhuǎn)錄組測(cè)序替代蹄溉,表達(dá)芯片優(yōu)劣勢(shì)奄薇,有可能芯片上沒有
簡(jiǎn)單的分析流程
測(cè)序數(shù)據(jù)(上百G) --標(biāo)準(zhǔn)分析(需要服務(wù)器)→ 表達(dá)矩陣(幾M) --數(shù)據(jù)挖掘(PC/R語言)→ 統(tǒng)計(jì)圖表(幾M)
表達(dá)數(shù)據(jù)挖掘
- 三張表
① 表達(dá)矩陣:每行一個(gè)gene,每列一個(gè)樣本sample(可以在GEO數(shù)據(jù)庫下載)
g/S | Sample1 | Sample2 | Sample3 |
---|---|---|---|
gene1 | 38 | 55 | 76 |
gene2 | 127 | 41 | 86 |
gene3 | 46 | 29 | 34 |
... | ... | ... | ... |
② 樣本信息表:每行一個(gè)樣本窿冯,每列一個(gè)表型特征(臨床信息妒御、表型特征布疙、生化指標(biāo)等)
S/Phenotype | Group | Weight | Age | Stage |
---|---|---|---|---|
Sample1 | Cancer | 20 | 10 | I |
Sample2 | Cancer | 34 | 39 | III |
Sample3 | Normal | 64 | 49 | IV |
Sample4 | Normal | 44 | 34 | I |
... | ... | ... | ... | ... |
③基因信息表:每行一個(gè)基因姆钉,每列一個(gè)信息
g/Information | Symbol | Function |
---|---|---|
gene1 | KCNA3 | xxx |
gene2 | NCON3 | Xxx |
gene3 | DDB1 | xXx |
... | ... | ... |
- 研究目的
大多數(shù)為找到表型背后的分子機(jī)制 -
注
RNA測(cè)序數(shù)據(jù)與芯片測(cè)序數(shù)據(jù)可以合并分析,但不能直接合并听诸,相當(dāng)于是個(gè)分析各的坐求,再看兩個(gè)分析找到的規(guī)律是否一致
分析方法
尋找關(guān)鍵基因和關(guān)鍵樣本
-
差異表達(dá)分析:哪些基因在兩組樣本中有明顯表達(dá)差異?
- 差異表達(dá)分析得到的表格中:
FC(Folder change) 該基因在所檢測(cè)的兩組樣品中表達(dá)量相差多少倍
log2FC
Pval(P value) 假設(shè)檢驗(yàn)
Padj 多重假設(shè)矯正之后的P value → 矯正之后的P value小于0.05為有顯著差異- Questions
① 如何篩選差異基因晌梨,只用P value<0.05行不行桥嗤?
不行,還要FC>2 或 |log2FC|>1
② 該設(shè)計(jì)多少個(gè)生物學(xué)重復(fù)仔蝌?
最少3個(gè)泛领,最好有7、8個(gè)
③ 是否生物學(xué)重復(fù)越多敛惊,鑒定到的差異表達(dá)基因就越多渊鞋?
是。重復(fù)越多瞧挤,更多差異小的基因被識(shí)別
④ DESeq2 鑒定到500個(gè)差異基因锡宋,換edgeR有2000個(gè),哪個(gè)對(duì)特恬?
都對(duì)执俩,選擇合適的,不同算法模式不一樣癌刽,要選擇適合目標(biāo)測(cè)序結(jié)果的差異表達(dá)分析模型役首。差異表達(dá)基因少可以考慮換個(gè)模型,換個(gè)算法妒穴。
- Questions
- 差異表達(dá)分析結(jié)果可視化
- 火山圖 左上角宋税、右上角差異越大
- Heatmap 表達(dá)量矩陣可視化
- Question
① 是否差異越大的基因越該重點(diǎn)關(guān)注
否,很多是已經(jīng)研究透徹的基因讼油;可能只是結(jié)果杰赛,不是原因
② 差異表達(dá)基因過多或過少該如何調(diào)整?
差異表達(dá)分析的基礎(chǔ)是假設(shè)檢驗(yàn)(t檢驗(yàn))矮台,假設(shè)檢驗(yàn)涉及到概率模型乏屯,有可能當(dāng)前假設(shè)的概率模型并不適合當(dāng)前實(shí)驗(yàn)結(jié)果根时,可以選擇其他分析軟件,或調(diào)整參數(shù)辰晕,更換概率模型蛤迎,從而達(dá)到這種目的。
- 差異表達(dá)分析得到的表格中:
-
樣本聚類分析:探索樣本之間的關(guān)系含友,鎖定關(guān)鍵樣本替裆,之后再做差異分析。
- 樣本間相關(guān)系數(shù):用來描述樣本表達(dá)模式的相似程度
組間差異大窘问,組內(nèi)差異小 → 正常辆童,反之,不正常惠赫,可能需要重做把鉴。 - 基因間相關(guān)系數(shù):找到與已知基因關(guān)聯(lián)基因
表達(dá)模式相似的基因 - 相關(guān)系數(shù):三種常用計(jì)算方法
Pearson相關(guān)系數(shù)
Spearman相關(guān)系數(shù)
Kendel相關(guān)系數(shù)
通常會(huì)關(guān)心相關(guān)系數(shù)在0.75 - 1 之間的值 -
注:
性別 —— Kendel相關(guān)系數(shù)
腫瘤分期 —— Spearman相關(guān)系數(shù)
- 樣本間相關(guān)系數(shù):用來描述樣本表達(dá)模式的相似程度
-
聚類分析和WGCNA:探索基因與表型的關(guān)系
- 基因與表型可以做相關(guān)性分析,但是對(duì)于一個(gè)表型儿咱,不止一個(gè)基因與之相關(guān)庭砍,因此采取: 對(duì)所有基因聚類 → 用聚類后的基因簇(cluster)與表型做相關(guān)性分析
- WGCNA分析(加權(quán)共表達(dá)分析)
① 模塊構(gòu)建(基因聚類)
② 性狀與模塊相關(guān)分析 —— 篩選出與該表型相關(guān)的gene cluster —— 對(duì)于該性狀混埠,cluster中的基因不是同等重要怠缸,用Cytoscape繪出網(wǎng)絡(luò)圖,確定在中心位置的為關(guān)鍵gene
③ 鑒定Hub基因 - TOM矩陣(拓?fù)渲丿B矩陣)
-
注
大部分人該過程在PC上完成,因?yàn)楹芎膬?nèi)存岔冀,很多都不得不濾除一些差異很小的基因
-
主成分分析(PCA)
- 聚類分析和主成分分析都是降維分析
- 對(duì)原來數(shù)據(jù)進(jìn)行PC線性變換凯旭,通過n個(gè)PC各項(xiàng)加權(quán)概耻,將m項(xiàng)降維至n項(xiàng)(n<m)
- 要考慮的問題:
① 哪個(gè)PC最能體現(xiàn)樣品的差異使套?
② 假如你關(guān)心某項(xiàng)功能,應(yīng)該重點(diǎn)關(guān)注哪個(gè)PC?
③ 重點(diǎn)關(guān)注哪個(gè)PC,可以完成聚類 - 結(jié)果圖:
hub PC:bioplot
hub PC:表型關(guān)聯(lián)
hub genes:loadings plot
功能分析
- 富集分析:差異基因是否顯著集中在某個(gè)功能分類上鞠柄?
- 功能分類:GO分類侦高、Pathway分類
- 富集分析結(jié)果
GO分類ID
Description 分類功能描述
GeneRatio 差異基因中有多少富集在此pathway上
BgRatio 背景,所有基因中有多少富集在此Pathway上
Pvalue 比較以上兩者厌杜,得到Pvalue
P.adjust P值矯正 - 最佳實(shí)踐:通過ClusterProfiler軟件包做
- 蛋白互作網(wǎng)絡(luò)分析(PPI)
- 通過已有數(shù)據(jù)庫查看基因是否有關(guān)聯(lián)
表達(dá)驗(yàn)證
- 目的:驗(yàn)證測(cè)序奉呛、芯片是否靠譜;測(cè)序樣本生物學(xué)重復(fù)數(shù)量少夯尽,可以在表達(dá)驗(yàn)證掰回來瞧壮,驗(yàn)證時(shí)多點(diǎn)生物學(xué)重復(fù),增強(qiáng)說服力匙握。
- 方法
qPCR驗(yàn)證
數(shù)據(jù)庫檢索數(shù)據(jù)驗(yàn)證(腫瘤數(shù)據(jù)庫TCGA咆槽、正常人數(shù)據(jù)庫GTEx、將兩者結(jié)合在一起的數(shù)據(jù)庫) - 功能:證明相關(guān)性圈纺,但還不能證明這些基因就有這個(gè)功能
功能驗(yàn)證
- 實(shí)驗(yàn):
敲除秦忿、敲低
過表達(dá) - 人類疾猜笊洹:生存分析
分子機(jī)制
TCGA等多組學(xué)關(guān)聯(lián)分析
- 序列變異
- 表觀遺傳修飾
- 轉(zhuǎn)錄調(diào)控