轉(zhuǎn)錄組數(shù)據(jù)挖掘方法原理

基因課FTP地址:ftp://http://gsx.genek.tv/2020-3-10%E7%9B%B4%E6%92%AD%E4%B8%80%E4%B8%AA%E5%AE%8C%E6%95%B4%E7%9A%84%E8%BD%AC%E5%BD%95%E7%BB%84%E9%A1%B9%E7%9B%AE/
聽張旭東老師的課

發(fā)展情形

  • 蛋白質(zhì)組學(xué)瘟忱、代謝組學(xué)技術(shù)不成熟玻靡,費(fèi)用高 → 大量做轉(zhuǎn)錄組學(xué)(間接)
  • 表達(dá)芯片已經(jīng)大部分被轉(zhuǎn)錄組測(cè)序替代蹄溉,表達(dá)芯片優(yōu)劣勢(shì)奄薇,有可能芯片上沒有

簡(jiǎn)單的分析流程

測(cè)序數(shù)據(jù)(上百G) --標(biāo)準(zhǔn)分析(需要服務(wù)器)→ 表達(dá)矩陣(幾M) --數(shù)據(jù)挖掘(PC/R語言)→ 統(tǒng)計(jì)圖表(幾M)

表達(dá)數(shù)據(jù)挖掘

  • 三張表

① 表達(dá)矩陣:每行一個(gè)gene,每列一個(gè)樣本sample(可以在GEO數(shù)據(jù)庫下載)

g/S Sample1 Sample2 Sample3
gene1 38 55 76
gene2 127 41 86
gene3 46 29 34
... ... ... ...

② 樣本信息表:每行一個(gè)樣本窿冯,每列一個(gè)表型特征(臨床信息妒御、表型特征布疙、生化指標(biāo)等)

S/Phenotype Group Weight Age Stage
Sample1 Cancer 20 10 I
Sample2 Cancer 34 39 III
Sample3 Normal 64 49 IV
Sample4 Normal 44 34 I
... ... ... ... ...

③基因信息表:每行一個(gè)基因姆钉,每列一個(gè)信息

g/Information Symbol Function
gene1 KCNA3 xxx
gene2 NCON3 Xxx
gene3 DDB1 xXx
... ... ...
  • 研究目的
    大多數(shù)為找到表型背后的分子機(jī)制

  • RNA測(cè)序數(shù)據(jù)與芯片測(cè)序數(shù)據(jù)可以合并分析,但不能直接合并听诸,相當(dāng)于是個(gè)分析各的坐求,再看兩個(gè)分析找到的規(guī)律是否一致

分析方法

尋找關(guān)鍵基因和關(guān)鍵樣本

  • 差異表達(dá)分析:哪些基因在兩組樣本中有明顯表達(dá)差異?

    • 差異表達(dá)分析得到的表格中:
      FC(Folder change) 該基因在所檢測(cè)的兩組樣品中表達(dá)量相差多少倍
      log2FC
      Pval(P value) 假設(shè)檢驗(yàn)
      Padj 多重假設(shè)矯正之后的P value → 矯正之后的P value小于0.05為有顯著差異
      • Questions
        ① 如何篩選差異基因晌梨,只用P value<0.05行不行桥嗤?
        不行,還要FC>2 或 |log2FC|>1
        ② 該設(shè)計(jì)多少個(gè)生物學(xué)重復(fù)仔蝌?
        最少3個(gè)泛领,最好有7、8個(gè)
        ③ 是否生物學(xué)重復(fù)越多敛惊,鑒定到的差異表達(dá)基因就越多渊鞋?
        是。重復(fù)越多瞧挤,更多差異小的基因被識(shí)別
        ④ DESeq2 鑒定到500個(gè)差異基因锡宋,換edgeR有2000個(gè),哪個(gè)對(duì)特恬?
        都對(duì)执俩,選擇合適的,不同算法模式不一樣癌刽,要選擇適合目標(biāo)測(cè)序結(jié)果的差異表達(dá)分析模型役首。差異表達(dá)基因少可以考慮換個(gè)模型,換個(gè)算法妒穴。
    • 差異表達(dá)分析結(jié)果可視化
      • 火山圖 左上角宋税、右上角差異越大
      • Heatmap 表達(dá)量矩陣可視化
      • Question
        ① 是否差異越大的基因越該重點(diǎn)關(guān)注
        否,很多是已經(jīng)研究透徹的基因讼油;可能只是結(jié)果杰赛,不是原因
        ② 差異表達(dá)基因過多或過少該如何調(diào)整?
        差異表達(dá)分析的基礎(chǔ)是假設(shè)檢驗(yàn)(t檢驗(yàn))矮台,假設(shè)檢驗(yàn)涉及到概率模型乏屯,有可能當(dāng)前假設(shè)的概率模型并不適合當(dāng)前實(shí)驗(yàn)結(jié)果根时,可以選擇其他分析軟件,或調(diào)整參數(shù)辰晕,更換概率模型蛤迎,從而達(dá)到這種目的。
  • 樣本聚類分析:探索樣本之間的關(guān)系含友,鎖定關(guān)鍵樣本替裆,之后再做差異分析。

    • 樣本間相關(guān)系數(shù):用來描述樣本表達(dá)模式的相似程度
      組間差異大窘问,組內(nèi)差異小 → 正常辆童,反之,不正常惠赫,可能需要重做把鉴。
    • 基因間相關(guān)系數(shù):找到與已知基因關(guān)聯(lián)基因
      表達(dá)模式相似的基因
    • 相關(guān)系數(shù):三種常用計(jì)算方法
      Pearson相關(guān)系數(shù)
      Spearman相關(guān)系數(shù)
      Kendel相關(guān)系數(shù)
      通常會(huì)關(guān)心相關(guān)系數(shù)在0.75 - 1 之間的值

    • 性別 —— Kendel相關(guān)系數(shù)
      腫瘤分期 —— Spearman相關(guān)系數(shù)
  • 聚類分析和WGCNA:探索基因與表型的關(guān)系

    • 基因與表型可以做相關(guān)性分析,但是對(duì)于一個(gè)表型儿咱,不止一個(gè)基因與之相關(guān)庭砍,因此采取: 對(duì)所有基因聚類 → 用聚類后的基因簇(cluster)與表型做相關(guān)性分析
    • WGCNA分析(加權(quán)共表達(dá)分析)
      ① 模塊構(gòu)建(基因聚類)
      ② 性狀與模塊相關(guān)分析 —— 篩選出與該表型相關(guān)的gene cluster —— 對(duì)于該性狀混埠,cluster中的基因不是同等重要怠缸,用Cytoscape繪出網(wǎng)絡(luò)圖,確定在中心位置的為關(guān)鍵gene
      ③ 鑒定Hub基因
    • TOM矩陣(拓?fù)渲丿B矩陣)

    • 大部分人該過程在PC上完成,因?yàn)楹芎膬?nèi)存岔冀,很多都不得不濾除一些差異很小的基因
  • 主成分分析(PCA)

    • 聚類分析和主成分分析都是降維分析
    • 對(duì)原來數(shù)據(jù)進(jìn)行PC線性變換凯旭,通過n個(gè)PC各項(xiàng)加權(quán)概耻,將m項(xiàng)降維至n項(xiàng)(n<m)
    • 要考慮的問題:
      ① 哪個(gè)PC最能體現(xiàn)樣品的差異使套?
      ② 假如你關(guān)心某項(xiàng)功能,應(yīng)該重點(diǎn)關(guān)注哪個(gè)PC?
      ③ 重點(diǎn)關(guān)注哪個(gè)PC,可以完成聚類
    • 結(jié)果圖:
      hub PC:bioplot
      hub PC:表型關(guān)聯(lián)
      hub genes:loadings plot

功能分析

  • 富集分析:差異基因是否顯著集中在某個(gè)功能分類上鞠柄?
    • 功能分類:GO分類侦高、Pathway分類
    • 富集分析結(jié)果
      GO分類ID
      Description 分類功能描述
      GeneRatio 差異基因中有多少富集在此pathway上
      BgRatio 背景,所有基因中有多少富集在此Pathway上
      Pvalue 比較以上兩者厌杜,得到Pvalue
      P.adjust P值矯正
    • 最佳實(shí)踐:通過ClusterProfiler軟件包做
  • 蛋白互作網(wǎng)絡(luò)分析(PPI)
    • 通過已有數(shù)據(jù)庫查看基因是否有關(guān)聯(lián)

表達(dá)驗(yàn)證

  • 目的:驗(yàn)證測(cè)序奉呛、芯片是否靠譜;測(cè)序樣本生物學(xué)重復(fù)數(shù)量少夯尽,可以在表達(dá)驗(yàn)證掰回來瞧壮,驗(yàn)證時(shí)多點(diǎn)生物學(xué)重復(fù),增強(qiáng)說服力匙握。
  • 方法
    qPCR驗(yàn)證
    數(shù)據(jù)庫檢索數(shù)據(jù)驗(yàn)證(腫瘤數(shù)據(jù)庫TCGA咆槽、正常人數(shù)據(jù)庫GTEx、將兩者結(jié)合在一起的數(shù)據(jù)庫)
  • 功能:證明相關(guān)性圈纺,但還不能證明這些基因就有這個(gè)功能

功能驗(yàn)證

  • 實(shí)驗(yàn):
    敲除秦忿、敲低
    過表達(dá)
  • 人類疾猜笊洹:生存分析

分子機(jī)制

TCGA等多組學(xué)關(guān)聯(lián)分析

  • 序列變異
  • 表觀遺傳修飾
  • 轉(zhuǎn)錄調(diào)控
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市灯谣,隨后出現(xiàn)的幾起案子潜秋,更是在濱河造成了極大的恐慌,老刑警劉巖胎许,帶你破解...
    沈念sama閱讀 219,188評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件峻呛,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡辜窑,警方通過查閱死者的電腦和手機(jī)杀饵,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,464評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來谬擦,“玉大人切距,你說我怎么就攤上這事〔以叮” “怎么了谜悟?”我有些...
    開封第一講書人閱讀 165,562評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)北秽。 經(jīng)常有香客問我葡幸,道長(zhǎng),這世上最難降的妖魔是什么贺氓? 我笑而不...
    開封第一講書人閱讀 58,893評(píng)論 1 295
  • 正文 為了忘掉前任蔚叨,我火速辦了婚禮,結(jié)果婚禮上辙培,老公的妹妹穿的比我還像新娘蔑水。我一直安慰自己,他們只是感情好扬蕊,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,917評(píng)論 6 392
  • 文/花漫 我一把揭開白布搀别。 她就那樣靜靜地躺著,像睡著了一般尾抑。 火紅的嫁衣襯著肌膚如雪歇父。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,708評(píng)論 1 305
  • 那天再愈,我揣著相機(jī)與錄音榜苫,去河邊找鬼。 笑死翎冲,一個(gè)胖子當(dāng)著我的面吹牛垂睬,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 40,430評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼羔飞,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼肺樟!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起逻淌,我...
    開封第一講書人閱讀 39,342評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤么伯,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后卡儒,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體田柔,經(jīng)...
    沈念sama閱讀 45,801評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,976評(píng)論 3 337
  • 正文 我和宋清朗相戀三年骨望,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了硬爆。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,115評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡擎鸠,死狀恐怖缀磕,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情劣光,我是刑警寧澤袜蚕,帶...
    沈念sama閱讀 35,804評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站绢涡,受9級(jí)特大地震影響牲剃,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜雄可,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,458評(píng)論 3 331
  • 文/蒙蒙 一凿傅、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧数苫,春花似錦聪舒、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,008評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至戏仓,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間亡鼠,已是汗流浹背赏殃。 一陣腳步聲響...
    開封第一講書人閱讀 33,135評(píng)論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留间涵,地道東北人仁热。 一個(gè)月前我還...
    沈念sama閱讀 48,365評(píng)論 3 373
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國和親抗蠢。 傳聞我的和親對(duì)象是個(gè)殘疾皇子举哟,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,055評(píng)論 2 355