功能基因組學(xué)(Functional genomics)是對基因組中基因與基因間區(qū)域如何參與不同生物學(xué)過程的研究亮航。在實際過程中,我們經(jīng)常從“全基因組”角度(即包含所有或多個基因/區(qū)域)出發(fā),希望將其范圍縮小到要分析的候選基因或區(qū)域列表惭载。
簡言之旱函,功能基因組學(xué)就是研究基因產(chǎn)物在特定情況下(如特定發(fā)育階段或疾病)的動態(tài)表達(dá)描滔,并嘗試將開發(fā)將我們了解的基因型(功能)與表型聯(lián)系起來的模型棒妨。
根據(jù)憤懣關(guān)注的重點,可以分為以下幾種特定的方法:
- DNA水平(基因組學(xué)和表觀基因組學(xué))
- RNA水平(轉(zhuǎn)錄組學(xué))
- 蛋白質(zhì)水平(蛋白質(zhì)組學(xué))
- 代謝物水平(代謝組學(xué))
下面著重學(xué)習(xí)下功能基因組學(xué)常見的分析方法:
1.Microarray
微陣列芯片(Microarray)是DNA探針的集合含长,探針通常是“噴墨印刷”在載玻片(Agilent)上或原位合成(Affymetrix)的掛衣核苷酸鏈(oligo)券腔。來自目標(biāo)樣品的標(biāo)記單鏈DNA或反義RNA片段在特定調(diào)節(jié)下與DNA微陣列雜交,隨后檢測特定探針的雜交量拘泞。雜交量與樣品中的核酸片段數(shù)量成正比纷纫。
Microarray可分為:單色和雙色。
雙色芯片可以在一定程度上抵消偏色效應(yīng)
技術(shù)重復(fù)和生物學(xué)重復(fù)
整理分析流程
1.1 特征提扰汶纭(Feature extration)
特征提取就是將掃描的到信號轉(zhuǎn)為gene IDs辱魁,樣品名稱和其他可用信息的過程。
此過程通常用芯片制造上提供的軟件進(jìn)行操作诗鸭,生成原始文件(raw data: unprocessed)這些數(shù)據(jù)通常是binary或text格式染簇。可以用
oligo
强岸,affy
, limma
和lumi
進(jìn)行分析锻弓。1.2 質(zhì)量控制(Quality Control)
在Expression Atlas中,使用ArrayQualityMEtrics
R包進(jìn)行蝌箍。只要關(guān)注芯片信號強度青灼,PCA聚類和密度估計等信息。
1.3 標(biāo)準(zhǔn)化(Standardization)
芯片的標(biāo)準(zhǔn)化主要用于控制技術(shù)差異十绑,同時保留生物學(xué)差異聚至。
標(biāo)準(zhǔn)化的流程是基于:
實驗組中大多數(shù)基因相對于對照組不會差異表達(dá)
常見的標(biāo)準(zhǔn)化方法:
- Expression Atlas(Affymetrix)→
oligo::rma()
-
Agilent單色芯片:
limma::normalizeQuantiles()
1.4 差異分析
差異分析是為了鑒定不同條件下表達(dá)不同的基因酷勺,此時應(yīng)進(jìn)行多次測試的校正本橙。(因為對少量樣品進(jìn)行數(shù)千次比較時,會導(dǎo)致假陽性的增加)
常見的是應(yīng)用limm包進(jìn)行差異分析
options(digits = 4) #保留4位下數(shù)
library(limma)
group_list <- c(rep("normal",101), rep("tumor",101))
group_list <- factor(group_list, levels=c("nromal", "tumor")
design <- model.matrix(~factor(group_list)) #分組信息
fit <- lmFit(data,design)
fit <- eBayes(fit)
deg <- topTable(fit,coef = 2,adjust="BH",number = Inf) %>%
arrange(logFC) %>%
rownames_to_column("id")
2. RNA-seq
RNA測序是高通量測序技術(shù)對cDNA分子的應(yīng)用脆诉,通過從RNA反轉(zhuǎn)錄獲得甚亭。
2.1 建庫(library)
cDNA文庫的構(gòu)建取決于所用RNA的類型,使用總RNA可以檢測ncRNA和mRNA击胜,但是可能進(jìn)行相應(yīng)處理(如消耗核糖體RNA)以檢測低豐度的轉(zhuǎn)錄本亏狰。PolyA+ RNA富集適合真核生物的mRNA純化。
另一個考慮因素是是否生成保留原始RNA轉(zhuǎn)錄方向的鏈特異性文庫偶摔,這對于鑒定翻譯或非編碼RNA非常重要暇唾。
2.2 測序(sequencing)
從擴增的文庫中獲得核酸序列,以高通量的方式對每個分子進(jìn)行測序,從一端(單端測序)或兩端(成對端測序)獲得數(shù)百萬個短讀序列+相關(guān)的質(zhì)量評分(如FASTQ文件)策州。這個通常由核心機構(gòu)或外部公司完成瘸味。
2.3 質(zhì)量控制
- 去接頭
- 去除低質(zhì)量reads
- uncalled bases
- 過濾污染物(不是源生物產(chǎn)生的序列)。重要的是要檢查所有樣本的序列質(zhì)量是否相近够挂,并丟棄異常值旁仿。
常用軟件: - FastQC:質(zhì)量評估
- Trimmomatic:去除PCR引物,銜接子序列孽糖,修剪得分較低的堿基和低質(zhì)量的N堿基枯冈。
2.4 比對和排序
2.5 Quantification
用GTF(gene transfer format)作為參照,獲取RPKM/FPKM/HTSea-count文件办悟。
2.5 差異分析
常用DESeq2尘奏、edgeR差異分析。
參考鏈接:
Functional genomics II Common technologies and data analysis methods