RNA-seq
轉(zhuǎn)錄組
轉(zhuǎn)錄組學(xué)(transcriptomics)的研究對象是全基因組尺度下所有轉(zhuǎn)錄本(transcript)毅糟,即轉(zhuǎn)錄組(transcriptome)
轉(zhuǎn)錄本測定研究
基于雜交的基因芯片技術(shù)
將熒光標(biāo)記的cDNA制成微陣列探針來測定樣本中特定轉(zhuǎn)錄本含量。又稱為 基因芯片(Gene Chip)、微陣列(Microarry)。
獲取表達(dá)量的步驟:
提取RNA -> 反轉(zhuǎn)錄 (->擴(kuò)增)->標(biāo)記->雜交->掃描->獲得原始數(shù)據(jù)
局限性:
? 只能檢測已知或串前;確定性的序列
? 無法檢測新發(fā)現(xiàn)的熊杨,未放置到芯片上的基因
? 有部分探針的信號可能會收到非特異性雜交或個體序列差異的影響
基于NGS的RNA-seq
基于高通量二代測序技術(shù)的轉(zhuǎn)錄組學(xué)研究方法费韭。
特點(diǎn):
高通量、低成本涯贞;不依賴已知轉(zhuǎn)錄本探針枪狂,可以測全轉(zhuǎn)錄組;對于低表達(dá)豐度的轉(zhuǎn)錄本靈敏
度高宋渔;以reads數(shù)量腐酸表達(dá)州疾,比芯片的熒光信號更為精確。
應(yīng)用和最新進(jìn)展
- 差異表達(dá)分析
- 可變剪接
- 共表達(dá)網(wǎng)絡(luò)
- 轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)
- 根據(jù)文庫構(gòu)建方法帶來的變種
? ssRNA-seq
? small RNA-seq
? ribo-zero-ssRNA-seq
? circ-RNA-seq
RNA-seq 試驗(yàn)設(shè)計(jì)
- 生物學(xué)重復(fù)
生物學(xué)重復(fù)用于排除隨機(jī)誤差皇拣,通常3~5個严蓖,不同性質(zhì)的樣本可能需求重復(fù)量不同 - 樣本提取
液氮或轉(zhuǎn)錄阻斷劑瞬時猝滅,低溫保存氧急,長時間保存可能會降解 - 文庫構(gòu)建
非鏈特異性文庫 RNA-seq:無法區(qū)分打碎的片段轉(zhuǎn)錄自正義鏈還是反義鏈颗胡;
鏈特異性文庫 ssRNA-seq:建庫時保留了轉(zhuǎn)錄本方向信息》园樱基因表達(dá)定位更準(zhǔn)確毒姨,可變剪切、雙向轉(zhuǎn)錄等钾恢。 - 測序策略
單端測序 single-end:通常用于特殊測序手素,如small RNAseq;
雙端測序 pair-end:有利于基因注釋瘩蚪、轉(zhuǎn)錄本異構(gòu)體鑒定泉懦。 - 測序深度
ENCODE推薦不進(jìn)行可變剪接時,僅計(jì)算表達(dá)量最少 5M 有效 reads疹瘦,如果需要鑒定新轉(zhuǎn)錄本崩哩、檢測低表達(dá)基因、檢測可變剪接等言沐,需要適當(dāng)增加測序深度邓嘹。普通雙端150bp測序平臺有參轉(zhuǎn)錄組測序通常 6Gb數(shù)據(jù),特殊文庫需要數(shù)據(jù)倍增险胰。 - 測序平臺
RNA-seq 文庫制備
- 總RNA提取
將 RNA 從特定組織中分離并于脫氧核糖核酸酶混合汹押,降解樣本中的DNA,然后用凝膠和毛細(xì)管電泳檢測 RNA 降解量起便,評估 RNA 樣本質(zhì)量棚贾。
依據(jù)文庫要求檢查完整性分值窖维,如果不合格將不適合建庫測序。一些特殊文庫對RNA提取要求很高妙痹,如全長轉(zhuǎn)錄組文庫铸史,需要特殊提取流
程保證RNA 完整性。
RNA分離純化
? poly A 富集(RNA-seq 常用策略)
? rRNA 移除(rRNA占細(xì)胞中總RNA的比例超過90%)
? small RNA 富集
? circRNA 富集
? 其他等樣本打斷
打斷方法:酶切怯伊、超聲波處理琳轿、噴霧器cDNA合成
是否用標(biāo)記保留鏈特異信息?上機(jī)測序
轉(zhuǎn)錄組核心數(shù)據(jù)分析
數(shù)據(jù)獲取
需要的數(shù)據(jù):參考基因組數(shù)據(jù)fasta耿芹、GFF注釋信息崭篡、雙端測序的fastq文件
我這里用的是普通栽培稻(Oryza sativa L.)的參考基因組和、GFF文件和SRR17439319數(shù)據(jù)猩系。
參考步驟:https://blog.csdn.net/sunchengquan/article/details/79781366
注意:配置時媚送,需要在bin目錄下執(zhí)行./vdb-config --interactive
,然后彈出一大堆亂七八糟的之后寇甸,按X退出即可塘偎。再執(zhí)行./fastq-dump,若沒有報錯拿霉,而是幫助信息的話即可以使用吟秩。
測序數(shù)據(jù)質(zhì)量控制
測序數(shù)據(jù)分析前需要經(jīng)過數(shù)據(jù)預(yù)處理,并檢查數(shù)據(jù)GC含量绽淘、序列重復(fù)成俗涵防、是否存在接頭等。
- 質(zhì)量評估:
使用 FastQC 檢測原始數(shù)據(jù)質(zhì)量
fastqc –o fastqc_results –f fastq test_1.fastq test_2.fastq b_1.fastq b_2.fastq
- 質(zhì)量控制
使用 Trimmomatic 去除低質(zhì)量reads沪铭。
Trimmomatic 詳細(xì)說明參考:http://www.reibang.com/p/a8935adebaae
FastQC和Trimmomatic的安裝及使用參考:http://www.reibang.com/p/bc3ad9379e3e?utm_campaign=hugo&utm_content=note&utm_medium=seo_notes&utm_source=recommendation
用法:
java -jar /Path/To/trimmomatic.jar PE -threads 2 -phred33 \
test_1.fq.gz test_2.fq.gz \
test_1.trimed.fq.gz test_1.un.fq.gz test_2.trimed.fq.gz test_2.un.fq.gz \
ILLUMINACLIP:/path/to/Trimmomatic/adapters/TruSeq3-PE-2.fa:2:30:10
LEADING:3 TRAILING:3 SLIDINGWINDOW:4:20 MINLEN:76
在質(zhì)控后壮池,再質(zhì)檢一次,對比看看有什么不同杀怠。
reads比對
將 reads 匹配到參考基因組或轉(zhuǎn)錄組的相應(yīng)位置上
? 非剪接比對:轉(zhuǎn)錄組
Bowtie椰憋、BWA
? 剪接比對:參考基因組
STAR、HISAT赔退、Topha
對鑒定SNP做了優(yōu)化: GSNAP橙依、MapSplice等
HISAT2比對流程
① 建立基因組索引
extract_splice_sites.py tair10.gtf > genome.ss # 把剪切位點(diǎn)提取出來
extract_exons.py genome.gtf > genome.exon # 把exon提取出來
hisat2-build --ss genome.ss --exon genome.exon genome.fasta genome # 最后的genome是輸出文件的前綴
②利用注釋文件比對
hisat2 -p 4 --known-splicesite-infile genome.ss --dta -x tair10 -1 test_1.trimed.fq.gz -2 test_2.trimed.fq.gz -S test.sam
## -p 線程數(shù)
## --known-splicesite-infile 輸入剪切位點(diǎn)文件
## --dat 轉(zhuǎn)錄本拼接
##-x index 庫文件前綴CDS 和 exon 前 .
## -1 -2 雙端測序 fastq的名字, 如是單端測試 –U
## -S 輸出文件硕旗,是比對的 SAM 文件
沒有注釋文件的比對方法
hisat2 -p 18 --dta -x ~/genome/rice -1 /path/to/Rice_1.fq.gz -2 /path/to/Rice_.fq.gz -S rice.sam
③ SAM 文件處理
使用 samtools 對 SAM 文件排序并轉(zhuǎn)化為 BAM 文件窗骑。samtools是一個用于操作sam和bam文件的工具合集,包含有許多命令漆枚。
samtools view -bS SRAxxx.sam > SRAxxx.bam # 查看bam文件內(nèi)容
samtools sort -@ 2 -o SRAxxx.sort.bam SRAxxx.bam # 按比對位置排序+格式轉(zhuǎn)換
samtools index rice.bam # 建立bam文件索引
samtools merge -@ 4 -h SRR1582649.bam merged.bam SRRxxx1.bam SRRxxx2.bam SRRxxx3.bam # 把生成的bam文件合并為一個文件创译。因?yàn)槊總€文件的sam文件表頭都一樣,所以用-h指定某一個文件的表頭作為總文件的表頭墙基。
## -@ 額外線程數(shù)
## -m 每個線程最大占用內(nèi)存软族,單位 K/M/G辛藻,根據(jù)實(shí)際情況調(diào)整。
## -o 輸出文件
④比對結(jié)果可視化
比對結(jié)果使用 IGV 互订、Genome Maps 和Sacant 等可視化查看。
例如:IGV 通過讀入基因組和注釋信息以及BAM 文件展示比對結(jié)果痘拆。
需要額外添加 BMA 的索引:samtools index test_sorted.bam test_sorted.bai
⑤比對結(jié)果評估
比對結(jié)果評估工具:RSeQC仰禽、Qualimap
- Reads 匹配百分比評估預(yù)測精度和DNA污染程度或參考基因組的選擇是否適合;
- Reads 隨機(jī)性分布 評估reads打斷的隨機(jī)程度纺蛆;
- 匹配Reads的GC含量吐葵,與PCR偏差有關(guān)。
RSeQC的下載:pip install RSeQC
使用:bam_stat.py -i test.bam > test.bam.stat
基于NGS的轉(zhuǎn)錄本定量---StringTie
- reads 計(jì)算策略
① 只選唯一匹配 reads:用于估計(jì)基因水平的 reads 匹配數(shù)桥氏,常用工具如
HTSeq-count温峭、featureCounts;
② 保留多重匹配的 reads:利用統(tǒng)計(jì)算法將多重比對reads定位到對于的轉(zhuǎn)錄本異構(gòu)體上字支,如 Cufflinks凤藏、StringTie、RSEM等
計(jì)算FPKM
stringtie -p 10 -G test.gtf -e -A test.exp -o test.out test.sorted.bam
-p 線程數(shù)
-G 參考基因組注釋
-e 只估計(jì)已給參考基因組注釋的基因豐度
-A 基因豐度估計(jì)輸出文件
-o 輸出文件