轉(zhuǎn)錄組數(shù)據(jù)分析RNA-seq

RNA-seq

轉(zhuǎn)錄組

轉(zhuǎn)錄組學(xué)(transcriptomics)的研究對象是全基因組尺度下所有轉(zhuǎn)錄本(transcript)毅糟,即轉(zhuǎn)錄組(transcriptome)

轉(zhuǎn)錄本測定研究

基于雜交的基因芯片技術(shù)

將熒光標(biāo)記的cDNA制成微陣列探針來測定樣本中特定轉(zhuǎn)錄本含量。又稱為 基因芯片(Gene Chip)、微陣列(Microarry)。

獲取表達(dá)量的步驟:
提取RNA -> 反轉(zhuǎn)錄 (->擴(kuò)增)->標(biāo)記->雜交->掃描->獲得原始數(shù)據(jù)
局限性:
? 只能檢測已知或串前;確定性的序列
? 無法檢測新發(fā)現(xiàn)的熊杨,未放置到芯片上的基因
? 有部分探針的信號可能會收到非特異性雜交或個體序列差異的影響

基于NGS的RNA-seq

基于高通量二代測序技術(shù)的轉(zhuǎn)錄組學(xué)研究方法费韭。
特點(diǎn):
高通量、低成本涯贞;不依賴已知轉(zhuǎn)錄本探針枪狂,可以測全轉(zhuǎn)錄組;對于低表達(dá)豐度的轉(zhuǎn)錄本靈敏
度高宋渔;以reads數(shù)量腐酸表達(dá)州疾,比芯片的熒光信號更為精確。
應(yīng)用和最新進(jìn)展

  • 差異表達(dá)分析
  • 可變剪接
  • 共表達(dá)網(wǎng)絡(luò)
  • 轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)
  • 根據(jù)文庫構(gòu)建方法帶來的變種
    ? ssRNA-seq
    ? small RNA-seq
    ? ribo-zero-ssRNA-seq
    ? circ-RNA-seq

RNA-seq 試驗(yàn)設(shè)計(jì)

  1. 生物學(xué)重復(fù)
    生物學(xué)重復(fù)用于排除隨機(jī)誤差皇拣,通常3~5個严蓖,不同性質(zhì)的樣本可能需求重復(fù)量不同
  2. 樣本提取
    液氮或轉(zhuǎn)錄阻斷劑瞬時猝滅,低溫保存氧急,長時間保存可能會降解
  3. 文庫構(gòu)建
    非鏈特異性文庫 RNA-seq:無法區(qū)分打碎的片段轉(zhuǎn)錄自正義鏈還是反義鏈颗胡;
    鏈特異性文庫 ssRNA-seq:建庫時保留了轉(zhuǎn)錄本方向信息》园樱基因表達(dá)定位更準(zhǔn)確毒姨,可變剪切、雙向轉(zhuǎn)錄等钾恢。
  4. 測序策略
    單端測序 single-end:通常用于特殊測序手素,如small RNAseq;
    雙端測序 pair-end:有利于基因注釋瘩蚪、轉(zhuǎn)錄本異構(gòu)體鑒定泉懦。
  5. 測序深度
    ENCODE推薦不進(jìn)行可變剪接時,僅計(jì)算表達(dá)量最少 5M 有效 reads疹瘦,如果需要鑒定新轉(zhuǎn)錄本崩哩、檢測低表達(dá)基因、檢測可變剪接等言沐,需要適當(dāng)增加測序深度邓嘹。普通雙端150bp測序平臺有參轉(zhuǎn)錄組測序通常 6Gb數(shù)據(jù),特殊文庫需要數(shù)據(jù)倍增险胰。
  6. 測序平臺

RNA-seq 文庫制備

  1. 總RNA提取
    將 RNA 從特定組織中分離并于脫氧核糖核酸酶混合汹押,降解樣本中的DNA,然后用凝膠和毛細(xì)管電泳檢測 RNA 降解量起便,評估 RNA 樣本質(zhì)量棚贾。

依據(jù)文庫要求檢查完整性分值窖维,如果不合格將不適合建庫測序。一些特殊文庫對RNA提取要求很高妙痹,如全長轉(zhuǎn)錄組文庫铸史,需要特殊提取流
程保證RNA 完整性。

  1. RNA分離純化
    ? poly A 富集(RNA-seq 常用策略)
    ? rRNA 移除(rRNA占細(xì)胞中總RNA的比例超過90%)
    ? small RNA 富集
    ? circRNA 富集
    ? 其他等

  2. 樣本打斷
    打斷方法:酶切怯伊、超聲波處理琳轿、噴霧器

  3. cDNA合成
    是否用標(biāo)記保留鏈特異信息?

  4. 上機(jī)測序

轉(zhuǎn)錄組核心數(shù)據(jù)分析

數(shù)據(jù)獲取

需要的數(shù)據(jù):參考基因組數(shù)據(jù)fasta耿芹、GFF注釋信息崭篡、雙端測序的fastq文件
我這里用的是普通栽培稻(Oryza sativa L.)的參考基因組和、GFF文件和SRR17439319數(shù)據(jù)猩系。
參考步驟:https://blog.csdn.net/sunchengquan/article/details/79781366
注意:配置時媚送,需要在bin目錄下執(zhí)行./vdb-config --interactive,然后彈出一大堆亂七八糟的之后寇甸,按X退出即可塘偎。再執(zhí)行./fastq-dump,若沒有報錯拿霉,而是幫助信息的話即可以使用吟秩。

測序數(shù)據(jù)質(zhì)量控制

測序數(shù)據(jù)分析前需要經(jīng)過數(shù)據(jù)預(yù)處理,并檢查數(shù)據(jù)GC含量绽淘、序列重復(fù)成俗涵防、是否存在接頭等。

  1. 質(zhì)量評估:
    使用 FastQC 檢測原始數(shù)據(jù)質(zhì)量
fastqc –o fastqc_results –f fastq test_1.fastq test_2.fastq b_1.fastq b_2.fastq
  1. 質(zhì)量控制
    使用 Trimmomatic 去除低質(zhì)量reads沪铭。
    Trimmomatic 詳細(xì)說明參考:http://www.reibang.com/p/a8935adebaae
    FastQC和Trimmomatic的安裝及使用參考:http://www.reibang.com/p/bc3ad9379e3e?utm_campaign=hugo&utm_content=note&utm_medium=seo_notes&utm_source=recommendation
    用法:
java -jar /Path/To/trimmomatic.jar PE -threads 2 -phred33 \
test_1.fq.gz test_2.fq.gz \
test_1.trimed.fq.gz test_1.un.fq.gz test_2.trimed.fq.gz test_2.un.fq.gz \
ILLUMINACLIP:/path/to/Trimmomatic/adapters/TruSeq3-PE-2.fa:2:30:10 
LEADING:3 TRAILING:3 SLIDINGWINDOW:4:20 MINLEN:76

在質(zhì)控后壮池,再質(zhì)檢一次,對比看看有什么不同杀怠。

reads比對

將 reads 匹配到參考基因組或轉(zhuǎn)錄組的相應(yīng)位置上
? 非剪接比對:轉(zhuǎn)錄組
Bowtie椰憋、BWA
? 剪接比對:參考基因組
STAR、HISAT赔退、Topha
對鑒定SNP做了優(yōu)化: GSNAP橙依、MapSplice等

HISAT2比對流程

① 建立基因組索引

extract_splice_sites.py tair10.gtf > genome.ss # 把剪切位點(diǎn)提取出來
extract_exons.py genome.gtf > genome.exon # 把exon提取出來
hisat2-build --ss genome.ss --exon genome.exon genome.fasta genome # 最后的genome是輸出文件的前綴

②利用注釋文件比對

hisat2 -p 4 --known-splicesite-infile genome.ss --dta -x tair10 -1 test_1.trimed.fq.gz -2 test_2.trimed.fq.gz -S test.sam 
## -p 線程數(shù) 
## --known-splicesite-infile 輸入剪切位點(diǎn)文件
## --dat 轉(zhuǎn)錄本拼接
##-x index 庫文件前綴CDS 和 exon 前 . 
## -1 -2 雙端測序 fastq的名字, 如是單端測試 –U 
## -S 輸出文件硕旗,是比對的 SAM 文件

沒有注釋文件的比對方法

hisat2 -p 18 --dta -x ~/genome/rice -1 /path/to/Rice_1.fq.gz -2 /path/to/Rice_.fq.gz -S rice.sam

③ SAM 文件處理
使用 samtools 對 SAM 文件排序并轉(zhuǎn)化為 BAM 文件窗骑。samtools是一個用于操作sam和bam文件的工具合集,包含有許多命令漆枚。

samtools view -bS SRAxxx.sam > SRAxxx.bam  # 查看bam文件內(nèi)容
samtools sort -@ 2 -o SRAxxx.sort.bam SRAxxx.bam  # 按比對位置排序+格式轉(zhuǎn)換
samtools index rice.bam  # 建立bam文件索引
samtools merge -@ 4 -h SRR1582649.bam merged.bam SRRxxx1.bam SRRxxx2.bam SRRxxx3.bam # 把生成的bam文件合并為一個文件创译。因?yàn)槊總€文件的sam文件表頭都一樣,所以用-h指定某一個文件的表頭作為總文件的表頭墙基。

## -@ 額外線程數(shù)
## -m 每個線程最大占用內(nèi)存软族,單位 K/M/G辛藻,根據(jù)實(shí)際情況調(diào)整。
## -o 輸出文件

④比對結(jié)果可視化
比對結(jié)果使用 IGV 互订、Genome Maps 和Sacant 等可視化查看。
例如:IGV 通過讀入基因組和注釋信息以及BAM 文件展示比對結(jié)果痘拆。
需要額外添加 BMA 的索引:samtools index test_sorted.bam test_sorted.bai

⑤比對結(jié)果評估
比對結(jié)果評估工具:RSeQC仰禽、Qualimap

  • Reads 匹配百分比評估預(yù)測精度和DNA污染程度或參考基因組的選擇是否適合;
  • Reads 隨機(jī)性分布 評估reads打斷的隨機(jī)程度纺蛆;
  • 匹配Reads的GC含量吐葵,與PCR偏差有關(guān)。
    RSeQC的下載:pip install RSeQC
    使用:bam_stat.py -i test.bam > test.bam.stat

基于NGS的轉(zhuǎn)錄本定量---StringTie

  1. reads 計(jì)算策略
    ① 只選唯一匹配 reads:用于估計(jì)基因水平的 reads 匹配數(shù)桥氏,常用工具如
    HTSeq-count温峭、featureCounts;
    ② 保留多重匹配的 reads:利用統(tǒng)計(jì)算法將多重比對reads定位到對于的轉(zhuǎn)錄本異構(gòu)體上字支,如 Cufflinks凤藏、StringTie、RSEM等

計(jì)算FPKM

stringtie -p 10 -G test.gtf -e -A test.exp -o test.out test.sorted.bam

-p 線程數(shù)
-G 參考基因組注釋
-e 只估計(jì)已給參考基因組注釋的基因豐度
-A 基因豐度估計(jì)輸出文件
-o 輸出文件

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末堕伪,一起剝皮案震驚了整個濱河市揖庄,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌欠雌,老刑警劉巖蹄梢,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異富俄,居然都是意外死亡禁炒,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進(jìn)店門霍比,熙熙樓的掌柜王于貴愁眉苦臉地迎上來幕袱,“玉大人,你說我怎么就攤上這事桂塞“挤洌” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵阁危,是天一觀的道長玛痊。 經(jīng)常有香客問我,道長狂打,這世上最難降的妖魔是什么擂煞? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮趴乡,結(jié)果婚禮上对省,老公的妹妹穿的比我還像新娘蝗拿。我一直安慰自己,他們只是感情好蒿涎,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布哀托。 她就那樣靜靜地躺著,像睡著了一般劳秋。 火紅的嫁衣襯著肌膚如雪仓手。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天玻淑,我揣著相機(jī)與錄音嗽冒,去河邊找鬼。 笑死补履,一個胖子當(dāng)著我的面吹牛添坊,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播箫锤,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼贬蛙,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了谚攒?” 一聲冷哼從身側(cè)響起速客,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎五鲫,沒想到半個月后溺职,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡位喂,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年浪耘,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片塑崖。...
    茶點(diǎn)故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡七冲,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出规婆,到底是詐尸還是另有隱情澜躺,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布抒蚜,位于F島的核電站掘鄙,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏嗡髓。R本人自食惡果不足惜操漠,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望饿这。 院中可真熱鬧浊伙,春花似錦撞秋、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至哑子,卻和暖如春廓八,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背赵抢。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留声功,地道東北人烦却。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像先巴,于是被迫代替她去往敵國和親其爵。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容