生物信息學流程:mRNA Analysis Pipeline

Introduction 介紹

GDC mRNA定量分析管道測量 HT-Seq 原始reads統(tǒng)計中的基因表達水平,F(xiàn)ragments per Kilobase of transcript per Million mapped reads(FPKM)和FPKM-UQ(上四分位標準化)吉挣。 首先將reads與GRCh38 reference genome 參考基因組比對嵌莉,然后通過量化映射的reads產(chǎn)生這些值而叼。 為了促進樣品間歸一化塔粒,所有RNA-Seq讀數(shù)在分析過程中都被視為unstranded的狀態(tài).

Data Processing Steps 數(shù)據(jù)處理步驟

RNA-Seq 比對流程

Alignment Workflow 開始比對的流程, 該流程使用 STAR 中重復比對方法執(zhí)行. STAR 分別比對每個 read group 然后將得到的比對文件合并為一個。按照國際癌癥基因組協(xié)會 ICGC ( github) 使用的方法, the two-pass method 包含剪接點檢測步驟擦盾,其用于產(chǎn)生最終比對。 此工作流程輸出基因組BAM文件淌哟,其中包含比對和未比對的reads迹卢。 質(zhì)量評估在比對前用 FASTQC 進行,并在比對后用 Picard Tools 進行徒仓。.

除了上面詳述的基因組比對之外腐碱,在數(shù)據(jù)發(fā)布之后處理的文件具有相關的轉錄組和嵌合比對。這僅用于至少有1組paired-end reads的等份樣品. 嵌合的BAM文件包含mapping到不同染色體或鏈的reads(融合比對)掉弛。 基因組比對文件包含嵌合和未對齊的reads症见,以便于檢索所有原始reads。 轉錄組比對報告使用轉錄物坐標而不是基因組坐標比對reads殃饿。轉錄組比對隊列也被不同地排序以促進下游分析谋作。 這種排序方法不允許在這些排列上進行BAM切片,故不支持BAM索引文件配對乎芳。 這些對齊的拼接頭文件也可用遵蚜。

I/O Entity Format
Input Submitted Unaligned Reads or Submitted Aligned Reads FASTQ or BAM
Output Aligned Reads BAM

RNA-Seq Alignment 命令行參數(shù)

請注意,由于正在進行管道開發(fā)和改進奈惑,從GDC門戶下載的文件中的版本號可能會有所不同吭净。

# STAR-2.4.2a

### For users with access to the ICGC pipeline:

python star_align.py \
--genomeDir <star_index_path> \
--FastqFileIn <input_fastq_path> \
--workDir <work_dir> \
--out <output_bam> \
--genomeFastaFiles <reference> \
--runThreadN 8 \
--outFilterMultimapScoreRange 1 \
--outFilterMultimapNmax 20 \
--outFilterMismatchNmax 10 \
--alignIntronMax 500000 \
--alignMatesGapMax 1000000 \
--sjdbScore 2 \
--limitBAMsortRAM 0 \
--alignSJDBoverhangMin 1 \
--genomeLoad NoSharedMemory \
--outFilterMatchNminOverLread 0.33 \
--outFilterScoreMinOverLread 0.33 \
--twopass1readsN -1 \
--sjdbOverhang 100 \
--outSAMstrandField intronMotif \
--outSAMunmapped Within

### For users without access to the ICGC pipeline:

### Step 1: Building the STAR index.*

STAR
--runMode genomeGenerate
--genomeDir <star_index_path>
--genomeFastaFiles <reference>
--sjdbOverhang 100
--sjdbGTFfile <gencode.v22.annotation.gtf>
--runThreadN 8

### Step 2: Alignment 1st Pass.

STAR
--genomeDir <star_index_path>
--readFilesIn <fastq_left_1>,<fastq_left2>,... <fastq_right_1>,<fastq_right_2>,...
--runThreadN <runThreadN>
--outFilterMultimapScoreRange 1
--outFilterMultimapNmax 20
--outFilterMismatchNmax 10
--alignIntronMax 500000
--alignMatesGapMax 1000000
--sjdbScore 2
--alignSJDBoverhangMin 1
--genomeLoad NoSharedMemory
--readFilesCommand <bzcat|cat|zcat>
--outFilterMatchNminOverLread 0.33
--outFilterScoreMinOverLread 0.33
--sjdbOverhang 100
--outSAMstrandField intronMotif
--outSAMtype None
--outSAMmode None

### Step 3: Intermediate Index Generation.

STAR
--runMode genomeGenerate
--genomeDir <output_path>
--genomeFastaFiles <reference>
--sjdbOverhang 100
--runThreadN <runThreadN>
--sjdbFileChrStartEnd <SJ.out.tab from previous step>

### Step 4: Alignment 2nd Pass.

STAR
--genomeDir <output_path from previous step>
--readFilesIn <fastq_left_1>,<fastq_left2>,... <fastq_right_1>,<fastq_right_2>,...
--runThreadN <runThreadN>
--outFilterMultimapScoreRange 1
--outFilterMultimapNmax 20
--outFilterMismatchNmax 10
--alignIntronMax 500000
--alignMatesGapMax 1000000
--sjdbScore 2
--alignSJDBoverhangMin 1
--genomeLoad NoSharedMemory
--limitBAMsortRAM 0
--readFilesCommand <bzcat|cat|zcat>
--outFilterMatchNminOverLread 0.33
--outFilterScoreMinOverLread 0.33
--sjdbOverhang 100
--outSAMstrandField intronMotif
--outSAMattributes NH HI NM MD AS XS
--outSAMunmapped Within
--outSAMtype BAM SortedByCoordinate
--outSAMheaderHD @HD VN:1.4
--outSAMattrRGline <formatted RG line provided by wrapper>

*這些索引可在 GDC Website 上下載,無需再次構建肴甸。

mRNA 表達量處理流程

比對后寂殉,通過 RNA Expression Workflow 處理BAM文件以確定RNA表達水平。

映射到每個基因的讀數(shù)使用HT-Seq-Count計數(shù)原在。表達式值以制表符分隔的格式提供友扰。 GENCODE v22 用于基因注釋彤叉。

在Data Release 14之后處理的文件具有STAR在對齊步驟期間生成的額外讀取計數(shù)集。

I/O Entity Format
Input Aligned Reads BAM
Output Gene Expression TXT

mRNA Quantification 命令行參數(shù)

HTSeq-0.6.1p1

htseq-count \
-m intersection-nonempty \
-i gene_id \
-r pos \
-s no \
- gencode.v22.annotation.gtf

mRNA Expression HT-Seq Normalization 表達標準化

由HT-Seq產(chǎn)生的RNA-Seq表達水平reads計數(shù)使用兩種類似的方法標準化:FPKM和FPKM-UQ村怪。標準化值應僅在整個基因集的上下文中使用姆坚。如果研究了一組基因,鼓勵用戶將原始reads計數(shù)值標準化实愚。

FPKM

The Fragments per Kilobase of transcript per Million mapped reads (FPKM) 計算通過將讀數(shù)除以基因長度和映射到蛋白質(zhì)編碼基因的讀數(shù)總數(shù)來標準化讀數(shù)。

Upper Quartile FPKM

The upper quartile FPKM (FPKM-UQ) 是一種修改的FPKM計算兔辅,其中總蛋白質(zhì)編碼讀數(shù)計數(shù)被樣品的第75百分位讀數(shù)計數(shù)值代替腊敲。

Calculations

  • RCg: 映射到Gene的reads數(shù)
  • RCpc: 映射到所有蛋白質(zhì)編碼基因的reads數(shù)
  • RCg75: 本中基因的第75百分位reads計數(shù)值
  • L: Length of the gene in base pairs; 計算為基因中所有外顯子的總和

Note: 在歸一化時,reads計數(shù)乘以標量(109) 以考慮千堿基和'百萬映射讀數(shù)'單位

Examples 樣品

Sample 1: Gene A

  • Gene length: 3,000 bp
  • 1,000 reads mapped to Gene A
  • 1,000,000 reads mapped to all protein-coding regions
  • Read count in Sample 1 for 75th percentile gene: 2,000

FPKM for Gene A = (1,000)(10^9)/[(3,000)(1,000,000)] = 333.33

FPKM-UQ for Gene A = (1,000)(10^9)/[(3,000)(2,000)] = 166,666.67

File Access and Availability 文件訪問和可用性

為了便于在用戶創(chuàng)建的管道中使用協(xié)調(diào)數(shù)據(jù)维苔,可以在GDC數(shù)據(jù)門戶中的幾個中間步驟中訪問RNA-Seq基因表達碰辅。以下是可在GDC Data Portal中下載的每種文件類型的說明。

Type Description Format
RNA-Seq Alignment 已經(jīng)與GRCh38構建一致的RNA-Seq reads介时。包括未比對上的reads以促進原始讀取集的可用性 BAM
HT-Seq Read Counts 通過HT-Seq計算的與每個基因比對的reads數(shù)目 TXT
STAR Read Counts STAR計算的比對到每個基因的reads數(shù) TSV
FPKM 標準化的表達值没宾,其考慮每個基因長度和映射到所有蛋白質(zhì)編碼基因的reads的數(shù)量 TXT
FPKM-UQ FPKM公式的修改版本,其中第75百分位reads計數(shù)用作分母代替蛋白質(zhì)編碼的總reads數(shù) TXT

Pipling source:GDC

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末沸柔,一起剝皮案震驚了整個濱河市循衰,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌褐澎,老刑警劉巖会钝,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異工三,居然都是意外死亡迁酸,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進店門俭正,熙熙樓的掌柜王于貴愁眉苦臉地迎上來奸鬓,“玉大人,你說我怎么就攤上這事掸读〈叮” “怎么了?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵寺枉,是天一觀的道長抑淫。 經(jīng)常有香客問我,道長姥闪,這世上最難降的妖魔是什么始苇? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮筐喳,結果婚禮上催式,老公的妹妹穿的比我還像新娘函喉。我一直安慰自己,他們只是感情好荣月,可當我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布管呵。 她就那樣靜靜地躺著,像睡著了一般哺窄。 火紅的嫁衣襯著肌膚如雪捐下。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天萌业,我揣著相機與錄音坷襟,去河邊找鬼。 笑死生年,一個胖子當著我的面吹牛婴程,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播抱婉,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼档叔,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了蒸绩?” 一聲冷哼從身側響起衙四,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎患亿,沒想到半個月后届搁,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡窍育,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年卡睦,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片漱抓。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡表锻,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出乞娄,到底是詐尸還是另有隱情瞬逊,我是刑警寧澤,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布仪或,位于F島的核電站确镊,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏范删。R本人自食惡果不足惜蕾域,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧旨巷,春花似錦巨缘、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至斧吐,卻和暖如春又固,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背煤率。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工口予, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人涕侈。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像煤辨,于是被迫代替她去往敵國和親裳涛。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內(nèi)容