生物信息學流程：mRNA Analysis Pipeline

Introduction 介紹

GDC mRNA定量分析管道測量 HT-Seq 原始reads統(tǒng)計中的基因表達水平，F(xiàn)ragments per Kilobase of transcript per Million mapped reads（FPKM）和FPKM-UQ（上四分位標準化）吉挣。首先將reads與GRCh38 reference genome 參考基因組比對嵌莉，然后通過量化映射的reads產(chǎn)生這些值而叼。為了促進樣品間歸一化塔粒，所有RNA-Seq讀數(shù)在分析過程中都被視為unstranded的狀態(tài).

Data Processing Steps 數(shù)據(jù)處理步驟

RNA-Seq 比對流程

以 Alignment Workflow 開始比對的流程, 該流程使用 STAR 中重復比對方法執(zhí)行. STAR 分別比對每個 read group 然后將得到的比對文件合并為一個。按照國際癌癥基因組協(xié)會 ICGC ( github) 使用的方法, the two-pass method 包含剪接點檢測步驟擦盾，其用于產(chǎn)生最終比對。此工作流程輸出基因組BAM文件淌哟，其中包含比對和未比對的reads迹卢。質(zhì)量評估在比對前用 FASTQC 進行，并在比對后用 Picard Tools 進行徒仓。.

除了上面詳述的基因組比對之外腐碱，在數(shù)據(jù)發(fā)布之后處理的文件具有相關的轉錄組和嵌合比對。這僅用于至少有1組paired-end reads的等份樣品. 嵌合的BAM文件包含mapping到不同染色體或鏈的reads（融合比對）掉弛。基因組比對文件包含嵌合和未對齊的reads症见，以便于檢索所有原始reads。轉錄組比對報告使用轉錄物坐標而不是基因組坐標比對reads殃饿。轉錄組比對隊列也被不同地排序以促進下游分析谋作。這種排序方法不允許在這些排列上進行BAM切片，故不支持BAM索引文件配對乎芳。這些對齊的拼接頭文件也可用遵蚜。

RNA Alignment Pipeline

I/O	Entity	Format
Input	Submitted Unaligned Reads or Submitted Aligned Reads	FASTQ or BAM
Output	Aligned Reads	BAM

RNA-Seq Alignment 命令行參數(shù)

請注意，由于正在進行管道開發(fā)和改進奈惑，從GDC門戶下載的文件中的版本號可能會有所不同吭净。

Original
Dr15plus

# STAR-2.4.2a

### For users with access to the ICGC pipeline:

python star_align.py \
--genomeDir <star_index_path> \
--FastqFileIn <input_fastq_path> \
--workDir <work_dir> \
--out <output_bam> \
--genomeFastaFiles <reference> \
--runThreadN 8 \
--outFilterMultimapScoreRange 1 \
--outFilterMultimapNmax 20 \
--outFilterMismatchNmax 10 \
--alignIntronMax 500000 \
--alignMatesGapMax 1000000 \
--sjdbScore 2 \
--limitBAMsortRAM 0 \
--alignSJDBoverhangMin 1 \
--genomeLoad NoSharedMemory \
--outFilterMatchNminOverLread 0.33 \
--outFilterScoreMinOverLread 0.33 \
--twopass1readsN -1 \
--sjdbOverhang 100 \
--outSAMstrandField intronMotif \
--outSAMunmapped Within

### For users without access to the ICGC pipeline:

### Step 1: Building the STAR index.*

STAR
--runMode genomeGenerate
--genomeDir <star_index_path>
--genomeFastaFiles <reference>
--sjdbOverhang 100
--sjdbGTFfile <gencode.v22.annotation.gtf>
--runThreadN 8

### Step 2: Alignment 1st Pass.

STAR
--genomeDir <star_index_path>
--readFilesIn <fastq_left_1>,<fastq_left2>,... <fastq_right_1>,<fastq_right_2>,...
--runThreadN <runThreadN>
--outFilterMultimapScoreRange 1
--outFilterMultimapNmax 20
--outFilterMismatchNmax 10
--alignIntronMax 500000
--alignMatesGapMax 1000000
--sjdbScore 2
--alignSJDBoverhangMin 1
--genomeLoad NoSharedMemory
--readFilesCommand <bzcat|cat|zcat>
--outFilterMatchNminOverLread 0.33
--outFilterScoreMinOverLread 0.33
--sjdbOverhang 100
--outSAMstrandField intronMotif
--outSAMtype None
--outSAMmode None

### Step 3: Intermediate Index Generation.

STAR
--runMode genomeGenerate
--genomeDir <output_path>
--genomeFastaFiles <reference>
--sjdbOverhang 100
--runThreadN <runThreadN>
--sjdbFileChrStartEnd <SJ.out.tab from previous step>

### Step 4: Alignment 2nd Pass.

STAR
--genomeDir <output_path from previous step>
--readFilesIn <fastq_left_1>,<fastq_left2>,... <fastq_right_1>,<fastq_right_2>,...
--runThreadN <runThreadN>
--outFilterMultimapScoreRange 1
--outFilterMultimapNmax 20
--outFilterMismatchNmax 10
--alignIntronMax 500000
--alignMatesGapMax 1000000
--sjdbScore 2
--alignSJDBoverhangMin 1
--genomeLoad NoSharedMemory
--limitBAMsortRAM 0
--readFilesCommand <bzcat|cat|zcat>
--outFilterMatchNminOverLread 0.33
--outFilterScoreMinOverLread 0.33
--sjdbOverhang 100
--outSAMstrandField intronMotif
--outSAMattributes NH HI NM MD AS XS
--outSAMunmapped Within
--outSAMtype BAM SortedByCoordinate
--outSAMheaderHD @HD VN:1.4
--outSAMattrRGline <formatted RG line provided by wrapper>

*這些索引可在 GDC Website 上下載，無需再次構建肴甸。

mRNA 表達量處理流程

比對后寂殉，通過 RNA Expression Workflow 處理BAM文件以確定RNA表達水平。

映射到每個基因的讀數(shù)使用HT-Seq-Count計數(shù)原在。表達式值以制表符分隔的格式提供友扰。 GENCODE v22 用于基因注釋彤叉。

在Data Release 14之后處理的文件具有STAR在對齊步驟期間生成的額外讀取計數(shù)集。

I/O	Entity	Format
Input	Aligned Reads	BAM
Output	Gene Expression	TXT

mRNA Quantification 命令行參數(shù)

HTSeq-0.6.1p1

Original
Dr15plus

htseq-count \
-m intersection-nonempty \
-i gene_id \
-r pos \
-s no \
- gencode.v22.annotation.gtf

mRNA Expression HT-Seq Normalization 表達標準化

由HT-Seq產(chǎn)生的RNA-Seq表達水平reads計數(shù)使用兩種類似的方法標準化：FPKM和FPKM-UQ村怪。標準化值應僅在整個基因集的上下文中使用姆坚。如果研究了一組基因，鼓勵用戶將原始reads計數(shù)值標準化实愚。

FPKM

The Fragments per Kilobase of transcript per Million mapped reads (FPKM) 計算通過將讀數(shù)除以基因長度和映射到蛋白質(zhì)編碼基因的讀數(shù)總數(shù)來標準化讀數(shù)。

Upper Quartile FPKM

The upper quartile FPKM (FPKM-UQ) 是一種修改的FPKM計算兔辅，其中總蛋白質(zhì)編碼讀數(shù)計數(shù)被樣品的第75百分位讀數(shù)計數(shù)值代替腊敲。

Calculations

FPKM Calculations

RC_g: 映射到Gene的reads數(shù)
RC_pc: 映射到所有蛋白質(zhì)編碼基因的reads數(shù)
RC_g75: 本中基因的第75百分位reads計數(shù)值
L: Length of the gene in base pairs; 計算為基因中所有外顯子的總和

Note: 在歸一化時，reads計數(shù)乘以標量(10⁹) 以考慮千堿基和'百萬映射讀數(shù)'單位

Examples 樣品

Sample 1: Gene A

Gene length: 3,000 bp
1,000 reads mapped to Gene A
1,000,000 reads mapped to all protein-coding regions
Read count in Sample 1 for 75th percentile gene: 2,000

FPKM for Gene A = (1,000)(10^9)/[(3,000)(1,000,000)] = 333.33

FPKM-UQ for Gene A = (1,000)(10^9)/[(3,000)(2,000)] = 166,666.67

File Access and Availability 文件訪問和可用性

為了便于在用戶創(chuàng)建的管道中使用協(xié)調(diào)數(shù)據(jù)维苔，可以在GDC數(shù)據(jù)門戶中的幾個中間步驟中訪問RNA-Seq基因表達碰辅。以下是可在GDC Data Portal中下載的每種文件類型的說明。

Type	Description	Format
RNA-Seq Alignment	已經(jīng)與GRCh38構建一致的RNA-Seq reads介时。包括未比對上的reads以促進原始讀取集的可用性	BAM
HT-Seq Read Counts	通過HT-Seq計算的與每個基因比對的reads數(shù)目	TXT
STAR Read Counts	STAR計算的比對到每個基因的reads數(shù)	TSV
FPKM	標準化的表達值没宾，其考慮每個基因長度和映射到所有蛋白質(zhì)編碼基因的reads的數(shù)量	TXT
FPKM-UQ	FPKM公式的修改版本，其中第75百分位reads計數(shù)用作分母代替蛋白質(zhì)編碼的總reads數(shù)	TXT

Pipling source：GDC

最后編輯于：2019.08.19 23:47:17

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末沸柔，一起剝皮案震驚了整個濱河市循衰，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌褐澎，老刑警劉巖会钝，帶你破解...
沈念sama閱讀 206,839評論 6贊 482
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異工三，居然都是意外死亡迁酸，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,543評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門俭正，熙熙樓的掌柜王于貴愁眉苦臉地迎上來奸鬓，“玉大人，你說我怎么就攤上這事掸读〈叮” “怎么了？”我有些...
開封第一講書人閱讀 153,116評論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵寺枉，是天一觀的道長抑淫。經(jīng)常有香客問我，道長姥闪，這世上最難降的妖魔是什么始苇？我笑而不...
開封第一講書人閱讀 55,371評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮筐喳，結果婚禮上催式，老公的妹妹穿的比我還像新娘函喉。我一直安慰自己，他們只是感情好荣月，可當我...
茶點故事閱讀 64,384評論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布管呵。她就那樣靜靜地躺著，像睡著了一般哺窄。火紅的嫁衣襯著肌膚如雪捐下。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,111評論 1贊 285
城市分裂傳說
那天萌业，我揣著相機與錄音坷襟，去河邊找鬼。笑死生年，一個胖子當著我的面吹牛婴程，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播抱婉，決...
沈念sama閱讀 38,416評論 3贊 400
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼档叔，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了蒸绩？” 一聲冷哼從身側響起衙四，我...
開封第一講書人閱讀 37,053評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎患亿，沒想到半個月后届搁，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,558評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡窍育，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,007評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年卡睦，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片漱抓。...
茶點故事閱讀 38,117評論 1贊 334
活死人
序言：一個原本活蹦亂跳的男人離奇死亡表锻，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出乞娄，到底是詐尸還是另有隱情瞬逊，我是刑警寧澤，帶...
沈念sama閱讀 33,756評論 4贊 324
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布仪或，位于F島的核電站确镊，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏范删。R本人自食惡果不足惜蕾域，卻給世界環(huán)境...
茶點故事閱讀 39,324評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧旨巷，春花似錦巨缘、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,315評論 0贊 19
一樁弒父案若锁，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至斧吐，卻和暖如春又固，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背煤率。一陣腳步聲響...
開封第一講書人閱讀 31,539評論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工口予，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人涕侈。一個月前我還...
沈念sama閱讀 45,578評論 2贊 355
代替公主和親
正文我出身青樓，卻偏偏與公主長得像煤辨，于是被迫代替她去往敵國和親裳涛。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 42,877評論 2贊 345

生物信息學流程：mRNA Analysis Pipeline

Pipling source：GDC

推薦閱讀更多精彩內(nèi)容