概念介紹
Read 讀段
Read 中文翻譯: 讀段,來自測序儀的raw data
一個Read 可能由多個片段組成, Read的索引是測序時的順序
Sequencing quality 測序質(zhì)量
測序儀在測序的時候忽孽,每次測出來的結(jié)果可能都不一樣(儀器誤差 序列長度等各方面因素)浊伙, 所以往往需要多測幾次乌企,最后開決定是哪一個堿基查乒。
Sequencing quality 是度量測序儀測序質(zhì)量的指標(biāo)敦锌。
測序質(zhì)量指標(biāo)有很多種 您机, 最常用的的是Phred quality score。
Sequencing quality metrics can provide important information
about the accuracy of each step in this process, including library
preparation, base calling, read alignment, and variant calling. Base
calling accuracy, measured by the Phred quality score (Q score), is the
most common metric used to assess the accuracy of a sequencing
platform. It indicates the probability that a given base is called
incorrectly by the sequencer.
Phred quanlity score 測序質(zhì)量分?jǐn)?shù)
概念
illumina 質(zhì)量分?jǐn)?shù)說明
https://www.illumina.com/documents/products/technotes/technote_Q-Scores.pdf
Q scores are used to measure base calling accuracy, one of the most
common metrics for assessing sequencing data quality. Low Q scores
can lead to increased false-positive variant calls, resulting in inaccurate
conclusions and higher costs for validation experiments.
測序質(zhì)量分?jǐn)?shù)
Q
Phred quality scores
P
base-calling-error probabilities
簡單來說 Q越大 就說明測序質(zhì)量越好
https://en.wikipedia.org/wiki/Phred_quality_score
格式
不同的測序儀采用不同的測序標(biāo)準(zhǔn)脖祈, 取值范圍不同
在存入Fastq格式的時候往往需要將數(shù)值轉(zhuǎn)換為單個字符肆捕,要將數(shù)值范圍映射到ASCII碼上
對于每個堿基的質(zhì)量編碼標(biāo)示,不同的軟件采用不同的方案盖高,目前有5種方案:
Sanger慎陵,Phred quality score掏秩,值的范圍從0到92,對應(yīng)的ASCII碼從33到126荆姆,但是對于測序數(shù)據(jù)(raw read data)質(zhì)量得分通常小于60蒙幻,序列拼接或者mapping可能用到更大的分?jǐn)?shù)。
Solexa/Illumina 1.0, Solexa/Illumina quality score胆筒,值的范圍從-5到63邮破,對應(yīng)的ASCII碼從59到126,對于測序數(shù)據(jù)仆救,得分一般在-5到40之間抒和;
Illumina 1.3+,Phred quality score彤蔽,值的范圍從0到62對應(yīng)的ASCII碼從64到126摧莽,低于測序數(shù)據(jù),得分在0到40之間顿痪;
Illumina 1.5+镊辕,Phred quality score,但是0到2作為另外的標(biāo)示蚁袭,詳見http://solexaqa.sourceforge.net/questions.htm#illumina
Illumina 1.8+
測序儀產(chǎn)生的數(shù)據(jù)格式
不同測序儀征懈,不同版本號,產(chǎn)出的數(shù)據(jù)格式不一定相同
測序平臺 | 文件格式 | 說明 |
---|---|---|
454測序 | FASTA / FASTAQ | |
Illumina/Solexa | FASTQ | |
SOLiD | CSFASTA / QV.qual質(zhì)量文件 | 測序結(jié)果包含峰值 |
下面的這四行就是一行Read(這里我們以FASTQ格式為例)
fastq 格式說明
@HWI-ST507:4:75:4291:2239#0/1
AAGCTTGTTGAAGGCTACCAAAAACGATTACAAGCTGTAATTTCTGCTAAAG
+HWI-ST507:4:75:4291:2239#0/1
ggggegegfggggdgggg_ggcg\gfdYadddea]`cc_cc`c\[ed\^`]]
第一行: @文件識別標(biāo)志 + Read ID
HWI-ST507:4:75:4291:2239#0/1
說明
數(shù)據(jù) | 含義 | 說明 |
---|---|---|
HWI-ST507 | 測序儀的唯一編號 | - |
4 | 測序通道 | 說明這批數(shù)據(jù)是在測序儀的第四通道測出來的 |
75 | Read讀長 | 代表每個Read的長度都是75bp |
4291:2239 | 測序儀中的坐標(biāo)數(shù) | |
#0 | 多樣本測序時候的索引 | #0 代表單樣本測序 |
/1 | 揩悄? | 每對paired-end 或者mate-pair的reads中的第一個 |
第二行:序列
第三行: + 文件標(biāo)識標(biāo)識 + Read ID
第三行的+后面的跟第一行相同卖哎, 可以省略, 但是
+
不可省略
第四行:質(zhì)量分?jǐn)?shù)
ggggegegfggggdgggg_ggcg\gfdYadddea]`cc_cc`c\[ed\^`]]
對應(yīng)到到該儀器版本所采用過的phred標(biāo)準(zhǔn)删性,對應(yīng)的ascall碼范圍求得整數(shù)質(zhì)量分?jǐn)?shù)值