Fastq是測序數(shù)據(jù)下機(jī)格式,其中包含測序序列(reads)的序列信息及其對應(yīng)的測序質(zhì)量信息。
FASTQ格式文件中每個read由四行描述惦界,如下:
@EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG
GCTCTTTGCCCTTCTCGTCGAAAATTGTCTCCTCATTCGAAACTTCTCTGT
+
@@CFFFDEHHHHFIJJJ@FHGIIIEHIIJBHHHIJJEGIIJJIGHIGHCCF
其中第一行以“@”開頭,隨后為Illumina 測序標(biāo)識符(Sequence Identifiers)和描述文字(選擇性部分)咙冗;第二行是堿基序列;第三行以“+”開頭漂彤,隨后為Illumina 測序標(biāo)識符(選擇性部分)雾消;第四行是對應(yīng)序列的測序質(zhì)量。
Illumina 測序標(biāo)識符詳細(xì)信息如下:
image.png
第四行中每個字符對應(yīng)的ASCII值減去33挫望,即為對應(yīng)第二行堿基的測序質(zhì)量值立润。如果測序錯誤率用e表示,Illumina測序平臺的堿基質(zhì)量值用Qphred表示媳板,則有下列關(guān)系:
ASCII - 33 = Qphred = -10log10(e)
此公式可說明桑腮,質(zhì)量值越大測序錯誤率(e)越低,準(zhǔn)確性越高