一纯衍、在跑cellranger的過(guò)程中出了個(gè)問(wèn)題眠砾。要琢磨一下怎么回事。
報(bào)錯(cuò):sequence and quality length mismatch托酸。
wc -l FH-H3-Y7-B1_S2_L004_R1_001.fastq
先統(tǒng)計(jì)文件的行數(shù)
cat FH-H3-Y7-B1_S2_L004_R1_001.fastq| head -n 48934044 | tail -n +48934041
#再查看報(bào)錯(cuò)的那幾行數(shù)據(jù)褒颈,發(fā)現(xiàn)都是序列和質(zhì)量值都是150長(zhǎng)度啊。沒有mismatch啊励堡。
二谷丸、原因
1,懷疑是文件完整性的問(wèn)題应结∨偬郏可能不完整泉唁。
2,數(shù)據(jù)截取的問(wèn)題揩慕。對(duì)于10X數(shù)據(jù)亭畜,R1就是read1 :主要用來(lái)標(biāo)記(barcode、UMI以及reads的來(lái)源)迎卤。R2就是read2:與基因組比對(duì) (配合UMI進(jìn)行定量)拴鸵,這個(gè)是最重要的數(shù)據(jù)。一般R1只需要截取26-28bp就可以了蜗搔。R2是要150bp劲藐。這次數(shù)據(jù)中R1和R2都截取了150bp。
那就一個(gè)個(gè)來(lái)試一下吧樟凄∑肝撸看看完整性:
三、使用md5.txt來(lái)校驗(yàn)fastq文件完整性
把數(shù)據(jù)和md5.txt文件放到同一個(gè)文件夾下缝龄。cd到該文件夾中汰现,輸入命令md5sum -c md5.txt
果然是R1不完整啊。重新下載吧叔壤。發(fā)現(xiàn)新下的文件和之前的大小完全一樣服鹅。跑了md5以后,就不一樣了百新。之后重新跑cellranger count就正常啦企软。
四、結(jié)論
cellranger count命令的數(shù)據(jù)可以是150:150截取的饭望。單數(shù)據(jù)完整性一定要保證仗哨。用md5.txt文件做驗(yàn)證,可以確定是否完整铅辞。如果出現(xiàn)failed厌漂,說(shuō)明數(shù)據(jù)傳輸中有錯(cuò)誤。需要重新下載斟珊。