454測序是第一個出來的二代測序初婆,但是現(xiàn)在沒人用了,因為數(shù)據(jù)處理太復雜猿棉,而且由于不是很普及磅叛,所以大家都沒有心情去開發(fā)軟件,現(xiàn)在的都是老版的軟件了萨赁,說不定還有兼容性的問題弊琴。
現(xiàn)在用的最普遍的就是illumina的了
有很多型號
Miniseq Myseq
Nextseq500這個比較不錯
高通量的可以上hiseq2500
如果是產(chǎn)業(yè)性的就來個Hiseq3000/4000 最牛逼的是X 10 這個一般的實驗室和基礎設施都是玩不轉(zhuǎn)的,這么高的通量一般都要國家基礎設施類型的使用
PacBio現(xiàn)在很火
其中的核心技術叫做 零基波導杖爽,名字倒是牛逼哄哄的挺唬人敲董。
subread就是一條序列被測了好幾次
CCS需要聚合酶來回測同一條序列紫皇,得到至少兩個subread,才能形成CCS
CCS可以提高準確性腋寨,比單個align回基因組的錯誤率小很多
怎樣計算基因組覆蓋度
C= 總測序堿基數(shù)/基因組的堿基數(shù)
QC
這個怎么說呢聪铺,如果測序數(shù)據(jù)本身爛,再怎么QC也救不回來萄窜。QC只做最基本的计寇,不要花時間在QC上折騰,沒啥用脂倦,還白費勁番宁。不要對本身就不錯的數(shù)據(jù)過分的矯正,矯正過程本身就引入新的錯誤信息
trim
靠譜的程序有
bbduk trimmomatic flexbar cutadpt
illumina的
# TruSeq Indexed Adapter
GATCGGAAGAGCACACGTCTGAACTCCAGTCACNNNNNNATCTCGTATGCCGTCTTCTGCTTG
前面還可以加個A
告訴Fastqc去檢測哪一個adaptor , 到fastqc的安裝目錄下找到 configuration文件夾
可以寫好adaptor的fasta文件赖阻,然后在trim adaptor里面引用
用trimmomatic 的時候命令順序比較重要
trimmomatic PE SRR519926_1.fastq SRR519926_2.fastq trimmed_1.fq unpaired_1.fq trimmed_2.fq unpaired_2.fq SLIDINGWINDOW:4:30 TRAILING:30 ILLUMINACLIP:adapter.fa:2:30:5
一般來說蝶押,如果是重測序,也就是基因組信息已知的情況下火欧,不需要去先去adaptor
但是如果拼接基因組的情況下棋电,就需要去adpator了
序列的重復冗余
這個是很重要的
來源: 1 基因組里面本來就有很多重復序列 2 PCR的重復序列
咋找到這些重復序列?兩條路
1 序列完全一樣的
2 align到同一個位置上的
但是這個得很小心的去做苇侵,因為有風險在里面赶盔,就是說測序特別準的重復序列會被干掉,但是出現(xiàn)測序錯誤的重復序列因為不能彼此匹配從而留了下來榆浓,這就導致了我們反而在數(shù)據(jù)中對測序錯誤進行了富集于未,這是給自己找事啊
現(xiàn)在出了一個新套路,就是先分析序列中的K mer 陡鹃, 然后根據(jù)k mer去重復
序列的重復冗余不好的地方就是烘浦,在call variant的時候
因為每個variant的打分是根據(jù)他們出現(xiàn)的次數(shù)來的,所以一旦有一條PCR 的duplicate萍鲸,就多打了一分闷叉,但是這個分是靠PCR騙來的,導致某一個比較罕見variant顯得很重要的高頻一樣
在FASTQC的duplicate的報告中
在最頂上的那個數(shù)字最重要脊阴,這里面說的是整一個數(shù)據(jù)集中不重復的序列占多大比例
怎么找出重復序列
在進行到bam文件之后用picard markduplicates 來標記重復序列
怎樣把PE的reads搞成一個長reads
用FLASH
bbmerge
可以用bbrename重命名每一條reads
AfterQC也是個不錯的工具握侧,但是得用python2.7
進行錯誤矯正:
這個牛逼的功能也是剛接觸,還可以這么玩
bb套裝中有個tadpole.sh 可以直接的進行錯誤的矯正
tadpole.sh in=SRR519926_1.fastq out=tadpole.fq mode=correct out=r1.fq out2=r2.fq overwrite=true
這個bb真是個牛人嘿期,認識一下品擎,Brian Bushnell , 套裝的開發(fā)者秽五,膜拜