測序原理
學習資源
原理介紹視頻:https://share.weiyun.com/5qojuBY 密碼:bxsry4
文章《測序的世界》
測序技術(shù)原理及常用數(shù)據(jù)格式簡介
測序發(fā)展史
陳巍學基因 視頻
內(nèi)容整理:
二代測序workflow:
sample prep; cluster generation; sequencing; data analysis
一個flowcell包含8個lane峰尝,每個lane包含2個swath,1個swath有60個tile,1個tile會有不同的cluster祭饭,不同的lane之間绘趋,不會有同樣的DNA
樣品準備(加接頭)-- 橋式PCR钞它,成cluster -- 測序(根據(jù)顏色) -- 處理數(shù)據(jù)
常用數(shù)據(jù)格式
Fastq & Fasta
Fastq格式:
一種基于文本的悼尾,保存生物序列(通常是核酸序列)和其測序質(zhì)量信息的標準格式,一般都包含有4行牌废。
第一行:由‘@’開始廉侧,后面跟著序列ID和可選的描述页响,序列ID是唯一的;
第二行:堿基序列段誊;
第三行:由‘+’開始闰蚕,后面是序列的描述信息;
第四行:第二行序列的質(zhì)量評價(quality value)枕扫。
Fasta格式:
1:以“>”為開頭陪腌,fasta格式標志。
2:序列ID號烟瞧,gi號诗鸭,NCBI數(shù)據(jù)庫的標識符,具有唯一性参滴。
格式為:gi|gi號|來源標志|序列標志(接收號强岸、名稱等),若某項缺失可以留空砾赔,“|”保留蝌箍。
3:序列描述。
4:堿基序列暴心,序列中允許空格妓盲、換行、空行专普,一般一行60個悯衬。
Fastq文件→Fasta文件
Linux命令
法1:sed '/^@/!d;s//>/;N' your.fastq > your.fasta
法2:seqtk seq -A input.fastq > output.fasta
FASTX-Toolkit
一款用于處理Short-Reads FASTA/FASTQ文件的程序,里面包含了豐富的Fasta/Fastq文件格式轉(zhuǎn)換檀夹、統(tǒng)計等命令筋粗。
http://hannonlab.cshl.edu/fastx_toolkit/
GenBank & EMBL
GenBank格式:
以LOCUS和一些注釋行開始策橘。
序列的開頭以“ORIGIN”標記,末尾以“//”標記娜亿。
EMBL格式
以標識符行(ID)開頭丽已,后面跟著更多注釋行。
序列的開頭以“SQ”開頭標記买决,序末尾以“//”標記沛婴。
EMBL → Fasta格式轉(zhuǎn)換(在線工具):
http://www.geneinfinity.org/sms/sms_embltofasta.html