測序原理:
一代測序(Sanger測序):
- 目前一代測序在驗(yàn)證序列(就是平時(shí)送公司測序返回來自己blast的那些)以及驗(yàn)證基因組組裝完整性方面都是金標(biāo)準(zhǔn)珊随。
- 一代最長能測1000bp,
- 它一次只測一條秕铛,也就是所謂的通量低
- 準(zhǔn)確度很高损搬,99.999%
NGS (next generation sequencing )二代測序,又稱下一代測序:
相關(guān)名詞:
- flowcell: 測序反應(yīng)的載體/容器码荔,1個(gè)flowcell有8個(gè)lane
- lane: 測序反應(yīng)的平行泳道啥辨,試劑添加焕妙、洗脫等過程的發(fā)生位置
- tile: 每次熒光掃描的位置,肉眼是看不到的
- 雙端測序: 可能序列比較長有四五百bp沃斤,兩邊各測120-150bp
- junction: 雙端測序中間一些沒有測到的區(qū)域
- flowcell構(gòu)造:一個(gè)lane包含兩列(swath)圣蝎,每一列有60個(gè)tile,每個(gè)tile會種下不同的cluster衡瓶,每個(gè)tile在一次循環(huán)中會拍照4次(每個(gè)堿基一次)
邊合成變測序(sequence by synthesis, SBS)~合成
第一步: 構(gòu)建DNA文庫
第二步: 上樣
第三步:橋式PCR
第四步:測序
數(shù)據(jù)初步分析:
使用fastqc進(jìn)行質(zhì)量分析徘公,這是一款Java軟件,支持多線程
軟件前期準(zhǔn)備:下載方式有兩種:
1.官網(wǎng)fastqc下載好用filezilla導(dǎo)入linux服務(wù)器
- 直接在服務(wù)器中運(yùn)行
wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.7.zip
接著安裝unzip fastqc_v0.11.7.zip --> cd FastQC -- > chmod755 fastqc --> install .
設(shè)置完權(quán)限后鞍陨,還需要將FastQC文件夾(這里請注意是文件夾步淹,而非fastqc這個(gè)可執(zhí)行程序)導(dǎo)入環(huán)境變量
echo 'export PATH=/YOUR/FASTQC PATH/:$PATH' >> ~/.bashrc
再source ~/.bashrc檢查軟件是否安裝成功 fastqc --help 出現(xiàn)幫助信息就可以使用啦!
二代測序大幅度提高了測序速度诚撵,降低了測序成本缭裆,保持了高準(zhǔn)確性。缺點(diǎn)是讀長短寿烟,拼接困難澈驼,pcr技術(shù)增加了測序的錯(cuò)誤率.
三代測序(TGS)
第三代測序技術(shù)以PacBio公司的SMRT和Oxford Nanopore Technologies 的納米孔單分子測序技術(shù)為標(biāo)志,不需要經(jīng)過PCR擴(kuò)增筛武,超長讀長缝其,可達(dá)二代測序的100倍以上,實(shí)現(xiàn)了對每一條DNA分子的單獨(dú)測序徘六。錯(cuò)誤率比二代要高内边,達(dá)到10-15%。
三代測序錯(cuò)誤隨機(jī)待锈,平均讀長8 ~25kb 漠其,相對于二代而言,測序成本偏高竿音,同時(shí)測序錯(cuò)誤率偏高和屎。
測序
1.基因組學(xué)(核酸序列分析)
(1)全基因組測序(WGS)
(2)全外顯子組測序(WES)
(3)簡化基因組測序(RRGS)
作用:
- 基因組作圖(遺傳圖譜、物理圖譜春瞬、轉(zhuǎn)錄本圖譜)
- 核苷酸序列分析
- 基因定位
- 基因功能分析
其它: 以全基因組測序?yàn)槟繕?biāo)的結(jié)構(gòu)基因組學(xué)柴信;以基因功能鑒定為目標(biāo)的功能基因組學(xué)
轉(zhuǎn)錄組學(xué)(基因表達(dá)分析)
(1)mRNA-Seq
(2)IncRNA-Seq(長鏈非編碼RNA)
(3)sRNA-Seq(主要是miRNA-Seq)
作用:
- 獲得物種或者組織的轉(zhuǎn)錄本信息
- 得到轉(zhuǎn)錄本上基因的相關(guān)信息,如基因結(jié)構(gòu)功能等
- 發(fā)現(xiàn)新的基因
- 基因結(jié)構(gòu)優(yōu)化
- 發(fā)現(xiàn)可變剪切
- 發(fā)現(xiàn)基因融合
- 基因表達(dá)差異分析
蛋白質(zhì)組學(xué)
(1)蛋白質(zhì)組數(shù)據(jù)處理宽气、蛋白及其修飾鑒定
(2)構(gòu)建蛋白質(zhì)數(shù)據(jù)庫随常、相關(guān)軟件的開發(fā)和應(yīng)用
(3)蛋白質(zhì)結(jié)構(gòu)功能預(yù)測
(4)蛋白質(zhì)連鎖圖
代謝組學(xué)
(1)代謝物指紋分析
(2)代謝輪廓分析
測序技術(shù)原理及常用數(shù)據(jù)格式簡介
第一代測序技術(shù)
特點(diǎn):讀長長(1000 bp)潜沦,準(zhǔn)確性高(99.999%),通量低线罕。
第二代測序技術(shù)
(1)DNA文庫構(gòu)建 (2 ) 簇的生成——橋式PCR (3)測序(4)數(shù)據(jù)產(chǎn)出
特點(diǎn):通量高止潮、時(shí)間短、讀長短钞楼。
第三代測序技術(shù)
單分子實(shí)時(shí)DNA測序喇闸。
(1)PacBio 實(shí)時(shí)單分子測序
(2)Complete Genomics公司的復(fù)合探針-錨定連接技術(shù)
(3)Oxford Nanopore 納米孔單分子通道技術(shù)
(4)Ion Torrent電子流檢測技術(shù)
Pacific Biosciences公司的SMRT技術(shù): SMRT測序速度快(每秒約數(shù)個(gè)dNTP),但是询件,測序錯(cuò)誤率也較高(達(dá)到15%燃乍,可通過多次測序進(jìn)行有效的糾錯(cuò))。
Oxford Nanopore Technologies公司的納米孔單分子技術(shù)為主流宛琅。
常用數(shù)據(jù)格式
Fastq格式
一種基于文本的刻蟹,保存生物序列(通常是核酸序列)和其測序質(zhì)量信息的標(biāo)準(zhǔn)格式,一般都包含有4行。
第一行:由‘@’開始嘿辟,后面跟著序列ID和可選的描述舆瘪,序列ID是唯一的;
第二行:堿基序列红伦;
第三行:由‘+’開始英古,后面是序列的描述信息;
第四行:第二行序列的質(zhì)量評價(jià)(quality value)昙读。
Fasta格式:
(1)以“>”為開頭召调,fasta格式標(biāo)志。
(2)序列ID號蛮浑,gi號唠叛,NCBI數(shù)據(jù)庫的標(biāo)識符,具有唯一性沮稚。
格式為:gi|gi號|來源標(biāo)志|序列標(biāo)志(接收號艺沼、名稱等),若某項(xiàng)缺失可以留空蕴掏,“|”保留障般。
(3)序列描述。
(4)堿基序列囚似,序列中允許空格、換行线得、空行饶唤,一般一行60個(gè)。
格式見間的轉(zhuǎn)化:Fastq文件→Fasta文件
Linux命令
法1:sed '/^@/!d;s//>/;N' your.fastq > your.fasta
法2:seqtk seq -A input.fastq > output.fasta
FASTX-Toolkit
一款用于處理Short-Reads FASTA/FASTQ文件的程序贯钩,里面包含了豐富的Fasta/Fastq文件格式轉(zhuǎn)換募狂、統(tǒng)計(jì)等命令办素。
http://hannonlab.cshl.edu/fastx_toolkit/
GenBank格式
以LOCUS和一些注釋行開始。序列的開頭以“ORIGIN”標(biāo)記祸穷,末尾以“//”標(biāo)記
EMBL格式
以標(biāo)識符行(ID)開頭性穿,后面跟著更多注釋行。
序列的開頭以“SQ”開頭標(biāo)記雷滚,序末尾以“//”標(biāo)記需曾。
EMBL → Fasta格式轉(zhuǎn)換(在線工具):http://www.geneinfinity.org/sms/sms_embltofasta.html
另外給大家介紹一個(gè)常見測序文件格式解析的網(wǎng)站:
https://genome.ucsc.edu/FAQ/FAQformat.html#format1 (包含了各種各樣的測序文件格式說明)
參考文獻(xiàn)
https://blog.csdn.net/u010608296/article/details/111658749