測序過程和原理
測序的類型
一二三代測序斧抱;高通量測序仁锯。
一代測序:Sanger (Dr. Fred Sanger),測得最準脂倦。
二代測序:NGS (next generation sequencing)。
三代測序:第三代測序的發(fā)展方向太多元莫,不好直接概括為某一特定方法赖阻。
PacBio 實時單分子測序
Complete Genomics公司的復合探針-錨定連接技術
Oxford Nanopore納米孔單分子測序技術為標志,不需要經(jīng)過PCR擴增踱蠢,超長讀長政供,可達二代測序的100倍以上,實現(xiàn)了對每一條DNA分子的單獨測序朽基。錯誤率比二代要高布隔,達到10-15%。
Ion Torrent電子流檢測技術
數(shù)據(jù)初步分析
使用fastqc進行質(zhì)量分析稼虎,這是一款Java軟件衅檀,支持多線程。
在Xshell中wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.7.zip
. #20200716可以執(zhí)行霎俩。
unzip fastqc_v0.11.7.zip
#可以執(zhí)行哀军。
cd FastQC
#可以執(zhí)行。
chmod755 fastqc
# chmod755: command not found打却。
echo 'export PATH=/YOUR/FASTQC PATH/:$PATH' >> ~/.bashrc
#可以執(zhí)行杉适。
source ~/.bashrc
#可以執(zhí)行。
fastqc --help
# Command 'fastqc' not found, but can be installed with:
apt install fastqc
Please ask your administrator.
apt install fastqc
#仍然無法安裝柳击。
名詞結構化
1.基因組學(核酸序列分析)
(1)全基因組測序(WGS)
(2)全外顯子組測序(WES)
(3)簡化基因組測序(RRGS)
①RAD-Seq
②GBS
③2bRAD
④ddGBS(也就是ddRAD)
作用:
(1)基因組作圖(遺傳圖譜猿推、物理圖譜、轉(zhuǎn)錄本圖譜)
(2)核苷酸序列分析
(3)基因定位
(4)基因功能分析
其它:
以全基因組測序為目標的結構基因組學
以基因功能鑒定為目標的功能基因組學
2.轉(zhuǎn)錄組學(基因表達分析)
(1)mRNA-Seq
(2)IncRNA-Seq(長鏈非編碼RNA)
(3)sRNA-Seq(主要是miRNA-Seq)
作用:
(1)獲得物種或者組織的轉(zhuǎn)錄本信息
(2)得到轉(zhuǎn)錄本上基因的相關信息捌肴,如基因結構功能等
(3)發(fā)現(xiàn)新的基因
(4)基因結構優(yōu)化
(5)發(fā)現(xiàn)可變剪切
(6)發(fā)現(xiàn)基因融合
(7)基因表達差異分析
3.蛋白質(zhì)組學
(1)蛋白質(zhì)組數(shù)據(jù)處理蹬叭、蛋白及其修飾鑒定
(2)構建蛋白質(zhì)數(shù)據(jù)庫、相關軟件的開發(fā)和應用
(3)蛋白質(zhì)結構功能預測
(4)蛋白質(zhì)連鎖圖
4.代謝組學
(1)代謝物指紋分析
(2)代謝輪廓分析
常用數(shù)據(jù)格式
Fastq格式
一種基于文本的状知,保存生物序列(通常是核酸序列)和其測序質(zhì)量信息的標準格式,一般都包含有4行秽五。
第一行:由‘@’開始,后面跟著序列ID和可選的描述饥悴,序列ID是唯一的坦喘;
第二行:堿基序列盲再;
第三行:由‘+’開始,后面是序列的描述信息瓣铣;
@HISEQ:777:HCMCVBCX2:1:1101:4712:2186 1:N:0:TACTCCAG
HISEQ:儀器 ID
777:Run ID
HCMCVBCX2:FlowCell ID
1:The lane number
1101:流通池道內(nèi)的tile號碼
4712:瓦片中的集群的‘x'坐標
2186:瓦片中的集群的’y'坐標
1:成對的成員,1或2(配對結束或配對讀扰骰Α)
N:如果讀取過濾绿映,則為Y;否則為N
0:當沒有控制位開啟時為0腐晾,否則為偶數(shù)
TACTCCAG:索引序列
Fasta格式
1:以“>”為開頭叉弦,fasta格式標志。
2:序列ID號藻糖,gi號淹冰,NCBI數(shù)據(jù)庫的標識符,具有唯一性巨柒。
格式為:gi|gi號|來源標志|序列標志(接收號樱拴、名稱等),若某項缺失可以留空洋满,“|”保留晶乔。
3:序列描述。
4:堿基序列牺勾,序列中允許空格正罢、換行、空行驻民,一般一行60個翻具。
GenBank格式
以LOCUS和一些注釋行開始。
序列的開頭以“ORIGIN”標記回还,末尾以“//”標記裆泳。
EMBL格式
以標識符行(ID)開頭,后面跟著更多注釋行柠硕。
序列的開頭以“SQ”開頭標記工禾,序末尾以“//”標記。