k-mers
k-mers是指將序列分為k個(gè)堿基的字符串,一般長(zhǎng)短為m的序列可以分成m-k+1個(gè)k-mers。
ATGCA的所有k-mer如下:
2-mers: AT, TG, GC and CA
3-mers: ATG, TGC and GCA
4-mers: ATGC, TGCA
5-mers: ATGCA
我們將這些k-mers放入計(jì)算機(jī)進(jìn)行組裝券盅,則可能的組裝為
ATG
kgTGC
kgkGCA
ATGCA
連續(xù)的空格不知道怎么打出來(lái)纳胧,用kg代替
來(lái)源:By Jrotten9 - Own work, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=35294590
使用jellyfish工具統(tǒng)計(jì)k-mers
因?yàn)榻?jīng)常需要剪輯手術(shù)視頻银室,所以這周買(mǎi)了一臺(tái)mac pro蝎抽,以下命令都是在mac上敲入了,Linux系統(tǒng)未做練習(xí)匪凡。
brew install jellyfish
jellyfish --help
#獲取練習(xí)序列
efetch -id KU182908 -db nucleotide -format fasta > KU182908.fa
jellyfish count -C -m 10 -s10M KU182908.fa
jellyfish histo mer_counts.jf
histo.png
jellyfish dump -L 7 mer_counts.jf
dump.png
cat KU182908.fa | dreg -filter -pattern TTAAGAAAAA
pattern.png
Sequence Alignments(序列比對(duì))
這是生物信息學(xué)最基礎(chǔ)的概念膊畴,也是核心概念
基礎(chǔ):相似的序列可能具有相似的結(jié)構(gòu)掘猿,從而可能具有相似的功能病游。相似的序列往往在進(jìn)化上具有同源性。
知識(shí)關(guān)鍵點(diǎn)
打分矩陣
打分矩陣是序列比對(duì)的基礎(chǔ)稠通,選擇不同的打分矩陣將得到不同的比較結(jié)果
常用的打分矩陣
BLAST矩陣
curl -O ftp://ftp.ncbi.nlm.nih.gov/blast/matrices/NUC.4.4
NUC.4.4.png
其他矩陣
空位罰分
仿射空位罰分
空位的引入(Gap-open)與延伸(Gap-extend)
空位的引入:是在序列中引入一個(gè)空位
空位的延伸:是在序列中在一個(gè)空位后連續(xù)引入多個(gè)空位
K價(jià)空位:具有K個(gè)連續(xù)空位的區(qū)域衬衬,其空位數(shù)目大于1
K個(gè)不連續(xù)的空位: 指序列中具有K個(gè)空位且每個(gè)空位是1
空位的引入與延伸的罰分規(guī)則:
通常對(duì)k階空位的第一個(gè)空位的罰分為 g ,延伸空位的罰分為r改橘,則:k階空位的罰分為: w=g+r(k-1), 其中:k為空位的長(zhǎng)度滋尉。 通常第一個(gè)空位罰分為10-15分,延伸空位罰分為0.5-1分飞主。
全局比對(duì)
利用動(dòng)態(tài)規(guī)劃法進(jìn)行比對(duì)
將一個(gè)大問(wèn)題分解為若干小問(wèn)題
為若干小問(wèn)題找到最優(yōu)解
通過(guò)以上若干小問(wèn)題的最優(yōu)解得到大問(wèn)題的最優(yōu)解
局部比對(duì)
隨著序列的增多狮惜,發(fā)現(xiàn)往往完全不同的序列往往具有相似的功能域,這些片段往往是全局比對(duì)無(wú)法發(fā)現(xiàn)的碌识。