學位論文整得七七八八了循捺。回首過去三四年雄人,感覺“在技術(shù)上”落后的“大體同時”接觸生信的朋友們从橘。或者這就是人生,或許得到了什么恰力,或許失去了什么叉谜。懷念過去,不是我的風格踩萎。
學業(yè)的事情多少要告一段落停局,也是時候做點自己想做的事情了。早上起來香府,翻了下幾年前就注意到的 Alignment-Free 的轉(zhuǎn)錄組表達量估計軟件董栽,一直沒啥時間看看。索性就都掃一眼回还,起碼....搞清楚了就知道具體優(yōu)劣裆泳,這樣吹起牛來,就還是有點底氣(換句話說柠硕,過去兩三年跟朋友聊到這個工禾,我都是基于猜測,認為就是kmer counts蝗柔,然后就一頓胡扯闻葵,也沒人拆穿我.....)
整體看了下,似乎主流就是 三個軟件癣丧,兩個門派槽畔。
門派一:Sailfish --> Rapman --> Salmon
門派二:...... Kallisto --> ...
當然,我最關(guān)心的還是 “Alignment-Free” 軟件的 “Alignment” 問題胁编。
Sailfish
應是三者中厢钧,最早發(fā)表的,nbt嬉橙。直接從 Fig 1 就可以知道早直,把 參考序列 和 Reads 都打散 成 Kmers ,最后直接通過 Kmers 在轉(zhuǎn)錄本上的 Coverage 估算表達量(不用說方法市框,說了也白說霞扬,反正就是 EM,目前幾乎所有轉(zhuǎn)錄表達量估計的枫振,都是EM...就是大家寫的模型有差別)
很明顯喻圃,這個速度超快, Hash 計數(shù).... 只能說神來之筆粪滤。
Kallisto
在 門派一 的 Sailfish nbt 文稿發(fā)表之后斧拍,門派二 的 Kallisto 的 nbt 文稿也發(fā)表了... 大家都是 NBT ,自然不會太差
這里只看 Figure杖小,注意 紅藍綠 是三個轉(zhuǎn)錄本饮焦,黑棒棒是一個reads怕吴。空心圈圈是Kmer县踢,實心圈圈是 reads 的Kmers。
從 Figure 可以看到伟件,相比于前述的 Sailfish, Kallisto 考慮了 Kmers 的具體來源(也就是保留了 Reads 的概念)硼啤。
當然,Kallisto 仍然簡單粗暴斧账,如圖谴返,對于絕大部分 Reads(無錯配),只看首位兩個 Kmers 就可以確定 read 來源的轉(zhuǎn)錄本(雖然圖示寫的是三個)咧织。
也因此嗓袱,存在 Reads 概念,但只用了 Kmers counts 卻沒有mapping习绢,最后表達量的話....所以就存在 Reads 長度參數(shù)需求渠抹。于是可以知道,為啥 Kallisto 相比于 Sailfish 在 SE 數(shù)據(jù)上需要多兩個參數(shù)闪萄,即片段長度和標準差梧却。自然,從邏輯上來說败去,納入更多信息放航,Kaillisto 表現(xiàn)必然不會比 Sailfish 差。
Salmon
Emmm圆裕,坐以待斃不是大佬的日常广鳍。門派一 自然不會省油。很快吓妆,在 Bioinformatics 上發(fā)表了 Rapman, 提出了 quasi-mapping赊时。
直接看 Fig 就知道,重點還是在于 Kmer耿战。你不是說我不考慮 Reads嗎蛋叼?我現(xiàn)在就考慮,而且還做某種程度上的 Alignments (Mapping)的概念剂陡。這個 Mapping 怎么說呢... 我覺得和 bowtie2 的有點像狈涮。只是 b2 粗暴,而 rapman 精細了許多鸭栖,幾乎只用 hashing歌馍,直接省去大量不必要的比對(關(guān)鍵依舊在于,Rapman不需要精細位置晕鹊,重點只在于確定來源)松却”┢郑看看文稿,多少也可以看到晓锻,rapman 中對 Kmer 搜索的邏輯參考了 kallisto (如跳過Kmers進行下一步搜索歌焦,在Kallisto中,則優(yōu)先搜索首尾Kmers)砚哆。
基于 Rapman独撇,門派一大佬這下不發(fā) nbt 了,發(fā) nmed躁锁,放出 Salmon纷铣。
從上圖可以看出,其實 Salmon 重點已經(jīng)不在 Alignmeng-Free 與否了战转,畢竟也接受常規(guī)對BAM搜立。Salmon 的主要目的還是在于.... 快速定量,總的來說槐秧,有種 RSEM 的感覺啄踊。
很明顯,Rapman (Salmon) 的 Alignmeng-Free(Mapping) 到底還是某種程度的 Alignment 了色鸳。因此社痛,也獲取了更多讀段在轉(zhuǎn)錄本上的信息,既然信息越多命雀,那么能搞的事情就越多蒜哀。所以 Salmon 文稿的重點在于 “我能矯正bias,我更準”吏砂。
寫在最后
沒啥好說的撵儿。
Sailish 看來是不行了,畢竟是大佬自己又更新了(這個跟 Tophat2 的命運是一樣的)狐血。
Kaillisto 必然是可以的淀歇,看看別人的 gayhub 就知道了(看看 Bowtie1 的現(xiàn)狀就清楚了)。
Salmon 沒話說匈织,必然也是優(yōu)選浪默,更不用說.... 引入了三種index模式(Emmm,自己說了更準嘛)
最后缀匕,Kaillisto 和 Salmon 都支持單細胞測序數(shù)據(jù)纳决,所以啊。乡小。阔加。