1.常用HiC掛載軟件
ALLHiC
張興坦老師專為多倍體和高雜合度物種基因組掛載開發(fā)衙傀。如果是復(fù)雜基因組,肯定是首選萨咕。對于簡單基因組统抬,我跑了下,結(jié)果不佳危队。提了issue聪建,張老師特意開發(fā)了個為簡單基因組設(shè)計的流程:https://github.com/tangerzhang/ALLHiC/blob/master/bin/ALLHiC_pip.sh,主要增加了對contig的糾錯茫陆。至于效果金麸,我還在跑。3D-DNA
優(yōu)秀的糾錯功能簿盅。我認(rèn)為既是優(yōu)點挥下,也是缺點。它會把你原來完整的contig拆的稀碎桨醋,認(rèn)為那些不準(zhǔn)確棚瘟,需要通過染色質(zhì)交互來矯正。得到的結(jié)果也是五花八門喜最,占的空間太大了偎蘸!又不敢輕易刪掉,因為有些文件你在手工糾錯后還要用到瞬内。
默認(rèn)迭代糾錯2次迷雪,根據(jù)我的折騰,你最好還是0.hic虫蝶、1.hc和2.hc都試下吧振乏,導(dǎo)入juice_box看下效果,哪個好就用哪個秉扑。我同時組裝了兩個基因組慧邮,一個是0.hic最好调限,另一個是1.hc最好。這個軟件就很玄學(xué)误澳,用不同的結(jié)果可能錯誤率差別很大耻矮。LACHESIS
經(jīng)典軟件,有效聚類和排序忆谓,現(xiàn)在發(fā)表的大部分HiC掛載文章都出自于它裆装。但不適合多倍體和高雜合度的基因組,2017年就不再更新倡缠。
因為很舊哨免,安裝過程非常痛苦,源碼安裝昙沦,samtools和boost版本都要求很老琢唾。費了很大的功夫安裝成功了,運行過程卻總是出現(xiàn):Segmentation fault (core dumped)
盾饮,作者在GitHub issue上提供了解決方法(ubuntu)采桃,但對我不適用。最后放棄丘损,建議大家也不要再用了普办。SALSA2
使用簡單,精確度高(比3d-dna)徘钥。但存在聚類錯誤衔蹲,調(diào)整難度大。
主要是以上四個呈础,其他小眾的軟件更不推薦舆驶。
2. Juice_box手工糾錯
這些軟件的結(jié)果最后還是要進(jìn)行手工糾錯,真的太原始太不智能了猪落!人依賴于軟件贞远,軟件卻始終不如人。使用的是Juice_box來進(jìn)行可視化糾錯笨忌,然而蓝仲,這個軟件的文檔寫得非常簡單,youtube上官方視頻也非常之簡短(七八分鐘)官疲。有人把它搬到了b站袱结,還帶字幕。翻譯 | Juicebox Assembly Tools教程途凫。具體怎么使用垢夹,需要自己去折騰,很惱火维费。我簡單說下關(guān)鍵的操作:
- 所有糾錯操作都基于shift鍵
- 操作不熟練果元,你可能需要反復(fù)undo和redo(右鍵)
- 選框時促王,你只要在本框范圍內(nèi)拖動(按shift不要松),都會選中這個框(選中后為帶黑黃色的線)而晒,并不要很精確地選在框邊緣(因為你把握不好蝇狼,有可能這個邊緣是另一個框的范圍,這時就會選錯)
- 選擇框時倡怎,盡可能放大(雙擊迅耘,或菜單欄BP,一般25kb-50kb)
- 如果你的染色體數(shù)目不對监署。拆分染色體:先選中要拆分區(qū)域颤专,右擊add染色體,再選中钠乏,右擊remove染色體
- 從某一個地方剪掉框:選中栖秕,出現(xiàn)剪刀符號,單擊
- 旋轉(zhuǎn)框:選中缓熟,出現(xiàn)旋轉(zhuǎn)符號累魔,單擊
- 從一個地方移動:選中摔笤,鼠標(biāo)移到要插入的contig框頂點够滑,單擊
暫時想到有用的操作就這么多,就是要反復(fù)看官方那個視頻吕世,然后嘗試才能搞懂彰触。B站上還有一個講解的視頻:20200908_FGL_利用Hic技術(shù)組裝染色體,不過也不是很詳細(xì)命辖。
Juice_box調(diào)圖是個細(xì)致的體力活况毅。一想到我的基因組是這么人為調(diào)出來的,我自己對結(jié)果都產(chǎn)生了懷疑尔艇。
如果是3D-DNA尔许,再簡單的基因組也還是會有很多碎的,因為它手賤重新打碎了终娃。所以說如果你原始組裝的contig數(shù)目比3d-dna跑出的FINAL.fasta中的contig數(shù)目少味廊,甚至比手工糾錯后再跑3D-DNA的數(shù)目少,也不要感到驚訝棠耕。反正我是越糾越差余佛,基因組越來越小∏嫌可能是我不會調(diào)細(xì)節(jié)吧辉巡,再次吐槽,這個軟件我是真的討厭蕊退。