如何刪除有90%以上一致性的序列
學(xué)習(xí)是個漫長的過程粟关,每次遇到不會的總想要把它收藏起來疮胖,今天就是碰到了不熟悉的CD-HIT,就各種百科,各種查找資料澎灸,就隨手把筆記記錄下來谷市,方便日后和大家交流學(xué)習(xí)。日后再做更完整的補充击孩。
寫在前面的話:
本人是一枚生物學(xué)的學(xué)生,由于對生物信息學(xué)特別感興趣鹏漆,于是想自學(xué)生物信息學(xué)(新手莫怪)巩梢。了解到生物信息學(xué)要有編程基礎(chǔ),尤其是要會一門編程語言艺玲,例如:R語言括蝠、Python、Perl等饭聚,還要熟悉Linux系統(tǒng)忌警,作為生信小白,聽說Python挺簡單的秒梳,于是就自學(xué)了Python法绵,花了兩天時間了解了Python的基礎(chǔ)語法后,想做個練習(xí)題試試手(實踐是檢驗真理的唯一標(biāo)準(zhǔn))酪碘。
生物信息學(xué)中有一個相當(dāng)普遍的任務(wù) : 序列去冗余朋譬。更精確地說,要生成另一組一致性水平不高于臨界值(如 90%) 的序列兴垦。這并不像聽起來那么容易徙赢,因為這不僅需要一組相似序列,還需要確定選擇一組相似序列中的哪一個序列的規(guī)則探越。在過去的十年中狡赐,已經(jīng)有幾個用于快速序列去冗余的算法。例如钦幔,其中一個經(jīng)過了良好優(yōu)化并易于使用的工具 CD-HIT枕屉。
CD-HIT(可容錯的高同源性聚類數(shù)據(jù)庫)
該程序非常快速鲤氢,基于用戶定義的相似性閾值對蛋白質(zhì)序列進行聚類搀庶,需要輸入一紐 FASTA 格式的序列,并返回兩個文件 :一 個是聚類列表铜异,另一個是所聚各類的代表序列 哥倔。 程序可以在 http://bioinformatics.org/cd-hit/下 載,安裝說明手冊也可在網(wǎng)站獲得揍庄。程序安裝完畢后咆蒿,運行程序的命令格式如下:
cd-hit -i redundant set -0 nr-90 -c 0.9 -n 5
redundant_set 是輸入的文件名,nr-90 是輸出, 0.9 代表 90%的同源性沃测,5是單詞的大小(手冊中提供了選擇單詞大小的建議) 缭黔,還有很多其他的選項可供選擇。
日常結(jié)尾:
雖然這是個小小的計算程序蒂破,但對于初學(xué)者的我來說每一次對原代碼的升級改造馏谨,哪怕是讀懂后的注釋都感覺是一次進步提升,總之代碼雖小附迷,動手最重要惧互!希望更多學(xué)習(xí)Python的愛好者不要像我一樣眼高手低,學(xué)習(xí)編程就是要喇伯,思考喊儡,敲碼,思考稻据,敲碼艾猜,敲碼,再敲碼捻悯!!