如何刪除有90%以上一致性的序列

如何刪除有90%以上一致性的序列

學(xué)習(xí)是個漫長的過程粟关,每次遇到不會的總想要把它收藏起來疮胖,今天就是碰到了不熟悉的CD-HIT,就各種百科,各種查找資料澎灸,就隨手把筆記記錄下來谷市,方便日后和大家交流學(xué)習(xí)。日后再做更完整的補充击孩。
寫在前面的話:
本人是一枚生物學(xué)的學(xué)生,由于對生物信息學(xué)特別感興趣鹏漆,于是想自學(xué)生物信息學(xué)(新手莫怪)
巩梢。了解到生物信息學(xué)要有編程基礎(chǔ),尤其是要會一門編程語言艺玲,例如:R語言括蝠、Python、Perl等饭聚,還要熟悉Linux系統(tǒng)忌警,作為生信小白,聽說Python挺簡單的秒梳,于是就自學(xué)了Python法绵,花了兩天時間了解了Python的基礎(chǔ)語法后,想做個練習(xí)題試試手(實踐是檢驗真理的唯一標(biāo)準(zhǔn))酪碘。

生物信息學(xué)中有一個相當(dāng)普遍的任務(wù) : 序列去冗余朋譬。更精確地說,要生成另一組一致性水平不高于臨界值(如 90%) 的序列兴垦。這并不像聽起來那么容易徙赢,因為這不僅需要一組相似序列,還需要確定選擇一組相似序列中的哪一個序列的規(guī)則探越。在過去的十年中狡赐,已經(jīng)有幾個用于快速序列去冗余的算法。例如钦幔,其中一個經(jīng)過了良好優(yōu)化并易于使用的工具 CD-HIT枕屉。


CD-HIT(可容錯的高同源性聚類數(shù)據(jù)庫)

該程序非常快速鲤氢,基于用戶定義的相似性閾值對蛋白質(zhì)序列進行聚類搀庶,需要輸入一紐 FASTA 格式的序列,并返回兩個文件 :一 個是聚類列表铜异,另一個是所聚各類的代表序列 哥倔。 程序可以在 http://bioinformatics.org/cd-hit/下 載,安裝說明手冊也可在網(wǎng)站獲得揍庄。程序安裝完畢后咆蒿,運行程序的命令格式如下:
cd-hit -i redundant set -0 nr-90 -c 0.9 -n 5
redundant_set 是輸入的文件名,nr-90 是輸出, 0.9 代表 90%的同源性沃测,5是單詞的大小(手冊中提供了選擇單詞大小的建議) 缭黔,還有很多其他的選項可供選擇。

日常結(jié)尾:
雖然這是個小小的計算程序蒂破,但對于初學(xué)者的我來說每一次對原代碼的升級改造馏谨,哪怕是讀懂后的注釋都感覺是一次進步提升,總之代碼雖小附迷,動手最重要惧互!希望更多學(xué)習(xí)Python的愛好者不要像我一樣眼高手低,學(xué)習(xí)編程就是要喇伯,思考喊儡,敲碼,思考稻据,敲碼艾猜,敲碼,再敲碼捻悯!!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末匆赃,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子今缚,更是在濱河造成了極大的恐慌炸庞,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,214評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件荚斯,死亡現(xiàn)場離奇詭異埠居,居然都是意外死亡,警方通過查閱死者的電腦和手機事期,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評論 2 382
  • 文/潘曉璐 我一進店門滥壕,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人兽泣,你說我怎么就攤上這事绎橘。” “怎么了唠倦?”我有些...
    開封第一講書人閱讀 152,543評論 0 341
  • 文/不壞的土叔 我叫張陵称鳞,是天一觀的道長。 經(jīng)常有香客問我稠鼻,道長冈止,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,221評論 1 279
  • 正文 為了忘掉前任候齿,我火速辦了婚禮熙暴,結(jié)果婚禮上闺属,老公的妹妹穿的比我還像新娘。我一直安慰自己周霉,他們只是感情好掂器,可當(dāng)我...
    茶點故事閱讀 64,224評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著俱箱,像睡著了一般国瓮。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上狞谱,一...
    開封第一講書人閱讀 49,007評論 1 284
  • 那天乃摹,我揣著相機與錄音,去河邊找鬼芋簿。 笑死,一個胖子當(dāng)著我的面吹牛璃饱,可吹牛的內(nèi)容都是我干的与斤。 我是一名探鬼主播,決...
    沈念sama閱讀 38,313評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼荚恶,長吁一口氣:“原來是場噩夢啊……” “哼撩穿!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起谒撼,我...
    開封第一講書人閱讀 36,956評論 0 259
  • 序言:老撾萬榮一對情侶失蹤食寡,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后廓潜,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體抵皱,經(jīng)...
    沈念sama閱讀 43,441評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,925評論 2 323
  • 正文 我和宋清朗相戀三年辩蛋,在試婚紗的時候發(fā)現(xiàn)自己被綠了呻畸。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,018評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡悼院,死狀恐怖伤为,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情据途,我是刑警寧澤绞愚,帶...
    沈念sama閱讀 33,685評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站颖医,受9級特大地震影響位衩,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜熔萧,卻給世界環(huán)境...
    茶點故事閱讀 39,234評論 3 307
  • 文/蒙蒙 一蚂四、第九天 我趴在偏房一處隱蔽的房頂上張望光戈。 院中可真熱鬧,春花似錦遂赠、人聲如沸久妆。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,240評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽筷弦。三九已至,卻和暖如春抑诸,著一層夾襖步出監(jiān)牢的瞬間烂琴,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,464評論 1 261
  • 我被黑心中介騙來泰國打工蜕乡, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留奸绷,地道東北人。 一個月前我還...
    沈念sama閱讀 45,467評論 2 352
  • 正文 我出身青樓层玲,卻偏偏與公主長得像号醉,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子辛块,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,762評論 2 345

推薦閱讀更多精彩內(nèi)容