2019-12-23 學習記錄7

CD-HIT

cd-hit 是用于蛋白質(zhì)序列或核酸序列聚類的工具熊锭,根據(jù)序列的相似度對序列進行聚類以去除冗余的序列弧轧,一般用于構建非冗余的數(shù)據(jù)集用于后續(xù)的實驗分析。

通常來說球涛,根據(jù)序列相似度對序列進行聚類劣针,首先想到的可能是通過計算兩兩序列之間的相似度對序列進行聚類,這樣需要進行all by all的比較亿扁,相對來說比較費時捺典,而 cd-hit 軟件可以避開all by all比較的問題,大大縮短了運行時間从祝。

cd-hit 是一種貪婪的增量聚類方法襟己,首先對輸入的序列根據(jù)序列的長短進行排序,并從最長到最短的順序處理它們牍陌。將最長的序列自動的分為第一類并作為第一類的代表序列擎浴,然后將剩下的序列與在其之前發(fā)現(xiàn)的代表性序列進行比較,根據(jù)序列相似性將其歸為其中的一類或成為新的一個聚類的代表序列毒涧,如此遍歷所有序列完成聚類過程贮预。 在默認方式中,序列僅和每一個聚類中的代表性序列(為這類中的最長序列)進行比較而不和這個類中的其他序列進行比對。 在準確模式下仿吞,序列會和每個聚類中的所有序列進行比較然后決定是成為新的一類還是歸為其中的一類中滑频。

cd-hit下載和安裝

下載網(wǎng)址
https://github.com/weizhongli/cdhit/releases

wget https://github.com/weizhongli/cdhit/releases/download/V4.6.8/cd-hit-v4.6.8-2017-1208-source.tar.gz    ## 下載cd-hit
tar -zxvf cd-hit-v4.6.8-2017-1208-source.tar.gz  ## 解壓
cd cd-hit-v4.6.8-2017-1208
make  ## 編譯
cd cd-hit-auxtools
make ## 編譯
## 如果編譯失敗,可以下載二進制版本唤冈,解壓就可以使用不用編譯
wget https://github.com/weizhongli/cdhit/releases/download/V4.6.7/cd-hit-v4.6.7-2017-0501-Linux-binary.tar.gz  ## 解壓即用峡迷,不用編譯`

cd-hit的使用

* cd-hit        Cluster peptide sequences
* cd-hit-est        Cluster nucleotide sequences
* cd-hit-2d         Compare 2 peptide databases
* cd-hit-est-2d     Compare 2 nucleotide databases
* psi-cd-hit        Cluster proteins at <40% cutoff
* cd-hit-lap        Identify overlapping reads
* cd-hit-dup        Identify duplicates from single or paired Illumina reads
* cd-hit-454        Identify duplicates from 454 reads
* cd-hit-otu        Cluster rRNA tags
* cd-hit-para       Cluster sequences in parallel on a computer cluster
* h-cd-hit      Hierarchical clustering

cd-hit 的基本用法

cd-hit -i db -o db90 -c 0.9 -n 5 -M 16000 –d 0 -T 8

參數(shù)說明
-i 輸入文件,fasta格式的序列
-o 輸出文件路徑和名字
-c 相似性(clustering threshold)你虹,0.9表示相似性大于等于90%的為一類
-n 兩兩序列進行序列比對時選擇的 word size
-d 0表示使用 fasta 標題中第一個空格前的字段作為序列名字
-M 16000绘搞,16GB RAM
-T 使用的線程數(shù)

輸入文件

Cd-hit的輸入文件僅有一個fasta格式文件 ,一般來說cd-hit是將幾個樣品的基因或蛋白序列進行聚類傅物,所以需要將這些樣品的序列匯總到一起作為輸入文件夯辖,可在linux系統(tǒng)下通過cat命令實現(xiàn):

cat a.fasta b.fasta c.fasta > all.fasta

其中a.fasta,b.fasta董饰,c.fasta為fasta格式的三個樣品基因或蛋白序列楼雹,all.fasta為匯總后的序列,在分析中作為cd-hit的輸入序列尖阔。值得注意的是,在三個樣品序列中不能有序列名相同的序列榨咐,否則會出現(xiàn)錯誤介却。因此,一般在分析時會在各樣品序列名前添加樣品名块茁,這樣即可避免重復齿坷。序列名是fasta文件中以“>”開頭的行空格之前的內(nèi)容,

輸出文件介紹

Cd-hit有兩個輸出文件:一個是只含有所有代表序列(即去冗余后的序列)的fasta文件数焊,其格式參看圖2-1永淌;另一個是以.clstr結尾的聚類信息文件,其格式如圖4-1佩耳。


8631a9c5cf0d4153a7a2f3fa9c88ce94.jpeg

Choose of word size:
-n 5 for thresholds 0.7 ~ 1.0
-n 4 for thresholds 0.6 ~ 0.7
-n 3 for thresholds 0.5 ~ 0.6
-n 2 for thresholds 0.4 ~ 0.5

cd-hit-est的基本用法

cd-hit-est -i est_human -o est_human95 -c 0.95 -n 10 -d 0 -M 16000 - T 8

cd-hit-est 的基本用法基本和 cd-hit 相同遂蛀,只是 cd-hit-est 是用于核酸序列聚類,其中 word size 范圍有點差異
-n 10, 11 for thresholds 0.95 ~ 1.0
-n 8,9 for thresholds 0.90 ~ 0.95
-n 7 for thresholds 0.88 ~ 0.9
-n 6 for thresholds 0.85 ~ 0.88
-n 5 for thresholds 0.80 ~ 0.85
-n 4 for thresholds 0.75 ~ 0.8

快主要是兩個方面的原因:一個是使用了word過濾方法干厚,即如果兩條序列之間的相似性在80%(假設序列長度為100)李滴,那么它們至少有60個相同的長度為2的word,至少有40個相同的長度為3的word蛮瞄,至少有20個相同的長度為4的word所坯。基于這個原則挂捅,在處理新的序列的時候芹助,如果新的序列與已有序列的相同word的長度不能滿足這些要求則不需要進行比對了,這極大的降低了時間消耗;另外一個速度快的原因是使用了index table状土,可以很快的計算序列之間相同word的數(shù)目无蜂。

缺點

1 它不能保證同一個序列類中的序列的相似性都在threshold之上,因為每次比對都是用新序列與序列類的代表序列進行声诸,這就有可能使得序列類中除了代表序列外其他序列之間的相似性在threshold之下酱讶。比如A是代表序列,B與A的相似性大于0.95彼乌,C與A的相似性也大于0.95泻肯,但是這并不能保證B與C的相似性也大于0.95.
2 它不能保證一個序列類的病毒與另外一個序列類中的病毒的相似性也在threshold之上,原因還是在于用代表序列代表了整個序列類灶挟。
3 基于word filter的方法使得使用每個長度的word能夠處理的冗余性水平有限,如使用長度為2的word只能夠得到相似性在50%以上的序列毒租,長度為3的word只能夠得到相似性在66.7%以上的序列類稚铣,類似的,長度為5的word只能夠得到相似性在80%以上的序列墅垮。在實際應用的時候需要注意選擇的word長度與threshold的匹配惕医。

使用cd-hit對蛋白質(zhì)或核酸序列進行聚類
教程 | 如何用cd-hit去除冗余序列?
Cdhit的使用說明

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末算色,一起剝皮案震驚了整個濱河市抬伺,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌灾梦,老刑警劉巖峡钓,帶你破解...
    沈念sama閱讀 218,122評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異若河,居然都是意外死亡能岩,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評論 3 395
  • 文/潘曉璐 我一進店門萧福,熙熙樓的掌柜王于貴愁眉苦臉地迎上來拉鹃,“玉大人,你說我怎么就攤上這事鲫忍∶危” “怎么了?”我有些...
    開封第一講書人閱讀 164,491評論 0 354
  • 文/不壞的土叔 我叫張陵饲窿,是天一觀的道長煌寇。 經(jīng)常有香客問我,道長逾雄,這世上最難降的妖魔是什么阀溶? 我笑而不...
    開封第一講書人閱讀 58,636評論 1 293
  • 正文 為了忘掉前任腻脏,我火速辦了婚禮,結果婚禮上银锻,老公的妹妹穿的比我還像新娘永品。我一直安慰自己,他們只是感情好击纬,可當我...
    茶點故事閱讀 67,676評論 6 392
  • 文/花漫 我一把揭開白布鼎姐。 她就那樣靜靜地躺著,像睡著了一般更振。 火紅的嫁衣襯著肌膚如雪炕桨。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,541評論 1 305
  • 那天肯腕,我揣著相機與錄音献宫,去河邊找鬼。 笑死实撒,一個胖子當著我的面吹牛姊途,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播知态,決...
    沈念sama閱讀 40,292評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼捷兰,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了负敏?” 一聲冷哼從身側響起寂殉,我...
    開封第一講書人閱讀 39,211評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎原在,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體彤叉,經(jīng)...
    沈念sama閱讀 45,655評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡庶柿,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,846評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了秽浇。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片浮庐。...
    茶點故事閱讀 39,965評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖柬焕,靈堂內(nèi)的尸體忽然破棺而出审残,到底是詐尸還是另有隱情,我是刑警寧澤斑举,帶...
    沈念sama閱讀 35,684評論 5 347
  • 正文 年R本政府宣布搅轿,位于F島的核電站,受9級特大地震影響富玷,放射性物質(zhì)發(fā)生泄漏璧坟。R本人自食惡果不足惜既穆,卻給世界環(huán)境...
    茶點故事閱讀 41,295評論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望雀鹃。 院中可真熱鬧幻工,春花似錦、人聲如沸黎茎。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,894評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽傅瞻。三九已至踢代,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間俭正,已是汗流浹背奸鬓。 一陣腳步聲響...
    開封第一講書人閱讀 33,012評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留掸读,地道東北人串远。 一個月前我還...
    沈念sama閱讀 48,126評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像儿惫,于是被迫代替她去往敵國和親澡罚。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,914評論 2 355