WGDI | 比較基因組分析神器嘹狞,要啥有啥!

寫在前面

Emmm誓竿,前面推送了幾期好基友-比較基因組小王子的 WGDI 軟件使用和比較基因組圖表解讀磅网。后臺(tái)常常受到消息,大體意思“快更新筷屡!”知市。原本,我和小王子商量的是一周一更速蕊。但這兩天小王子就要結(jié)婚了,接下一小段時(shí)間估計(jì)也忙事情娘赴。索性规哲,今天我們把WGDI目前已成稿的內(nèi)容一次推出,以饗讀者诽表。

開展批量化的 ks 計(jì)算

有比較基因組分析經(jīng)驗(yàn)唉锌,更或者多少接觸過相關(guān)領(lǐng)域文章的朋友應(yīng)對(duì)ks有了解。ks值的大小可以反映一定時(shí)間尺度的演化時(shí)間竿奏。wgdi中ka袄简、ks批量計(jì)算,通過paml中的yn00實(shí)現(xiàn)(相對(duì)于其他實(shí)現(xiàn)泛啸,往往更容易得到認(rèn)可)绿语。

當(dāng)然,這需要安裝pal2nal.plpaml,以及需要 在wgdi安裝包目錄(site-package/wgdi)的conf.ini 中配置路徑吕粹。我們?cè)谇懊娴摹栋惭b | 比較基因組系列之一 - WGDI 軟件安裝與配置》一文中已詳細(xì)介紹安裝和配置方式种柑。

一切準(zhǔn)備就緒。wgdi的操作仍然簡單匹耕。
首先是獲取參數(shù)

wgdi -ks ? >> total.conf

隨后編輯配置文件聚请,調(diào)整參數(shù)即可

[ks]
cds_file =  Grape.cds.fa
pep_file =  Grape.pep.fa
align_software = muscle
pairs_file = collinearity file
ks_file = Grape.ks

其中,

  • align_software 支持 muscle 和 mafft
  • pairs_file 自動(dòng)支持 colinearscan 和 mcscanx 的輸出結(jié)果稳其,當(dāng)然也可以是 tab 分隔的 基因?qū)ξ谋疚募?/li>
  • ks_file 即輸出文件

隨后驶赏,直接運(yùn)行即可

wgdi -ks total.conf

計(jì)算需要一點(diǎn)時(shí)間,畢竟是大量基因?qū)染稀4篌w結(jié)果如下煤傍。


注意到,wgdi同時(shí)給出了ng86yn00的計(jì)算結(jié)果损趋,用戶可以自己選擇患久。如果基因?qū)λ悴怀鰜韐s值,那么默認(rèn)為 -1浑槽。
使用wgdi好處之一是支持?jǐn)帱c(diǎn)續(xù)跑蒋失。只要用戶保持輸出文件名字不變化,那么即使運(yùn)行中斷桐玻,下一次運(yùn)行篙挽,wgdi會(huì)從斷點(diǎn)開始計(jì)算,節(jié)省時(shí)間镊靴。針對(duì)來源不同的輸入基因?qū)ξ募晨ǎ鄳?yīng)計(jì)算結(jié)果都會(huì)輸出至用戶指定文件。

精細(xì)的共線性區(qū)塊分析 - BlockInfo

共線性和ks值計(jì)算結(jié)果信息量極大偏竟,事實(shí)上煮落,并不容易展示。此外踊谋,嚴(yán)謹(jǐn)?shù)谋容^基因組分析項(xiàng)目上蝉仇,我們常常需要對(duì)共線性結(jié)果進(jìn)行篩選。因此殖蚕,將相關(guān)信息匯總成表轿衔,會(huì)便于刪選。
wgdi中直接提供這一整合信息的功能睦疫。
首先獲取功能參數(shù)

wgdi -bi ? >> total.conf

調(diào)整對(duì)應(yīng)參數(shù)

vim total.conf
[blockinfo]
blast = Grape.blastp
gff1 =  Grape.gff
gff2 =  Grape.gff
lens1 = Grape.len
lens2 = Grape.len
collinearity = collinearity file
score = 100
evalue = 1e-5
repeat_number = 20
position = order
ks = Grape.ks
ks_col = ks_NG86
savefile = block_information.csv

運(yùn)行即可

wgdi -bi total.conf

輸出結(jié)果解讀害驹,直接在本地使用 Excel 打開即可

結(jié)果文件中內(nèi)容較多,但我們不需要被嚇到蛤育。因?yàn)楦娴男畔⑼鸸伲梢詭椭覀冏龈鼫?zhǔn)確的判斷葫松。以下,我們逐列說明具體含義:

  1. id 即共線性的結(jié)果的唯一標(biāo)識(shí)
  2. chr1,start1,end1 即參考基因組(點(diǎn)圖的左邊)的共線性范圍
  3. chr2,start2,end2 即參考基因組(點(diǎn)圖的上邊)的共線性范圍
  4. pvalue 即共線性結(jié)果評(píng)估摘刑,常常認(rèn)為小于0.01的更合理些
  5. length 即共線性片段長度
  6. ks_median 即共線性片段上所有基因?qū)?code>ks的中位數(shù)(主要用來評(píng)判ks分布的)
  7. ks_average 即共線性片段上所有基因?qū)?code>ks的平均值
  8. homo1,homo2,homo3,homo4,homo5multiple參數(shù)有關(guān)进宝,即一共有homo+multiple列
    主要規(guī)則是:基因?qū)θ绻邳c(diǎn)圖中為紅色,賦值為1枷恕,藍(lán)色賦值為0党晋,灰色賦值為-1(顏色參考前述 wgdi 點(diǎn)圖 相關(guān)推文)。共線性片段上所有基因?qū)x值后求平均值徐块,這樣就賦予該共線性一個(gè)-1,1的值未玻。如果共線性的點(diǎn)大部分為紅色,那么該值接近于1胡控“饨耍可以作為共線性片段的篩選。
  9. block1,block2分別為共線性片段上基因order的位置昼激。
  10. ks共線性片段的上基因?qū)Φ?code>ks值
  11. density1,density2 共線性片段的基因分布密集程度庇绽。值越小表示稀疏

神之一手 - 使用 ks 對(duì) dotplot 著色

純粹的點(diǎn)圖,我們只能模糊地看到片段是否復(fù)制更或者復(fù)制了多少次橙困。如果將 ks 和 共線性 在點(diǎn)圖中展示瞧掺,那么就可以清晰看到共線性上ks值的變化(Ks值,事實(shí)上又對(duì)應(yīng)了一定尺度上的演化時(shí)間)凡傅。
老規(guī)矩辟狈,第一步,獲取參數(shù)配置文件

wgdi -bk ? >> total.conf

修改配置文件即可

vim total.conf
[blockks]
lens1 = Grape.len
lens2 = Grape.len
genome1_name =  Grape
genome2_name =  Grape
blockinfo = block_information.csv
pvalue = 0.01
tandem = true
tandem_length = 20
markersize = 1
area = 0,2
block_length =  5
figsize = 8,8
savefig = Grape.ks.dotplot.pdf

開始繪制

wgdi -bk total.conf


由于 repeat_number 的影響夏跷,近期加倍的片段影響較小哼转,如果對(duì)古老多倍化的某些共線性感興趣,強(qiáng)烈建議修改lens文件(去除一些染色體槽华,保留感興趣的染色體)壹蔓,針對(duì)性的計(jì)算dotplot和ks dotplot。
ks dotplot可以清楚看到猫态,共線性上ks值的變化庶溶。你會(huì)發(fā)現(xiàn),近期加倍產(chǎn)生的共線性片段懂鸵,ks的波動(dòng)一般很小(有時(shí)候行疏,觀測(cè)到波動(dòng)匆光,那么就說明是染色體結(jié)構(gòu)變異區(qū))∧鹆基于這個(gè)現(xiàn)象终息,我們?cè)谂卸╧s 峰值的時(shí)候夺巩,采用共線性的中位數(shù)要相比其他方式要準(zhǔn)確地多。另外周崭,有幸發(fā)現(xiàn)神奇的現(xiàn)象柳譬,如水稻11,12號(hào)就屬于中獎(jiǎng)了。

正確地計(jì)算 Ks 峰值

在判斷ks峰值的時(shí)候续镇,目前仍有不少分析報(bào)道直接采用所有旁系同源基因ks值進(jìn)行計(jì)算美澳。但這存在不少問題。比如串聯(lián)重復(fù)基因積累摸航,會(huì)影響Ks峰值分布制跟。基于上面的ks dotplot酱虎,我們可以直接選取近期加倍產(chǎn)生的共線性片段來計(jì)算ks峰值雨膨。
首先,獲取配置文件參數(shù)

wgdi -kp ? >> total.conf

編輯參數(shù)文件

vim total.conf
[kspeaks]
blockinfo = block_information.csv
pvalue = 0.05                # 可以用來簡單篩選
tandem_length  =  20    # 過濾串聯(lián)重復(fù)
tandem = true                # 同ks dotplot
block_length = 5            # 如調(diào)整為 10 
ks_area = 0,10              # ks值的取值范圍
multiple  = 1
homo = -1,1                  # 在`blockinfo`介紹過读串,可以快速篩選不同的共線性片段聊记,如 0-1 或 0.3-1
fontsize = 9
area = 0,3                   # 橫軸的范圍
figsize = 10,6.18
savefig = Grape.ks_median.distri.pdf
savefile = Grape.ks_median.distri.csv    # 共線性中位數(shù)的數(shù)據(jù)集合,用來繪制ks峰的分布圖恢暖,這個(gè)文件可以重新回到上一步 點(diǎn)圖 繪制排监,確定是否提取到感興趣的共線性區(qū)塊

得到這個(gè)圖之后,我們也可以通過點(diǎn)圖胀茵,重新確認(rèn)是否提取準(zhǔn)確社露。不斷修改參數(shù),更或者手動(dòng)篩選琼娘,直到準(zhǔn)確為止峭弟。

[blockks]
lens1 = Grape.len
lens2 = Grape.len
genome1_name =  Grape
genome2_name =  Grape
blockinfo = Grape.ks_median.distri.csv
pvalue = 0.01
tandem = true
tandem_length = 20
markersize = 1
area = 0,2
block_length =  5
figsize = 8,8
savefig = Grape.ks.dotplot.filter.pdf


舉個(gè)例子,簡單修改參數(shù)脱拼,就可以得到一個(gè)穩(wěn)定的分布瞒瘸,如block_length設(shè)定為10homo設(shè)定為0,1熄浓,area范圍是0,2情臭。因此,葡萄近期加倍的峰值應(yīng)該為1.25赌蔑。多次調(diào)整參數(shù)俯在,可以測(cè)試峰值是否穩(wěn)定。

注意娃惯,Ks值峰值接近于0的時(shí)候跷乐,要小心,因?yàn)楣簿€性片段中有很多等于0的值趾浅。這些等于0的值如何處理愕提,如何判定分化時(shí)間馒稍,我個(gè)人沒確鑿的把握,建議重視浅侨。

寫在最后

比較基因組分析纽谒,事實(shí)上是一個(gè)非常精細(xì)的工作。軟件的使用固然很重要如输,但具體的分析思維更重要鼓黔。wgdi是我個(gè)人基于近幾年在比較基因組工作的實(shí)戰(zhàn)經(jīng)驗(yàn)開發(fā)出來的一款瑞士軍刀式軟件。幾乎覆蓋了目前絕大多數(shù)基礎(chǔ)的比較基因組分析所需功能挨决。當(dāng)然请祖,更多的功能,如祖先染色體重構(gòu)的脖祈,目前還在進(jìn)一步測(cè)試肆捕,相信很快會(huì)與大家見面。
總的來說盖高,希望通過這一系列教程慎陵,能讓大家更為全面地認(rèn)識(shí)wgdi,做出原則上無誤的比較基因組數(shù)據(jù)分析喻奥。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末席纽,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子撞蚕,更是在濱河造成了極大的恐慌润梯,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件甥厦,死亡現(xiàn)場(chǎng)離奇詭異纺铭,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)刀疙,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門舶赔,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人谦秧,你說我怎么就攤上這事竟纳。” “怎么了疚鲤?”我有些...
    開封第一講書人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵锥累,是天一觀的道長。 經(jīng)常有香客問我集歇,道長揩悄,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任鬼悠,我火速辦了婚禮删性,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘焕窝。我一直安慰自己蹬挺,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開白布它掂。 她就那樣靜靜地躺著巴帮,像睡著了一般。 火紅的嫁衣襯著肌膚如雪虐秋。 梳的紋絲不亂的頭發(fā)上榕茧,一...
    開封第一講書人閱讀 51,125評(píng)論 1 297
  • 那天,我揣著相機(jī)與錄音客给,去河邊找鬼用押。 笑死滚朵,一個(gè)胖子當(dāng)著我的面吹牛晕鹊,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播眠冈,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼桩引,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼缎讼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起坑匠,我...
    開封第一講書人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤血崭,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后厘灼,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體夹纫,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年手幢,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了捷凄。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡围来,死狀恐怖跺涤,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情监透,我是刑警寧澤桶错,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站胀蛮,受9級(jí)特大地震影響院刁,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜粪狼,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一退腥、第九天 我趴在偏房一處隱蔽的房頂上張望任岸。 院中可真熱鬧,春花似錦狡刘、人聲如沸享潜。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽剑按。三九已至,卻和暖如春澜术,著一層夾襖步出監(jiān)牢的瞬間艺蝴,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來泰國打工鸟废, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留猜敢,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓侮攀,卻偏偏與公主長得像锣枝,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子兰英,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容