寫(xiě)在前面
做生信數(shù)據(jù)分析時(shí)雨席,最常遇到的問(wèn)題,仍然是文本處理吠式。主要原因簡(jiǎn)單陡厘,我們永遠(yuǎn)不知道上一個(gè)人會(huì)給我們什么樣的東西抽米,而我們要的又常常不是他們給的〔谥茫基于 GFF 提取 CDS全長(zhǎng)云茸,相關(guān)討論很多,沒(méi)想到今天還會(huì)遇其他問(wèn)題谤饭。
「TBtools」提取的 CDS 序列 ID 很奇怪
有用戶使用 TBtools 提取物種的 CDS 序列标捺,得到的文件如下
簡(jiǎn)單來(lái)說(shuō),文件前面多了一堆標(biāo)識(shí)符揉抵。這類(lèi)文本常常會(huì)影響下游數(shù)據(jù)分析亡容。當(dāng)然,主要出現(xiàn)在 NCBI 下載的 GFF 中功舀。我第一反應(yīng)是用戶是否選錯(cuò)標(biāo)簽萍倡,但看到 GFF3 文件后身弊。
還是文件問(wèn)題辟汰,似乎無(wú)解。用戶提議阱佛,是否可以使用 locus tag帖汞。
但這個(gè)不行,因?yàn)?locus tag 本身是用來(lái)組織轉(zhuǎn)錄本為基因的凑术,不是組織CDS為轉(zhuǎn)錄本全長(zhǎng)CDS的翩蘸。所以只能 Parent 或 transcript_id。我的第一反應(yīng)是使用 GXF ID Rename淮逊。只是這個(gè)準(zhǔn)備文件還是麻煩
幾乎所有 ID 要去除的催首,其實(shí)是完全相同的 TAG。我們當(dāng)然可以使用 GXF Pos & Info. Extract 得到信息文件泄鹏,隨后整理成兩列郎任。但這個(gè)似乎還是麻煩。最好的辦法是直接文本替換备籽。
于是我想起了 「Batch String Replace」舶治,用戶可以簡(jiǎn)單通過(guò)下述操作,完成修改
注意车猬,制表符分隔霉猛。
rna-gnl\|WGS:JAEACU\|(\w+) $1
可以看到,已經(jīng)調(diào)整好了珠闰。直接使用即可惜浅。
寫(xiě)在后面
「Batch String Replace」,事實(shí)上伏嗜,寫(xiě)這個(gè)功能坛悉,我就沒(méi)想著用它杭朱,只是后面似乎又很經(jīng)常被使用。而我常常非炒瞪ⅲ看到的功能弧械,用的人反而不錯(cuò),或許這就是:
有心栽桃桃不成空民,無(wú)心栽柳柳成蔭刃唐。