寫在前面
我經(jīng)常使用一個(gè)不起眼的功能,Fasta Stat拭嫁。但從未寫過(guò)相關(guān)推送可免。主要是其使用過(guò)于簡(jiǎn)單,只要把 Fasta 序列文件放進(jìn)去做粤,點(diǎn)擊 Start 就可以了浇借。早上起來(lái),突然想起了這一功能驮宴,并增加了一個(gè)相對(duì)高頻的需求快捷完成選項(xiàng)逮刨。既然這一功能是我高頻使用,那么相信他就跟序列提取功能類似。雖然不起眼修己,雖然是小功能恢总,但是很實(shí)用,甚至或者是最能節(jié)約數(shù)據(jù)分析時(shí)間睬愤。
于是索性也寫一個(gè)帖子
快速統(tǒng)計(jì) Fasta 文件/序列 的相關(guān)信息
在日常分析中片仿,我們常常手上會(huì)有一個(gè) Fasta 序列文件,文件可能很小尤辱,數(shù)十 Kb砂豌,也可能很大 數(shù)十 Gb。當(dāng)然光督,可以使用 TBtools 的 Big File View 進(jìn)行快速瀏覽阳距。更多時(shí)候,我們想要知道的或許是:
- 有多少個(gè)序列结借?
- 序列長(zhǎng)度分布幾何筐摘?比如 N50
- 序列 GC 含量幾何?
- 如果是組裝結(jié)果船老,Gaps 情況如何咖熟?
......
于是,你打開(kāi)了 TBtools
于是看到
輸入界面簡(jiǎn)單
可以看到柳畔,上述操作可以快速獲得序列文件概覽
獲取每一個(gè)序列的統(tǒng)計(jì)信息
有些時(shí)候 馍管,我們不僅僅想要知道序列文件整體情況,我們還想知道其中每條序列的長(zhǎng)度薪韩,GC含量等等
于是操作起來(lái)也很簡(jiǎn)單确沸,只需要設(shè)置一個(gè)輸出文件就可以
便捷操作有二
直接輸出序列長(zhǎng)度信息。事實(shí)上躬存,這個(gè)功能比較常用张惹,比如一些FPKM/RPKM的計(jì)算,比如Basic BioSequences View等序列結(jié)構(gòu)可視化功能等岭洲。
此時(shí)只需要補(bǔ)充勾選Keep Only Sequence Length即可。于是上述輸出文件會(huì)變成坎匿,
超快盾剩,超方便~
快速查看幾/一個(gè)序列的情況。有時(shí)候替蔬,我們手上會(huì)有一個(gè)或幾個(gè)序列告私,會(huì)想要快速查看其大體情況,比如長(zhǎng)度承桥。那么驻粟,直接切換輸入選項(xiàng)到 Seq Input 即可。
寫在后面
Emmm... 功能整體就這么簡(jiǎn)單。其實(shí)我甚至認(rèn)為蜀撑,不需要這個(gè)推文挤巡,每個(gè)人看到 這個(gè)功能也知道怎么使用。當(dāng)然酷麦,這是我個(gè)人寫 TBtools 時(shí)一直期望矿卑。
真正優(yōu)秀的界面化工具,應(yīng)該是一打開(kāi)就會(huì)使用沃饶,而無(wú)需Manual母廷。
不過(guò),這有可能嗎糊肤?哈哈琴昆。