寫(xiě)在前面
伴隨高通量測(cè)序技術(shù)的普及雷袋,海量的測(cè)序數(shù)據(jù)被產(chǎn)生并上傳到網(wǎng)絡(luò)數(shù)據(jù)庫(kù)晃跺,如NCBI SRA莉给。我們每個(gè)人都可以很輕易地獲得這些數(shù)據(jù),并用于有生物學(xué)問(wèn)題針對(duì)性地分析问裕。數(shù)據(jù)容易獲取逮壁,但數(shù)據(jù)具體來(lái)源和信息卻難以查看和整理。
SRA數(shù)據(jù)檢索與查看中遇到的問(wèn)題
通常粮宛,我們會(huì)先進(jìn)入SRA數(shù)據(jù)庫(kù)進(jìn)行檢索窥淆,如
其中卖宠,總共可看到菠蘿可能有381個(gè)已收錄的測(cè)序數(shù)據(jù)。
對(duì)這些數(shù)據(jù)進(jìn)行信息篩選忧饭,如我們需要的是菠蘿扛伍,果實(shí),RNAseq數(shù)據(jù)词裤,那么一般操作是
我們會(huì)得到一張表格蜒秤,
看起來(lái)信息非常豐富,但基本沒(méi)用亚斋。因?yàn)楹芏嘀匾男畔⒉](méi)有被包括進(jìn)來(lái)作媚。
所以聰明的做法,是
在頁(yè)面中帅刊,我們可以看到最后纸泡,有組織以及其他發(fā)育階段等相關(guān)記錄(當(dāng)然并不是所有數(shù)據(jù)都會(huì)有,只是比上述的RunInfo.txt信息全面很多)
當(dāng)所需要篩選的數(shù)據(jù)只有幾十個(gè)的時(shí)候赖瞒,RunSelector事實(shí)上確實(shí)基本足夠使用女揭,可是超過(guò)60個(gè)就需要翻頁(yè),且常常無(wú)法下載表格用于進(jìn)一步篩選栏饮。
一個(gè)新增的功能
事實(shí)上吧兔,在SRA檢索結(jié)束后,我們下載文件時(shí)袍嬉,會(huì)有另外一個(gè)選項(xiàng)境蔼,
這個(gè)XML文件,正如其名Full伺通,其最真實(shí)的保留了每一個(gè)檢索結(jié)果的幾乎所有記錄信息箍土。所以,解析這個(gè)文件罐监,是一個(gè)解法吴藻。
下載后打開(kāi)這個(gè)文件,可發(fā)現(xiàn)弓柱,XML并非閱讀友好的文件格式沟堡。但事實(shí)上,這個(gè)確實(shí)包括了所有我們需要的信息矢空。
于是航罗,我在TBtools中新增了一個(gè)功能,
使用起來(lái)非常簡(jiǎn)單妇多,直接將下載完成好的SraExperimentPackage.xml文件伤哺,設(shè)置為輸入,并設(shè)置好輸出文件即可
于是我們得到表格
寫(xiě)在后面
以上,即是新功能的用處立莉,或許并不是太多人會(huì)用到绢彤,不過(guò)我會(huì)用到。(恩...似乎有某個(gè)R包可以做蜓耻,不過(guò)我相信茫舶,那個(gè)包在用戶(hù)友好上可以繼續(xù)提升)
最近我并沒(méi)有推新的功能。主要精力放在個(gè)人的課題上刹淌,而事實(shí)上饶氏,也改進(jìn)了TBtools中不少工具。其中有一處改動(dòng)是對(duì)newick tree的解析有勾,變得更加穩(wěn)健疹启。同時(shí)也改進(jìn)了基于雙名獲得進(jìn)化關(guān)系的工具。之前只支持被子植物(基于APG IV)蔼卡,現(xiàn)在我增加多數(shù)低等植物的可能的進(jìn)化關(guān)系進(jìn)去喊崖。當(dāng)然也包括裸子植物等。
可以看到雇逞,現(xiàn)在可以可視化所有已測(cè)序的植物列表(被子植物荤懂,裸子植物,苔蘚塘砸,蕨類(lèi)节仿,藻類(lèi)...),一共是374個(gè)物種掉蔬,你需要做的廊宪,只是提供一個(gè)雙名列表。
如果你確實(shí)需要用到TBtools眉踱,可到QQ群下載以及與其他用戶(hù)朋友交流
歡迎訪(fǎng)問(wèn)本課題組網(wǎng)站
園藝植物小分子RNA與基因組研究-夏瑞課題組
課題組主頁(yè):http://xialab.scau.edu.cn/