這個(gè)周末前坏瘩,CJ大神終于完成了RNA-seq流程中從原始SRA數(shù)據(jù)獲取到RNA-seq定量的一系列插件绍妨。具體文章見(jiàn)鏈接润脸。
http://www.reibang.com/p/c8b08314e133
整體上,覆蓋了數(shù)個(gè)功能他去,四個(gè)插件:
- SRA 數(shù)據(jù)查詢與整理:SRA XML to Table毙驯,見(jiàn)推文:挖掘SRA的輔助小工具(NCBI高通量測(cè)序數(shù)據(jù)收錄庫(kù))https://mp.weixin.qq.com/s/FnuSUqhpyKqm_HYpu6phnw
- SRA 數(shù)據(jù)鏈接獲取:SRA XML to Table 和 SRA Number to ENA Info. 前者已經(jīng)包括了 NCBI 和 DDBJ 數(shù)據(jù)下載鏈接,后者主要作為補(bǔ)充灾测,附加 ENA 下載鏈接(更為穩(wěn)點(diǎn))爆价。詳細(xì)見(jiàn):公開(kāi)可獲取~沒(méi)有下載不到的測(cè)序原始數(shù)據(jù)!https://mp.weixin.qq.com/s/CS04e0QRjq0B-NZUfCpUAg
- Ascp GUI Wrapper:個(gè)人實(shí)測(cè)媳搪,每天清晨通過(guò) FTP 鏈接下載測(cè)序原始數(shù)據(jù)铭段,速度可以達(dá)到 10Mb/s。但更多時(shí)候數(shù)據(jù)只有不到 300Kb/s秦爆。網(wǎng)絡(luò)合適的情況下序愚,可以使用 Aspera ,速度可以達(dá)到 30Mb/s等限。于是寫了并公開(kāi)釋放了這個(gè)插件爸吮,詳細(xì)見(jiàn):插件 | 人人-點(diǎn)點(diǎn)點(diǎn)-光速下載 NCBI/ENA NGS原始數(shù)據(jù) https://mp.weixin.qq.com/s/YYneVPb3V6Dq5WXiq2JYTQ
- SRAtoFastq,sra 是 NCBI 定義的二代數(shù)據(jù)存儲(chǔ)格式望门,文件大小比f(wàn)astq.gz下形娇,考慮網(wǎng)絡(luò)帶寬的情況下,下載 sra 數(shù)據(jù)更方便筹误。下載后需要進(jìn)行轉(zhuǎn)換埂软,于是有了插件,詳細(xì)見(jiàn):SRAtoFastq | 任何人都能自主分析測(cè)序原始數(shù)據(jù) https://mp.weixin.qq.com/s/WC6Q1wr2M4CsdVZ2XYFjRA
- FastQC,無(wú)論是NCBI SRA等數(shù)據(jù)庫(kù)下載勘畔,還是公司返還的測(cè)序數(shù)據(jù)所灸,多少還是要看下測(cè)序質(zhì)量,確保質(zhì)量OK 或者不要有樣品降解炫七,嚴(yán)重污染云云爬立,于是有插件,詳細(xì)見(jiàn):插件FastQC | 點(diǎn)點(diǎn)點(diǎn)万哪,人人看看測(cè)序數(shù)據(jù)質(zhì)量 https://mp.weixin.qq.com/s/Sz9enr_8s9P0goxEObn4TA
- Trimmomatic侠驯,無(wú)論轉(zhuǎn)換得到,或者是公司測(cè)序后返還的 Fastq.gz 數(shù)據(jù)往往是原始數(shù)據(jù)奕巍,通過(guò) FastQC 可以判斷吟策,隨后進(jìn)行質(zhì)量控制,如去除接頭和低質(zhì)量堿基的止,于是有插件檩坚,詳細(xì)見(jiàn):Trimmomatic | 點(diǎn)點(diǎn)點(diǎn),測(cè)序原始數(shù)據(jù)質(zhì)控诅福,技能√get https://mp.weixin.qq.com/s/Gmazcogi2KBNkv7J4hXh9Q
- Kallisto匾委,RNAseq 數(shù)據(jù)的基本分析和目的,就是獲得基因表達(dá)量矩陣氓润。在普通筆記本上赂乐,如 4G 內(nèi)存云云,那么 Kallisto 是最好的選擇咖气,于是有插件挨措,詳細(xì)見(jiàn):
Kallisto | 點(diǎn)點(diǎn)點(diǎn),從 測(cè)序數(shù)據(jù) 到 基因表達(dá)量矩陣 人人都可以崩溪! https://mp.weixin.qq.com/s/zhYjsF-LiPzPetbVh7bfcA- Trans Value Sum浅役,Kallisto 分析結(jié)果是轉(zhuǎn)錄本水平的表達(dá)量或Counts矩陣,但很多人感興趣的是基因水平的悯舟,于是担租,公開(kāi)釋放了功能,詳細(xì)見(jiàn):匯總 | 轉(zhuǎn)錄本表達(dá)矩陣 到 基因表達(dá)矩陣 https://mp.weixin.qq.com/s/JPM7ofuqZcKPZjySL7w5lA
首先感謝CJ大神能夠花時(shí)間在RNA-seq插件的開(kāi)(da)發(fā)(bao)工作上(再也不能push作者了)抵怎。雖然他本人經(jīng)常自嘲只是在wrap奋救,但這一系列插件足夠消除seq新手入門的門檻。我相信新手只要順著這個(gè)匯總操作反惕,不需要命令行尝艘,每個(gè)人都能完成seq的RNA定量表達(dá)分析(只要你肯)。當(dāng)然從bioinformation研究的角度上來(lái)看姿染,這些插件效率不夠高背亥,也沒(méi)辦法進(jìn)行大規(guī)模seq定量(>10)秒际,更無(wú)法自由定制化。但是對(duì)于那些只是做初步挖掘獲取線索的科研人員(例如用新方法挖掘已經(jīng)存在的seq數(shù)據(jù))狡汉,或者是只想做6-10個(gè)樣本的小型課題組來(lái)說(shuō)(需要一套seq數(shù)據(jù)來(lái)講故事的時(shí)候)娄徊,這套插件的幫助是非常巨大的(這也是作者的本意)。
接下來(lái)我會(huì)根據(jù)CJ大神給出的步驟盾戴,分別給出TBtools和命令行的實(shí)現(xiàn)方式從數(shù)據(jù)查詢寄锐、下載、轉(zhuǎn)換尖啡、質(zhì)檢橄仆、修剪桐筏、定量赵辕、表達(dá)矩陣的全套流程。希望每個(gè)堅(jiān)持下來(lái)的人能走出自閉屋群,順利完成seq數(shù)據(jù)的定量分析畏梆。
數(shù)據(jù)獲取
首先我們需要找到一個(gè)數(shù)據(jù)集下載(如:PRJNA358808 或者 SRP095684)您宪。通常我們可以去NCBI或者ENA去搜索關(guān)鍵字查找到相應(yīng)信息。下面分別介紹這兩個(gè)數(shù)據(jù)庫(kù)獲取ftp下載地址的方式具温。
NCBI
NCBI查詢地址如下:
https://www.ncbi.nlm.nih.gov/sra/?term=prjna358808
看到一共有24個(gè)runs蚕涤,點(diǎn)擊右上角的”send to“
這里選擇保存為文件筐赔,格式選擇完整的XML文件铣猩,最后點(diǎn)擊create file下載.
在TBtools打開(kāi)SRA XML to Table tab,分別按照要求填好xml文件和輸出路徑茴丰,之后點(diǎn)擊確定达皿。
可以看到所有下載地址已經(jīng)被匯總在一個(gè)表格里了。
需要注意的是贿肩,由于TBtools默認(rèn)保存的格式是txt峦椰,這里會(huì)提示你格式不匹配,選擇是直接打開(kāi)就好了汰规,excel會(huì)自動(dòng)識(shí)別文件的汤功。
ENA下載地址獲取方式
同樣是在ENA查詢,地址如下:
https://www.ebi.ac.uk/ena/browser/text-search?query=PRJNA358808
這里選擇run可以看到所有SRR列表
復(fù)制到excel里溜哮,默認(rèn)會(huì)分成2行
這里還是按照填入對(duì)應(yīng)的信息即可滔金,如圖:
點(diǎn)擊開(kāi)始,該插件會(huì)把你輸入的所有SRRnum的下載信息全部匯總在一個(gè)叫SRR_download_info_table的excel文件中茂嗓。
這樣餐茵,你就獲得了所有SRR的下載地址,值得注意的是述吸,這個(gè)表格數(shù)據(jù)很奇怪忿族。命名是雙端測(cè)序的數(shù)據(jù),但fastq居然只有一個(gè)文件。
正常的雙端測(cè)序應(yīng)該有兩個(gè)文件的
保險(xiǎn)起見(jiàn)我們還是下載所有SRA文件道批,再用插件把SRA轉(zhuǎn)為Fastq吧错英。
另外,ENA好像沒(méi)有整個(gè)實(shí)驗(yàn)的描述隆豹,我們還是得去NCBI查看整個(gè)實(shí)驗(yàn)的method和sample走趋。地址如下“
https://www.ncbi.nlm.nih.gov/Traces/study/?acc=SRP095684&o=acc_s%3Aa
最后,這些步驟似乎都沒(méi)用到命令行……好像也沒(méi)有必要