RNA-seq從入門到自閉(前言+數(shù)據(jù)獲缺谙选)

這個(gè)周末前坏瘩,CJ大神終于完成了RNA-seq流程中從原始SRA數(shù)據(jù)獲取到RNA-seq定量的一系列插件绍妨。具體文章見(jiàn)鏈接润脸。
http://www.reibang.com/p/c8b08314e133

整體上,覆蓋了數(shù)個(gè)功能他去,四個(gè)插件:

  1. SRA 數(shù)據(jù)查詢與整理:SRA XML to Table毙驯,見(jiàn)推文:挖掘SRA的輔助小工具(NCBI高通量測(cè)序數(shù)據(jù)收錄庫(kù))https://mp.weixin.qq.com/s/FnuSUqhpyKqm_HYpu6phnw
  2. SRA 數(shù)據(jù)鏈接獲取:SRA XML to Table 和 SRA Number to ENA Info. 前者已經(jīng)包括了 NCBI 和 DDBJ 數(shù)據(jù)下載鏈接,后者主要作為補(bǔ)充灾测,附加 ENA 下載鏈接(更為穩(wěn)點(diǎn))爆价。詳細(xì)見(jiàn):公開(kāi)可獲取~沒(méi)有下載不到的測(cè)序原始數(shù)據(jù)!https://mp.weixin.qq.com/s/CS04e0QRjq0B-NZUfCpUAg
  3. Ascp GUI Wrapper:個(gè)人實(shí)測(cè)媳搪,每天清晨通過(guò) FTP 鏈接下載測(cè)序原始數(shù)據(jù)铭段,速度可以達(dá)到 10Mb/s。但更多時(shí)候數(shù)據(jù)只有不到 300Kb/s秦爆。網(wǎng)絡(luò)合適的情況下序愚,可以使用 Aspera ,速度可以達(dá)到 30Mb/s等限。于是寫了并公開(kāi)釋放了這個(gè)插件爸吮,詳細(xì)見(jiàn):插件 | 人人-點(diǎn)點(diǎn)點(diǎn)-光速下載 NCBI/ENA NGS原始數(shù)據(jù) https://mp.weixin.qq.com/s/YYneVPb3V6Dq5WXiq2JYTQ
  4. SRAtoFastq,sra 是 NCBI 定義的二代數(shù)據(jù)存儲(chǔ)格式望门,文件大小比f(wàn)astq.gz下形娇,考慮網(wǎng)絡(luò)帶寬的情況下,下載 sra 數(shù)據(jù)更方便筹误。下載后需要進(jìn)行轉(zhuǎn)換埂软,于是有了插件,詳細(xì)見(jiàn):SRAtoFastq | 任何人都能自主分析測(cè)序原始數(shù)據(jù) https://mp.weixin.qq.com/s/WC6Q1wr2M4CsdVZ2XYFjRA
  5. FastQC,無(wú)論是NCBI SRA等數(shù)據(jù)庫(kù)下載勘畔,還是公司返還的測(cè)序數(shù)據(jù)所灸,多少還是要看下測(cè)序質(zhì)量,確保質(zhì)量OK 或者不要有樣品降解炫七,嚴(yán)重污染云云爬立,于是有插件,詳細(xì)見(jiàn):插件FastQC | 點(diǎn)點(diǎn)點(diǎn)万哪,人人看看測(cè)序數(shù)據(jù)質(zhì)量 https://mp.weixin.qq.com/s/Sz9enr_8s9P0goxEObn4TA
  6. Trimmomatic侠驯,無(wú)論轉(zhuǎn)換得到,或者是公司測(cè)序后返還的 Fastq.gz 數(shù)據(jù)往往是原始數(shù)據(jù)奕巍,通過(guò) FastQC 可以判斷吟策,隨后進(jìn)行質(zhì)量控制,如去除接頭和低質(zhì)量堿基的止,于是有插件檩坚,詳細(xì)見(jiàn):Trimmomatic | 點(diǎn)點(diǎn)點(diǎn),測(cè)序原始數(shù)據(jù)質(zhì)控诅福,技能√get https://mp.weixin.qq.com/s/Gmazcogi2KBNkv7J4hXh9Q
  7. Kallisto匾委,RNAseq 數(shù)據(jù)的基本分析和目的,就是獲得基因表達(dá)量矩陣氓润。在普通筆記本上赂乐,如 4G 內(nèi)存云云,那么 Kallisto 是最好的選擇咖气,于是有插件挨措,詳細(xì)見(jiàn):
    Kallisto | 點(diǎn)點(diǎn)點(diǎn),從 測(cè)序數(shù)據(jù) 到 基因表達(dá)量矩陣 人人都可以崩溪! https://mp.weixin.qq.com/s/zhYjsF-LiPzPetbVh7bfcA
  8. Trans Value Sum浅役,Kallisto 分析結(jié)果是轉(zhuǎn)錄本水平的表達(dá)量或Counts矩陣,但很多人感興趣的是基因水平的悯舟,于是担租,公開(kāi)釋放了功能,詳細(xì)見(jiàn):匯總 | 轉(zhuǎn)錄本表達(dá)矩陣 到 基因表達(dá)矩陣 https://mp.weixin.qq.com/s/JPM7ofuqZcKPZjySL7w5lA

首先感謝CJ大神能夠花時(shí)間在RNA-seq插件的開(kāi)(da)發(fā)(bao)工作上(再也不能push作者了)抵怎。雖然他本人經(jīng)常自嘲只是在wrap奋救,但這一系列插件足夠消除seq新手入門的門檻。我相信新手只要順著這個(gè)匯總操作反惕,不需要命令行尝艘,每個(gè)人都能完成seq的RNA定量表達(dá)分析(只要你肯)。當(dāng)然從bioinformation研究的角度上來(lái)看姿染,這些插件效率不夠高背亥,也沒(méi)辦法進(jìn)行大規(guī)模seq定量(>10)秒际,更無(wú)法自由定制化。但是對(duì)于那些只是做初步挖掘獲取線索的科研人員(例如用新方法挖掘已經(jīng)存在的seq數(shù)據(jù))狡汉,或者是只想做6-10個(gè)樣本的小型課題組來(lái)說(shuō)(需要一套seq數(shù)據(jù)來(lái)講故事的時(shí)候)娄徊,這套插件的幫助是非常巨大的(這也是作者的本意)。

接下來(lái)我會(huì)根據(jù)CJ大神給出的步驟盾戴,分別給出TBtools和命令行的實(shí)現(xiàn)方式從數(shù)據(jù)查詢寄锐、下載、轉(zhuǎn)換尖啡、質(zhì)檢橄仆、修剪桐筏、定量赵辕、表達(dá)矩陣的全套流程。希望每個(gè)堅(jiān)持下來(lái)的人能走出自閉屋群,順利完成seq數(shù)據(jù)的定量分析畏梆。

數(shù)據(jù)獲取

首先我們需要找到一個(gè)數(shù)據(jù)集下載(如:PRJNA358808 或者 SRP095684)您宪。通常我們可以去NCBI或者ENA去搜索關(guān)鍵字查找到相應(yīng)信息。下面分別介紹這兩個(gè)數(shù)據(jù)庫(kù)獲取ftp下載地址的方式具温。

NCBI

NCBI查詢地址如下:
https://www.ncbi.nlm.nih.gov/sra/?term=prjna358808
看到一共有24個(gè)runs蚕涤,點(diǎn)擊右上角的”send to“


這里選擇保存為文件筐赔,格式選擇完整的XML文件铣猩,最后點(diǎn)擊create file下載.
image.png

在TBtools打開(kāi)SRA XML to Table tab,分別按照要求填好xml文件和輸出路徑茴丰,之后點(diǎn)擊確定达皿。

可以看到所有下載地址已經(jīng)被匯總在一個(gè)表格里了。

需要注意的是贿肩,由于TBtools默認(rèn)保存的格式是txt峦椰,這里會(huì)提示你格式不匹配,選擇是直接打開(kāi)就好了汰规,excel會(huì)自動(dòng)識(shí)別文件的汤功。

ENA下載地址獲取方式

同樣是在ENA查詢,地址如下:
https://www.ebi.ac.uk/ena/browser/text-search?query=PRJNA358808
這里選擇run可以看到所有SRR列表


點(diǎn)擊run

選擇最大(50)

復(fù)制到excel里溜哮,默認(rèn)會(huì)分成2行
選擇SRR這一列

這里還是按照填入對(duì)應(yīng)的信息即可滔金,如圖:

點(diǎn)擊開(kāi)始,該插件會(huì)把你輸入的所有SRRnum的下載信息全部匯總在一個(gè)叫SRR_download_info_table的excel文件中茂嗓。

這樣餐茵,你就獲得了所有SRR的下載地址,值得注意的是述吸,這個(gè)表格數(shù)據(jù)很奇怪忿族。命名是雙端測(cè)序的數(shù)據(jù),但fastq居然只有一個(gè)文件。

正常的雙端測(cè)序應(yīng)該有兩個(gè)文件的
保險(xiǎn)起見(jiàn)我們還是下載所有SRA文件道批,再用插件把SRA轉(zhuǎn)為Fastq吧错英。
另外,ENA好像沒(méi)有整個(gè)實(shí)驗(yàn)的描述隆豹,我們還是得去NCBI查看整個(gè)實(shí)驗(yàn)的method和sample走趋。地址如下“
https://www.ncbi.nlm.nih.gov/Traces/study/?acc=SRP095684&o=acc_s%3Aa

最后,這些步驟似乎都沒(méi)用到命令行……好像也沒(méi)有必要

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末噪伊,一起剝皮案震驚了整個(gè)濱河市簿煌,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌鉴吹,老刑警劉巖姨伟,帶你破解...
    沈念sama閱讀 218,941評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異豆励,居然都是意外死亡夺荒,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門良蒸,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)技扼,“玉大人,你說(shuō)我怎么就攤上這事嫩痰〗宋牵” “怎么了?”我有些...
    開(kāi)封第一講書人閱讀 165,345評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵串纺,是天一觀的道長(zhǎng)丽旅。 經(jīng)常有香客問(wèn)我,道長(zhǎng)纺棺,這世上最難降的妖魔是什么榄笙? 我笑而不...
    開(kāi)封第一講書人閱讀 58,851評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮祷蝌,結(jié)果婚禮上茅撞,老公的妹妹穿的比我還像新娘。我一直安慰自己巨朦,他們只是感情好米丘,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,868評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著罪郊,像睡著了一般蠕蚜。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上悔橄,一...
    開(kāi)封第一講書人閱讀 51,688評(píng)論 1 305
  • 那天靶累,我揣著相機(jī)與錄音腺毫,去河邊找鬼。 笑死挣柬,一個(gè)胖子當(dāng)著我的面吹牛潮酒,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播邪蛔,決...
    沈念sama閱讀 40,414評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼急黎,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了侧到?” 一聲冷哼從身側(cè)響起勃教,我...
    開(kāi)封第一講書人閱讀 39,319評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎匠抗,沒(méi)想到半個(gè)月后故源,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,775評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡汞贸,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評(píng)論 3 336
  • 正文 我和宋清朗相戀三年绳军,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片矢腻。...
    茶點(diǎn)故事閱讀 40,096評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡门驾,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出多柑,到底是詐尸還是另有隱情奶是,我是刑警寧澤,帶...
    沈念sama閱讀 35,789評(píng)論 5 346
  • 正文 年R本政府宣布顷蟆,位于F島的核電站诫隅,受9級(jí)特大地震影響腐魂,放射性物質(zhì)發(fā)生泄漏帐偎。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,437評(píng)論 3 331
  • 文/蒙蒙 一蛔屹、第九天 我趴在偏房一處隱蔽的房頂上張望削樊。 院中可真熱鬧,春花似錦兔毒、人聲如沸漫贞。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 31,993評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)迅脐。三九已至,卻和暖如春豪嗽,著一層夾襖步出監(jiān)牢的瞬間谴蔑,已是汗流浹背豌骏。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 33,107評(píng)論 1 271
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留隐锭,地道東北人窃躲。 一個(gè)月前我還...
    沈念sama閱讀 48,308評(píng)論 3 372
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像钦睡,于是被迫代替她去往敵國(guó)和親蒂窒。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,037評(píng)論 2 355