會了GEO數(shù)據(jù)下載闷煤,來看看怎么上傳吧

劉小澤寫于2020.8.12

1 注冊NCBI GEO賬號

先注冊NCBI賬號导街,在:https://www.ncbi.nlm.nih.gov/

然后注冊GEO賬號,在:https://www.ncbi.nlm.nih.gov/geo/submitter/

GEO可上傳的數(shù)據(jù)類型種類主要集中在芯片和高通量數(shù)據(jù)踪蹬,比如芯片數(shù)據(jù)的四大主流:Affymetrix、Agilent臣咖、Nimblegen跃捣、Illumina,高通量的RNA-Seq夺蛇、ChIP-Seq疚漆、ATAC-Seq等。另外還有RT-PCR刁赦、SAGE數(shù)據(jù)可以上傳

2 提交高通量測序數(shù)據(jù)須知

重點需要提交三部分:

  1. 實驗總覽(metadata spreadsheet):參考樣本 https://www.ncbi.nlm.nih.gov/geo/info/examples/seq_template.xlsx
  2. 處理過后的數(shù)據(jù)(processed data files):需要注意
    • 不可以提交中間過程的比對文件(如BAM娶聘、SAM、BED)甚脉,但如果結(jié)果只有這樣的比對文件丸升,可以寫信給他們詢問是否合格
    • 一般來說,提交什么類型的數(shù)據(jù)取決于實驗類型:
      • 表達(dá)量相關(guān)的數(shù)據(jù):例如 genes, transcripts, exons, miRNA等表達(dá)量牺氨,需要原始表達(dá)矩陣 或 標(biāo)準(zhǔn)化后的表達(dá)矩陣(例如 Cufflinks, Cuffdiff, DESeq, edgeR的結(jié)果文件)狡耻。可以每個樣本一個文件猴凹,也可以使用一整個表達(dá)矩陣夷狰,但需要包含全部基因和全部樣本的信息(不可以只用差異基因)
      • ChIP-Seq數(shù)據(jù):必須包含有關(guān)于peak豐度的文件(如WIG, bigWig, bedGraph)
    • 所有處理過的文件描述都必須體現(xiàn)在metadata文件中
    • 如果提交了WIG, bedGraph, GFF, GTF文件,格式需要參考: UCSC file format FAQ
  3. 原始數(shù)據(jù)(raw data files): GEO的原始數(shù)據(jù)也是會提交給SRA
    • 必須是包含reads郊霎、質(zhì)量值的原始fastq格式孵淘,不符合要求的數(shù)據(jù)會直接從GEO系統(tǒng)中刪除
    • 如果測序數(shù)據(jù)使用了barcode(例如10x Genomics, Drop-Seq, InDrops的數(shù)據(jù)),可以提交不經(jīng)過拆分的multiplexed files歹篓;對于其他多路復(fù)用(Multiplexed)的數(shù)據(jù)來說瘫证,必須要先經(jīng)過demultiplex操作,將樣本分開
    • PE測序數(shù)據(jù):一般每個run會產(chǎn)生兩個數(shù)據(jù)(特殊情況下庄撮,每個run中的序列和質(zhì)量值文件是分開的背捌,也就是產(chǎn)生了4個文件)
    • MD5Sum:推薦使用MD5驗證數(shù)據(jù),方法是:
    • 關(guān)于數(shù)據(jù)壓縮:為了加快傳輸毡庆,可以適當(dāng)將數(shù)據(jù)壓縮坑赡,但不強(qiáng)求∶纯梗可以使用gzip毅否、bzip2(后綴是.gz.bz2) ,但不要壓縮二進(jìn)制文件(如BAM蝇刀、bigWig螟加、bigBed),也不要上傳ZIP文件

3 GEO接受的數(shù)據(jù)與不可接受的數(shù)據(jù)

GEO可接受的

基因表達(dá)吞琐、基因調(diào)控捆探、表觀以及其他功能基因組學(xué)研究,例如

GEO不可接受的

4 重頭戲-實驗總覽(metadata spreadsheet)

參考樣本: https://www.ncbi.nlm.nih.gov/geo/info/examples/seq_template.xlsx

總共包含7大塊

4.1 SERIES

與文章相關(guān)的內(nèi)容

  • 標(biāo)題(title)
  • 摘要(summary)
  • 實驗設(shè)計(overall design)
  • 參與者(contributor):可以寫多個
  • 附件(supplementary file)
4.2 SAMPLES

與樣本信息相關(guān)的內(nèi)容

  • 樣本編號(Sample name)
  • 樣本名稱(title)
  • 樣本來源(source name)
  • 物種(organism)
  • 樣本描述(characteristics: strain站粟、tissue黍图、age、genotype奴烙、cell line助被、treatment)
  • 與該樣本相關(guān)的文件(molecule、processed data file 切诀、raw file)
4.3 PROTOCOLS

樣本的實驗操作以及建庫流程揩环,簡單描述即可

4.4 DATA PROCESSING PIPELINE

數(shù)據(jù)處理描述,比如基因組版本是什么趾牧、怎么比對检盼、怎么過濾肯污、怎么找peaks翘单、怎么定量

4.5 PROCESSED DATA FILES

數(shù)據(jù)處理后的文件名稱

  • file name
  • file type:除了raw count數(shù)據(jù),其余可以統(tǒng)一寫成abundance measurements
  • file checksum
4.6 RAW FILES
  • 原始數(shù)據(jù)名稱(file name)
  • 文件類型(file type):比如fastq
  • md5校驗(file checksum)
  • 測序儀器型號(instrument model)
  • 單端or雙端(single or paired-end)
4.7 PAIRED-END EXPERIMENTS

如果使用了雙端測序數(shù)據(jù)蹦渣,需要列出各自的名稱

  • file name 1
  • file name 2

5 準(zhǔn)備工作結(jié)束后哄芜,可以開始上傳

上面的實驗總覽(metadata spreadsheet)處理過后的數(shù)據(jù)(processed data files)柬唯、**原始數(shù)據(jù)(raw data files) ** 都準(zhǔn)備好认臊,就可以開始準(zhǔn)備上傳了

學(xué)習(xí)如何使用FileZilla進(jìn)行上傳

首先會看到自己的上傳目錄,一會將用到

然后設(shè)置FileZilla:

  • host (ftp-private.ncbi.nlm.nih.gov)
  • username (geoftp)
  • password (rebUzyi1)

此時會發(fā)生報錯锄奢,忽略它

修改Remote site失晴,然后回車連接:

最后就可以將本地數(shù)據(jù)上傳到GEO指定位置了

Tips:為了避免FileZilla上傳過程出現(xiàn)中斷,可以設(shè)置斷點續(xù)傳

6 最后拘央,提醒GEO數(shù)據(jù)上傳完成

并且會提示再核實一遍信息涂屁,沒有問題的話5個工作日內(nèi)就會進(jìn)行審核

Tips:補(bǔ)充

來自:https://www.ncbi.nlm.nih.gov/geo/info/submissionftp.html

  • 在上傳前,首先新建一個主目錄灰伟,例如:geo_submission_august17 拆又,然后把所有的要傳送的數(shù)據(jù)都放里面。如果paper中包含了多個組學(xué)數(shù)據(jù)(例如同時做了ChIP-Seq、RNA-Seq)帖族,可以在主目錄下新建不同組學(xué)的子目錄栈源,例如:geo_submission_august17/ChIPseq

  • 如果總文件大小超過了1T,需要提前聯(lián)系GEO

  • 對于Mac竖般、PC用戶甚垦,推薦使用客戶端,如Filezilla捻激;對于LINUX/UNIX用戶制轰,推薦使用ncftplftp命令

  • GEO的FTP server登錄:


  • 登錄后胞谭,一定要去到自己的上傳目錄下垃杖,再將主目錄拖拽上傳

  • 最后通知GEO的時候,也要提醒他們自己上傳的目錄名字是什么【在數(shù)據(jù)傳完之前丈屹,不要通知GEO】调俘。如果不通知,兩個星期后數(shù)據(jù)就會被刪除

  • 文件可以壓縮為gz或bzip2【但二進(jìn)制文件不能壓縮】旺垒,也可以用tar打包彩库,但千萬不要用ZIP

  • 文件名中只能存在:alphanumerals [A-Z, a-z, 0-9], underscores [_] and dots [.]


歡迎關(guān)注我們的公眾號~_~  
我們是兩個農(nóng)轉(zhuǎn)生信的小碩,打造生信星球先蒋,想讓它成為一個不拽術(shù)語骇钦、通俗易懂的生信知識平臺。需要幫助或提出意見請后臺留言或發(fā)送郵件到jieandze1314@gmail.com

Welcome to our bioinfoplanet!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末竞漾,一起剝皮案震驚了整個濱河市眯搭,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌业岁,老刑警劉巖鳞仙,帶你破解...
    沈念sama閱讀 206,602評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異笔时,居然都是意外死亡棍好,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,442評論 2 382
  • 文/潘曉璐 我一進(jìn)店門允耿,熙熙樓的掌柜王于貴愁眉苦臉地迎上來借笙,“玉大人,你說我怎么就攤上這事较锡∫导冢” “怎么了?”我有些...
    開封第一講書人閱讀 152,878評論 0 344
  • 文/不壞的土叔 我叫張陵念链,是天一觀的道長盼忌。 經(jīng)常有香客問我积糯,道長,這世上最難降的妖魔是什么谦纱? 我笑而不...
    開封第一講書人閱讀 55,306評論 1 279
  • 正文 為了忘掉前任看成,我火速辦了婚禮,結(jié)果婚禮上跨嘉,老公的妹妹穿的比我還像新娘川慌。我一直安慰自己,他們只是感情好祠乃,可當(dāng)我...
    茶點故事閱讀 64,330評論 5 373
  • 文/花漫 我一把揭開白布梦重。 她就那樣靜靜地躺著,像睡著了一般亮瓷。 火紅的嫁衣襯著肌膚如雪琴拧。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,071評論 1 285
  • 那天嘱支,我揣著相機(jī)與錄音蚓胸,去河邊找鬼。 笑死除师,一個胖子當(dāng)著我的面吹牛沛膳,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播汛聚,決...
    沈念sama閱讀 38,382評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼锹安,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了倚舀?” 一聲冷哼從身側(cè)響起叹哭,我...
    開封第一講書人閱讀 37,006評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎瞄桨,沒想到半個月后话速,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體讶踪,經(jīng)...
    沈念sama閱讀 43,512評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡芯侥,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,965評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了乳讥。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片柱查。...
    茶點故事閱讀 38,094評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖云石,靈堂內(nèi)的尸體忽然破棺而出唉工,到底是詐尸還是另有隱情,我是刑警寧澤汹忠,帶...
    沈念sama閱讀 33,732評論 4 323
  • 正文 年R本政府宣布淋硝,位于F島的核電站雹熬,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏谣膳。R本人自食惡果不足惜竿报,卻給世界環(huán)境...
    茶點故事閱讀 39,283評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望继谚。 院中可真熱鬧烈菌,春花似錦、人聲如沸花履。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,286評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽诡壁。三九已至济瓢,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間妹卿,已是汗流浹背葬荷。 一陣腳步聲響...
    開封第一講書人閱讀 31,512評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留纽帖,地道東北人宠漩。 一個月前我還...
    沈念sama閱讀 45,536評論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像懊直,于是被迫代替她去往敵國和親扒吁。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,828評論 2 345