劉小澤寫于2020.8.12
1 注冊NCBI GEO賬號
先注冊NCBI賬號导街,在:https://www.ncbi.nlm.nih.gov/
然后注冊GEO賬號,在:https://www.ncbi.nlm.nih.gov/geo/submitter/
GEO可上傳的數(shù)據(jù)類型種類主要集中在芯片和高通量數(shù)據(jù)踪蹬,比如芯片數(shù)據(jù)的四大主流:Affymetrix、Agilent臣咖、Nimblegen跃捣、Illumina,高通量的RNA-Seq夺蛇、ChIP-Seq疚漆、ATAC-Seq等。另外還有RT-PCR刁赦、SAGE數(shù)據(jù)可以上傳
2 提交高通量測序數(shù)據(jù)須知
重點需要提交三部分:
- 實驗總覽(metadata spreadsheet):參考樣本 https://www.ncbi.nlm.nih.gov/geo/info/examples/seq_template.xlsx
-
處理過后的數(shù)據(jù)(processed data files):需要注意
- 不可以提交中間過程的比對文件(如BAM娶聘、SAM、BED)甚脉,但如果結(jié)果只有這樣的比對文件丸升,可以寫信給他們詢問是否合格
- 一般來說,提交什么類型的數(shù)據(jù)取決于實驗類型:
- 表達(dá)量相關(guān)的數(shù)據(jù):例如 genes, transcripts, exons, miRNA等表達(dá)量牺氨,需要原始表達(dá)矩陣 或 標(biāo)準(zhǔn)化后的表達(dá)矩陣(例如 Cufflinks, Cuffdiff, DESeq, edgeR的結(jié)果文件)狡耻。可以每個樣本一個文件猴凹,也可以使用一整個表達(dá)矩陣夷狰,但需要包含全部基因和全部樣本的信息(不可以只用差異基因)
- ChIP-Seq數(shù)據(jù):必須包含有關(guān)于peak豐度的文件(如WIG, bigWig, bedGraph)
- 所有處理過的文件描述都必須體現(xiàn)在metadata文件中
- 如果提交了WIG, bedGraph, GFF, GTF文件,格式需要參考: UCSC file format FAQ
-
原始數(shù)據(jù)(raw data files): GEO的原始數(shù)據(jù)也是會提交給SRA
- 必須是包含reads郊霎、質(zhì)量值的原始fastq格式孵淘,不符合要求的數(shù)據(jù)會直接從GEO系統(tǒng)中刪除
- 如果測序數(shù)據(jù)使用了barcode(例如10x Genomics, Drop-Seq, InDrops的數(shù)據(jù)),可以提交不經(jīng)過拆分的multiplexed files歹篓;對于其他多路復(fù)用(Multiplexed)的數(shù)據(jù)來說瘫证,必須要先經(jīng)過demultiplex操作,將樣本分開
- PE測序數(shù)據(jù):一般每個run會產(chǎn)生兩個數(shù)據(jù)(特殊情況下庄撮,每個run中的序列和質(zhì)量值文件是分開的背捌,也就是產(chǎn)生了4個文件)
- MD5Sum:推薦使用MD5驗證數(shù)據(jù),方法是:
- Unix:
md5sum <file>
- OS X:
md5 <file>
- Windows: 需要用某些應(yīng)用程序(如
winmd5free
洞斯,或者 Microsoft's File Checksum Integrity Verifier (FCIV) utility )
- Unix:
- 關(guān)于數(shù)據(jù)壓縮:為了加快傳輸毡庆,可以適當(dāng)將數(shù)據(jù)壓縮坑赡,但不強(qiáng)求∶纯梗可以使用gzip毅否、bzip2(后綴是
.gz
或.bz2
) ,但不要壓縮二進(jìn)制文件(如BAM蝇刀、bigWig螟加、bigBed),也不要上傳ZIP文件
3 GEO接受的數(shù)據(jù)與不可接受的數(shù)據(jù)
GEO可接受的
基因表達(dá)吞琐、基因調(diào)控捆探、表觀以及其他功能基因組學(xué)研究,例如
- mRNA profiling, RNA-seq (example)
- small RNA profiling, miRNA-seq (example)
- ChIP-Seq (example)
- HiC-seq (example)
- methyl-seq, bisulfite-seq (example)
GEO不可接受的
需要權(quán)限訪問的人類數(shù)據(jù):可以提交給dbGaP and controlled access SRA
轉(zhuǎn)錄本組裝:可以提交給 SRA 以及 Transcriptome Shotgun Assembly Database)
宏基因組測序:可以提交給SRA
重測序以及變異相關(guān)研究:可以提交給SRA 或 合適的 variation resource
全外顯子數(shù)據(jù):可以提交給SRA
4 重頭戲-實驗總覽(metadata spreadsheet)
參考樣本: https://www.ncbi.nlm.nih.gov/geo/info/examples/seq_template.xlsx
總共包含7大塊
4.1 SERIES
與文章相關(guān)的內(nèi)容
- 標(biāo)題(title)
- 摘要(summary)
- 實驗設(shè)計(overall design)
- 參與者(contributor):可以寫多個
- 附件(supplementary file)
4.2 SAMPLES
與樣本信息相關(guān)的內(nèi)容
- 樣本編號(Sample name)
- 樣本名稱(title)
- 樣本來源(source name)
- 物種(organism)
- 樣本描述(characteristics: strain站粟、tissue黍图、age、genotype奴烙、cell line助被、treatment)
- 與該樣本相關(guān)的文件(molecule、processed data file 切诀、raw file)
4.3 PROTOCOLS
樣本的實驗操作以及建庫流程揩环,簡單描述即可
4.4 DATA PROCESSING PIPELINE
數(shù)據(jù)處理描述,比如基因組版本是什么趾牧、怎么比對检盼、怎么過濾肯污、怎么找peaks翘单、怎么定量
4.5 PROCESSED DATA FILES
數(shù)據(jù)處理后的文件名稱
- file name
- file type:除了raw count數(shù)據(jù),其余可以統(tǒng)一寫成abundance measurements
- file checksum
4.6 RAW FILES
- 原始數(shù)據(jù)名稱(file name)
- 文件類型(file type):比如fastq
- md5校驗(file checksum)
- 測序儀器型號(instrument model)
- 單端or雙端(single or paired-end)
4.7 PAIRED-END EXPERIMENTS
如果使用了雙端測序數(shù)據(jù)蹦渣,需要列出各自的名稱
- file name 1
- file name 2
5 準(zhǔn)備工作結(jié)束后哄芜,可以開始上傳
上面的實驗總覽(metadata spreadsheet)、處理過后的數(shù)據(jù)(processed data files)柬唯、**原始數(shù)據(jù)(raw data files) ** 都準(zhǔn)備好认臊,就可以開始準(zhǔn)備上傳了
學(xué)習(xí)如何使用FileZilla進(jìn)行上傳
首先會看到自己的上傳目錄,一會將用到
然后設(shè)置FileZilla:
- host (ftp-private.ncbi.nlm.nih.gov)
- username (geoftp)
- password (rebUzyi1)
此時會發(fā)生報錯锄奢,忽略它
修改Remote site失晴,然后回車連接:
最后就可以將本地數(shù)據(jù)上傳到GEO指定位置了
Tips:為了避免FileZilla上傳過程出現(xiàn)中斷,可以設(shè)置斷點續(xù)傳
6 最后拘央,提醒GEO數(shù)據(jù)上傳完成
并且會提示再核實一遍信息涂屁,沒有問題的話5個工作日內(nèi)就會進(jìn)行審核
Tips:補(bǔ)充
在上傳前,首先新建一個主目錄灰伟,例如:
geo_submission_august17
拆又,然后把所有的要傳送的數(shù)據(jù)都放里面。如果paper中包含了多個組學(xué)數(shù)據(jù)(例如同時做了ChIP-Seq、RNA-Seq)帖族,可以在主目錄下新建不同組學(xué)的子目錄栈源,例如:geo_submission_august17/ChIPseq
如果總文件大小超過了1T,需要提前聯(lián)系GEO
對于Mac竖般、PC用戶甚垦,推薦使用客戶端,如Filezilla捻激;對于LINUX/UNIX用戶制轰,推薦使用
ncftp
、lftp
命令-
GEO的FTP server登錄:
登錄后胞谭,一定要去到自己的上傳目錄下垃杖,再將主目錄拖拽上傳
最后通知GEO的時候,也要提醒他們自己上傳的目錄名字是什么【在數(shù)據(jù)傳完之前丈屹,不要通知GEO】调俘。如果不通知,兩個星期后數(shù)據(jù)就會被刪除
文件可以壓縮為gz或bzip2【但二進(jìn)制文件不能壓縮】旺垒,也可以用tar打包彩库,但千萬不要用ZIP
文件名中只能存在:
alphanumerals [A-Z, a-z, 0-9], underscores [_] and dots [.]
歡迎關(guān)注我們的公眾號~_~
我們是兩個農(nóng)轉(zhuǎn)生信的小碩,打造生信星球先蒋,想讓它成為一個不拽術(shù)語骇钦、通俗易懂的生信知識平臺。需要幫助或提出意見請后臺留言或發(fā)送郵件到jieandze1314@gmail.com