前言
實驗室最近有一批數(shù)據(jù)在發(fā)表文章之前需要上傳到GEO Gene Expression Omnibus购披。
所以記錄下上傳數(shù)據(jù)的流程給大家借鑒蠢沿。
準(zhǔn)備
創(chuàng)建NCBI賬號
登陸NCBI官網(wǎng),右上角進行賬號創(chuàng)建塘雳,會在注冊郵箱收到兩封確認郵件陆盘,點擊鏈接進行確認即可。
登記GEO信息
在submitter這個網(wǎng)址的第二個CONTACT選項登記你的信息败明。登記結(jié)束后點擊SAVE即可隘马。PREVIEW可以查看你的錄入信息。
因為我已經(jīng)登記成功了妻顶,顯示的是我的信息酸员,所以這里就不截圖了。
別點擊NEW SUBMISSION了讳嘱,不然就要重新錄入一遍幔嗦,別問我是怎么知道的
隨后進入GEO頁面,選擇Submit to GEO沥潭。
因為上傳的是二代測序數(shù)據(jù)邀泉,所以選擇High-throughput sequence submissions
GEO數(shù)據(jù)上傳需要三類文件,很簡單的閱讀理解钝鸽,不翻譯了汇恤。
GEOarchive has three required components:
- a metadata spreadsheet;
- processed data files,
- raw data files.
Details about each component are described below.
通過三步悠然的上傳數(shù)據(jù)
第一步,準(zhǔn)備raw data
即測序文件拔恰,二代測序就是指的fastq或者fastq.gz文件因谎,同時還有md5文件(Linux下md5sum file即可獲得)
第二步,準(zhǔn)備processed data
即分析結(jié)果文件颜懊,ChIP-seq就是wig/bw文件财岔,RNA-seq就是counts matrix或者FPKM文件等, 換而言之指的是需要方便別人查看你結(jié)果的文件河爹。
第三步匠璧,填寫metadata spreadsheet
下載第一個紅標(biāo)區(qū)域的metadata spreadsheet template
如圖所示為ChIP-seq數(shù)據(jù)提交模板,加粗藍色欄為必填昌抠,未加粗的藍色欄為選填欄目患朱,鼠標(biāo)懸停在右上角紅色三角出會有當(dāng)前欄目的填寫說明。
注意事項:雙端測序在表格最后一欄需要再填寫一遍炊苫,同時需要提供average insert size 和 standard error
這里提供一個perl腳本裁厅,使用方法如下:
計算average insert size冰沙,腳本環(huán)境為python 2.7
$ head -10000 mapped.sam | python mean_size.py
220 35
$ samtools view mapped.bam | head -10000 | python mean_size.py
220 35
#! /usr/local/bin/python2.7
"""
mean_size.py
Created by Tim Stuart
"""
import numpy as np
def get_data(inp):
lengths = []
for line in inp:
if line.startswith('@'):
pass
else:
line = line.rsplit()
length = int(line[8])
if length > 0:
lengths.append(length)
else:
pass
return lengths
def reject_outliers(data, m=2.):
"""
rejects outliers more than 2
standard deviations from the median
"""
median = np.median(data)
std = np.std(data)
for item in data:
if abs(item - median) > m * std:
data.remove(item)
else:
pass
def calc_size(data):
mn = int(np.mean(data))
std = int(np.std(data))
return mn, std
if __name__ == "__main__":
import sys
lengths = get_data(sys.stdin)
reject_outliers(lengths)
mn, std = calc_size(lengths)
print mn, std
另外一種解決方法:
awk '{ if ($9 > 0) { N+=1; S+=$9; S2+=$9*$9 }} END { M=S/N; print "n="N", mean="M", stdev="sqrt ((S2-M*M*N)/(N-1))}' sample.sam
# 數(shù)據(jù)過濾,以insert size <2000 為限制舉例
awk '{ if ($9 > 0) {if ($9 <2000){ N+=1; S+=$9; S2+=$9*$9 }}} END { M=S/N; print "n="N", mean="M", stdev="sqrt ((S2-M*M*N)/(N-1))}' sample.sam
數(shù)據(jù)上傳
準(zhǔn)備好需要的三類文件以后执虹,我們就著手上傳我們的數(shù)據(jù)了拓挥。
首先GEO的數(shù)據(jù)上傳是通過FTP完成的,WINDOWS用戶可以通過FileZilla之類的FTP客戶端完成上傳袋励。
用戶名和密碼在網(wǎng)站上公布出來了侥啤。請自行在目錄下建立一個自己的文件夾(不要多建,該FTP只允許上傳數(shù)據(jù)和新建茬故,不允許修改文件和下載文件)盖灸。
密碼會半年修改一次,請自行核實當(dāng)前密碼磺芭。
當(dāng)然Linux用戶首選得還是利用lftp傳輸赁炎。這里可以參考的GEO官網(wǎng)給出的方法:
# 2019-03-28 更新
# 在命令行下
lftp ftp://geo:33%259uyj_fCh%3FM16H@ftp-private.ncbi.nlm.nih.gov
# 此時進入GEO ftp的主目錄
mirror -R /home/your_directory/
# 此時ls命令可以看到主目錄下出現(xiàn)your_directory目錄(包含子目錄)
寫信給GEO
數(shù)據(jù)上傳結(jié)束之后就寫一份信給GEO數(shù)據(jù)維護人員:geo@ncbi.nlm.nih.gov。
提供我自己的例本:
Dear GEO officer,
Thanks for you kindly host such great public data resource.
I have successfully transferred our lab's high-throughput sequencing data to NCBI-GEO ftp sever as instruction.
The files are listed in the metadata_spreadsheet excel and we provide md5 checksums in it.
Hope you may assist us to upload our data to share with others.
Here is the information you may be needed for further processing:
1. GEO account username: *******
2. Names of the directory and files deposited: /******
3. Public release date: not public until we send another e-mail to confirm, we need a private access link to share our data.
Files incorporate three parts:
1. metadata_spreadsheet & md5.txt in /*******
2. processed_data_files & md5.txt in /*******
3. raw_data_files & md5.txt in /*******
If there is any format or content problem, please do not hesitate to contact me.
Thanks!
Bset,
NAME
收尾工作
就是等待GEO人員處理完數(shù)據(jù)給你回信啦钾腺,會給你一個鏈接查看你的數(shù)據(jù)徙垫,就和日常在GEO上查找的數(shù)據(jù)一樣。教程OVER放棒。
注意
別忘了給GEO officer回一封感謝信姻报。
參考文獻
http://timoast.github.io/2014/11/04/SizeEstimation/
生信寶典
以下為高通量測序數(shù)據(jù)處理系列快速通道:
高通量測序數(shù)據(jù)處理學(xué)習(xí)記錄(零):NGS分析如何選擇合適的參考基因組和注釋文件
高通量測序數(shù)據(jù)處理學(xué)習(xí)記錄(一):比對軟件STAR的使用
高通量測序數(shù)據(jù)處理學(xué)習(xí)記錄(二):Read Counts的提取
高通量測序數(shù)據(jù)處理學(xué)習(xí)記錄(三):Pathway Analysis及GSEA
高通量測序數(shù)據(jù)處理學(xué)習(xí)記錄(四):DeepTools學(xué)習(xí)筆記
高通量測序數(shù)據(jù)處理學(xué)習(xí)記錄(五):上傳二代測序數(shù)據(jù)到GEO
高通量測序數(shù)據(jù)處理學(xué)習(xí)記錄(六):什么是測序深度和測序覆蓋度?
高通量測序數(shù)據(jù)處理學(xué)習(xí)記錄(七):使用ChIPQC包檢查ChIP-seq的質(zhì)量