高通量測序數(shù)據(jù)處理學(xué)習(xí)記錄（五）：上傳二代測序數(shù)據(jù)到GEO

前言

實驗室最近有一批數(shù)據(jù)在發(fā)表文章之前需要上傳到GEO Gene Expression Omnibus购披。
所以記錄下上傳數(shù)據(jù)的流程給大家借鑒蠢沿。

準(zhǔn)備

創(chuàng)建NCBI賬號

登陸NCBI官網(wǎng)，右上角進行賬號創(chuàng)建塘雳，會在注冊郵箱收到兩封確認郵件陆盘，點擊鏈接進行確認即可。

登記GEO信息

在submitter這個網(wǎng)址的第二個CONTACT選項登記你的信息败明。登記結(jié)束后點擊SAVE即可隘马。PREVIEW可以查看你的錄入信息。

因為我已經(jīng)登記成功了妻顶，顯示的是我的信息酸员，所以這里就不截圖了。
別點擊NEW SUBMISSION了讳嘱，不然就要重新錄入一遍幔嗦，別問我是怎么知道的

隨后進入GEO頁面，選擇Submit to GEO沥潭。
因為上傳的是二代測序數(shù)據(jù)邀泉，所以選擇High-throughput sequence submissions

GEO數(shù)據(jù)上傳需要三類文件，很簡單的閱讀理解钝鸽，不翻譯了汇恤。

GEOarchive has three required components:

a metadata spreadsheet;
processed data files,
raw data files.

Details about each component are described below.

通過三步悠然的上傳數(shù)據(jù)

第一步，準(zhǔn)備raw data

即測序文件拔恰，二代測序就是指的fastq或者fastq.gz文件因谎，同時還有md5文件（Linux下md5sum file即可獲得）

第二步，準(zhǔn)備processed data

即分析結(jié)果文件颜懊，ChIP-seq就是wig/bw文件财岔，RNA-seq就是counts matrix或者FPKM文件等，換而言之指的是需要方便別人查看你結(jié)果的文件河爹。

第三步匠璧，填寫metadata spreadsheet

下載第一個紅標(biāo)區(qū)域的metadata spreadsheet template

EXAMPLE 1

如圖所示為ChIP-seq數(shù)據(jù)提交模板，加粗藍色欄為必填昌抠，未加粗的藍色欄為選填欄目患朱，鼠標(biāo)懸停在右上角紅色三角出會有當(dāng)前欄目的填寫說明。

注意事項：雙端測序在表格最后一欄需要再填寫一遍炊苫，同時需要提供average insert size 和 standard error
這里提供一個perl腳本裁厅，使用方法如下：

計算average insert size冰沙，腳本環(huán)境為python 2.7

$ head -10000 mapped.sam | python mean_size.py
220 35
$ samtools view mapped.bam | head -10000 | python mean_size.py
220 35

#! /usr/local/bin/python2.7
"""
mean_size.py
Created by Tim Stuart
"""

import numpy as np


def get_data(inp):
    lengths = []
    for line in inp:
        if line.startswith('@'):
            pass
        else:
            line = line.rsplit()
            length = int(line[8])
            if length > 0:
                lengths.append(length)
            else:
                pass
    return lengths


def reject_outliers(data, m=2.):
    """
    rejects outliers more than 2
    standard deviations from the median
    """
    median = np.median(data)
    std = np.std(data)
    for item in data:
        if abs(item - median) > m * std:
            data.remove(item)
        else:
            pass


def calc_size(data):
    mn = int(np.mean(data))
    std = int(np.std(data))
    return mn, std


if __name__ == "__main__":
    import sys
    lengths = get_data(sys.stdin)
    reject_outliers(lengths)
    mn, std = calc_size(lengths)
    print mn, std

另外一種解決方法：

awk '{ if ($9 > 0) { N+=1; S+=$9; S2+=$9*$9 }} END { M=S/N; print "n="N", mean="M", stdev="sqrt ((S2-M*M*N)/(N-1))}' sample.sam
# 數(shù)據(jù)過濾，以insert size <2000 為限制舉例
awk '{ if ($9 > 0) {if ($9 <2000){ N+=1; S+=$9; S2+=$9*$9 }}} END { M=S/N; print "n="N", mean="M", stdev="sqrt ((S2-M*M*N)/(N-1))}' sample.sam

數(shù)據(jù)上傳

準(zhǔn)備好需要的三類文件以后执虹，我們就著手上傳我們的數(shù)據(jù)了拓挥。
首先GEO的數(shù)據(jù)上傳是通過FTP完成的，WINDOWS用戶可以通過FileZilla之類的FTP客戶端完成上傳袋励。
用戶名和密碼在網(wǎng)站上公布出來了侥啤。請自行在目錄下建立一個自己的文件夾（不要多建，該FTP只允許上傳數(shù)據(jù)和新建茬故，不允許修改文件和下載文件）盖灸。

密碼會半年修改一次，請自行核實當(dāng)前密碼磺芭。

FTP信息

當(dāng)然Linux用戶首選得還是利用lftp傳輸赁炎。這里可以參考的GEO官網(wǎng)給出的方法：

# 2019-03-28 更新
# 在命令行下
lftp ftp://geo:33%259uyj_fCh%3FM16H@ftp-private.ncbi.nlm.nih.gov

# 此時進入GEO ftp的主目錄
mirror -R /home/your_directory/

# 此時ls命令可以看到主目錄下出現(xiàn)your_directory目錄（包含子目錄）

寫信給GEO

數(shù)據(jù)上傳結(jié)束之后就寫一份信給GEO數(shù)據(jù)維護人員：geo@ncbi.nlm.nih.gov。

提供我自己的例本：
Dear GEO officer,

Thanks for you kindly host such great public data resource.

I have successfully transferred our lab's high-throughput sequencing data to NCBI-GEO ftp sever as instruction. 
The files are listed in the metadata_spreadsheet excel and we provide md5 checksums in it.
Hope you may assist us to upload our data to share with others.

Here is the information you may be needed for further processing:
1. GEO account username: *******
2. Names of the directory and files deposited: /******
3. Public release date: not public until we send another e-mail to confirm, we need a private access link to share our data.

Files incorporate three parts:
1. metadata_spreadsheet & md5.txt in /*******
2. processed_data_files & md5.txt in /*******
3. raw_data_files & md5.txt in /*******

If there is any format or content problem,  please do not hesitate to contact me.

Thanks!

Bset,
NAME

收尾工作

就是等待GEO人員處理完數(shù)據(jù)給你回信啦钾腺，會給你一個鏈接查看你的數(shù)據(jù)徙垫，就和日常在GEO上查找的數(shù)據(jù)一樣。教程OVER放棒。

注意

別忘了給GEO officer回一封感謝信姻报。

參考文獻

http://timoast.github.io/2014/11/04/SizeEstimation/
生信寶典

日常Bob鎮(zhèn)樓

以下為高通量測序數(shù)據(jù)處理系列快速通道：

高通量測序數(shù)據(jù)處理學(xué)習(xí)記錄（零）：NGS分析如何選擇合適的參考基因組和注釋文件

高通量測序數(shù)據(jù)處理學(xué)習(xí)記錄（一）：比對軟件STAR的使用

高通量測序數(shù)據(jù)處理學(xué)習(xí)記錄（二）：Read Counts的提取

高通量測序數(shù)據(jù)處理學(xué)習(xí)記錄（三）：Pathway Analysis及GSEA

高通量測序數(shù)據(jù)處理學(xué)習(xí)記錄（四）：DeepTools學(xué)習(xí)筆記

高通量測序數(shù)據(jù)處理學(xué)習(xí)記錄（五）：上傳二代測序數(shù)據(jù)到GEO

高通量測序數(shù)據(jù)處理學(xué)習(xí)記錄（六）：什么是測序深度和測序覆蓋度？

高通量測序數(shù)據(jù)處理學(xué)習(xí)記錄（七）：使用ChIPQC包檢查ChIP-seq的質(zhì)量

最后編輯于：2019.03.28 18:40:58

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末间螟，一起剝皮案震驚了整個濱河市吴旋，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌寒亥，老刑警劉巖邮府，帶你破解...
沈念sama閱讀 206,013評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件荧关，死亡現(xiàn)場離奇詭異溉奕，居然都是意外死亡，警方通過查閱死者的電腦和手機忍啤，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門加勤，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人同波，你說我怎么就攤上這事鳄梅。” “怎么了未檩？”我有些...
開封第一講書人閱讀 152,370評論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵戴尸，是天一觀的道長。經(jīng)常有香客問我冤狡，道長孙蒙，這世上最難降的妖魔是什么项棠？我笑而不...
開封第一講書人閱讀 55,168評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮挎峦，結(jié)果婚禮上香追，老公的妹妹穿的比我還像新娘。我一直安慰自己坦胶，他們只是感情好透典，可當(dāng)我...
茶點故事閱讀 64,153評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著顿苇，像睡著了一般峭咒。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上纪岁，一...
開封第一講書人閱讀 48,954評論 1贊 283
城市分裂傳說
那天讹语，我揣著相機與錄音，去河邊找鬼蜂科。笑死顽决，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的导匣。我是一名探鬼主播才菠，決...
沈念sama閱讀 38,271評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼贡定！你這毒婦竟也來了赋访？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 36,916評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤缓待，失蹤者是張志新（化名）和其女友劉穎蚓耽，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體旋炒，經(jīng)...
沈念sama閱讀 43,382評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡步悠，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 35,877評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了瘫镇。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片鼎兽。...
茶點故事閱讀 37,989評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖铣除，靈堂內(nèi)的尸體忽然破棺而出谚咬，到底是詐尸還是另有隱情，我是刑警寧澤尚粘，帶...
沈念sama閱讀 33,624評論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布择卦，位于F島的核電站，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏秉继。R本人自食惡果不足惜潘明，卻給世界環(huán)境...
茶點故事閱讀 39,209評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望秕噪。院中可真熱鬧钳降，春花似錦、人聲如沸腌巾。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,199評論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽澈蝙。三九已至吓坚，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間灯荧，已是汗流浹背礁击。一陣腳步聲響...
開封第一講書人閱讀 31,418評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留逗载，地道東北人哆窿。一個月前我還...
沈念sama閱讀 45,401評論 2贊 352
代替公主和親
正文我出身青樓，卻偏偏與公主長得像厉斟，于是被迫代替她去往敵國和親挚躯。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 42,700評論 2贊 345

高通量測序數(shù)據(jù)處理學(xué)習(xí)記錄（五）：上傳二代測序數(shù)據(jù)到GEO

前言

準(zhǔn)備

創(chuàng)建NCBI賬號

登記GEO信息

通過三步悠然的上傳數(shù)據(jù)

第一步，準(zhǔn)備raw data

第二步，準(zhǔn)備processed data

第三步匠璧，填寫metadata spreadsheet

計算average insert size冰沙，腳本環(huán)境為python 2.7

數(shù)據(jù)上傳

寫信給GEO

收尾工作

注意

參考文獻

以下為高通量測序數(shù)據(jù)處理系列快速通道：

推薦閱讀更多精彩內(nèi)容