2020-07-21 下載dbgap數(shù)據(jù)

今天把官網(wǎng)流程全部看了一遍按照這樣操作了赖阻,看了一下數(shù)據(jù)正在下載弄屡,明天看一下有沒有報錯產(chǎn)生,不知道會有啥問題等待解決该押。

Source:
https://www.ncbi.nlm.nih.gov/books/NBK36439/

下載步驟

使用NCBI的SRA toolkit中的prefetch命令行功能和cart文件或者SRA accession進(jìn)行下載

  1. 下載并安裝Aspera connect

Aspera:一個高速文件傳輸系統(tǒng)问麸,方便下載數(shù)據(jù)往衷。

下載鏈接https://downloads.asperasoft.com/en/downloads/8?list

確保你安裝的是connect
  1. 選擇并保存數(shù)據(jù)信息在cart文件中
    (除了cart文件,也可以根據(jù)SRA accession下載严卖,步驟5中詳解)
  • 登錄dbgap
  • 點擊My Requests席舍,查看批準(zhǔn)的請求
approved
  • 查看request file



    選擇dbGap file selctor下載基因型和表型數(shù)據(jù)



    選擇SRA RUN selector下載SRA數(shù)據(jù)
  • Wait until the page loading is complete. Click on the “Help” icon on top of the page to see instruction/information about the selector).

  • 選擇數(shù)據(jù)并下載Cart文件(這里是non-SRA數(shù)據(jù))



    non-SRA cart文件
    下載的SRA cart文件
  1. 編譯SRA toolkit
  • 下載最新的SRA Toolkit并解壓
    (https://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software)
  • 在使用toolkit之前需要根據(jù) Protected Data Usage Guide 進(jìn)行編譯,導(dǎo)入dbGaP repository key(如果SRA Toolkit版本高于2.10.2就不需要編譯了)【最近把版本更新到3.0版本后發(fā)現(xiàn)哮笆,不再需要額外導(dǎo)入dbGaP repository key了】
    編譯步驟:
    我使用的版本低于2.10.2需要編譯:

image.png

Quick Toolkit Configuration
https://github.com/ncbi/sra-tools/wiki/03.-Quick-Toolkit-Configuration

$ vdb-config -i

A. 選擇"Remote Access"


B. 轉(zhuǎn)到"Cache"選擇"local file-caching"并設(shè)置路徑(必須是空文件夾)


C. 轉(zhuǎn)到"cloud provider"并且選擇"report cloud instance identity"


image.png
  • 在編譯SRA toolkit過程中導(dǎo)入"dbGaP repository key"
    編譯后會自動創(chuàng)建文件夾類似于~/ncbi/dbGap-XXXXX(也叫做工作目錄)
    這個目錄下會有子目錄来颤,比如sra,refseq等等。
    【最近把版本更新到3.0版本后發(fā)現(xiàn)稠肘,不再需要額外導(dǎo)入dbGaP repository key了】在prefetch中增加了--ngc參數(shù)福铅,下載時給出key即可。
prefetch --ngc prj_33085.ngc --cart cart_DAR116028_202209070105.krt
  • dbGaP repository key文件包括了SRA Toolkit所需要用來確定申請人和dbga數(shù)據(jù)所屬項目的信息项阴,那么如何下載dbGaP repository key呢滑黔?
    在action位置找到對應(yīng)的批準(zhǔn)的數(shù)據(jù)對應(yīng)的project的get dbGap repository key,下載得到.ngc格式的文件环揽。

什么是cart文件或SRA accession略荡?

  • 數(shù)據(jù)塊
    cart文件中提供了dbgap的非SRA和SRA數(shù)據(jù)文件塊
  • 單個SRA
    當(dāng)?shù)玫絾蝹€的SRR accession時可以下載單個的SRA run

但是不管是以上哪種情況,在執(zhí)行命令前歉胶,sratoolkit都要使用dbGaP repository key來編譯汛兜。

  1. 使用prefetch進(jìn)行數(shù)據(jù)下
    在通過編譯產(chǎn)生的 dbGaP project directory目錄下,運行prefetch命令通今,把cart文件的地址寫完整粥谬,
    nohup和末尾的&可以后臺運行
    -X 99999999 是下載大小限制放大
    > nohup prefetch -X 9999999999999 /public/home/liuxs/taozy/dbGap/cart_DAR94672_202007210554.krt &

sra解壓成fastq文件報錯,使用validate檢測

(wes) [myname@HPC-login sra]$ vdb-validate SRR7554958
2020-07-23T02:26:44 vdb-validate.2.10.0 info: Validating '/public/home/liuxs/ncbi/dbGaP-26086/sra/SRR7554958.sra'...
2020-07-23T02:26:44 vdb-validate.2.10.0 info: Validating  encrypted file '/public/home/liuxs/ncbi/dbGaP-26086/sra/SRR7554958.sra'...
2020-07-23T02:27:31 vdb-validate.2.10.0 info: Encrypted file '/public/home/liuxs/ncbi/dbGaP-26086/sra/SRR7554958.sra' appears valid
2020-07-23T02:27:34 vdb-validate.2.10.0 info: Database 'SRR7554958.sra' metadata: md5 ok
2020-07-23T02:27:34 vdb-validate.2.10.0 info: Table 'PRIMARY_ALIGNMENT' metadata: md5 ok
2020-07-23T02:27:34 vdb-validate.2.10.0 info: Column 'GLOBAL_REF_START': checksums ok
2020-07-23T02:27:35 vdb-validate.2.10.0 info: Column 'HAS_MISMATCH': checksums ok
2020-07-23T02:27:36 vdb-validate.2.10.0 info: Column 'HAS_REF_OFFSET': checksums ok
2020-07-23T02:27:36 vdb-validate.2.10.0 info: Column 'MAPQ': checksums ok
2020-07-23T02:27:37 vdb-validate.2.10.0 info: Column 'MISMATCH': checksums ok
2020-07-23T02:27:37 vdb-validate.2.10.0 info: Column 'REF_LEN': checksums ok
2020-07-23T02:27:38 vdb-validate.2.10.0 info: Column 'REF_OFFSET': checksums ok
2020-07-23T02:27:38 vdb-validate.2.10.0 info: Column 'REF_OFFSET_TYPE': checksums ok
2020-07-23T02:27:38 vdb-validate.2.10.0 info: Column 'REF_ORIENTATION': checksums ok
2020-07-23T02:27:39 vdb-validate.2.10.0 info: Column 'SEQ_READ_ID': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'SEQ_SPOT_ID': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Table 'REFERENCE' metadata: md5 ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'CGRAPH_HIGH': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'CGRAPH_INDELS': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'CGRAPH_LOW': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'CGRAPH_MISMATCHES': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'CIRCULAR': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'CS_KEY': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'OVERLAP_REF_LEN': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'OVERLAP_REF_POS': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'PRIMARY_ALIGNMENT_IDS': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'SECONDARY_ALIGNMENT_IDS': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'SEQ_ID': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'SEQ_LEN': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'SEQ_START': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Table 'SECONDARY_ALIGNMENT' metadata: md5 ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'GLOBAL_REF_START': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'HAS_REF_OFFSET': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'MAPQ': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'MATE_REF_ID': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'MATE_REF_ORIENTATION': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'MATE_REF_POS': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'REF_LEN': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'REF_OFFSET': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'REF_OFFSET_TYPE': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'REF_ORIENTATION': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'SEQ_READ_ID': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'SEQ_SPOT_ID': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'TEMPLATE_LEN': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'TMP_HAS_MISMATCH': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'TMP_MISMATCH': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Table 'SEQUENCE' metadata: md5 ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'ALIGNMENT_COUNT': checksums ok
2020-07-23T02:27:41 vdb-validate.2.10.0 info: Column 'CMP_ALTREAD': checksums ok
2020-07-23T02:27:44 vdb-validate.2.10.0 info: Column 'CMP_READ': checksums ok
2020-07-23T02:27:44 vdb-validate.2.10.0 info: Column 'PLATFORM': checksums ok
2020-07-23T02:27:47 vdb-validate.2.10.0 info: Column 'PRIMARY_ALIGNMENT_ID': checksums ok
2020-07-23T02:28:58 vdb-validate.2.10.0 info: Column 'QUALITY': checksums ok
2020-07-23T02:29:00 vdb-validate.2.10.0 info: Column 'RD_FILTER': checksums ok
2020-07-23T02:29:03 vdb-validate.2.10.0 info: Column 'READ_TYPE': checksums ok
2020-07-23T02:29:51 vdb-validate.2.10.0 info: Referential Integrity: SEQ_SPOT_ID <-> PRIMARY_ALIGNMENT_ID  76.3% complete
2020-07-23T02:29:53 vdb-validate.2.10.0 info: Referential Integrity: SEQ_SPOT_ID <-> PRIMARY_ALIGNMENT_ID 100.0% complete
2020-07-23T02:29:53 vdb-validate.2.10.0 info: Database '/public/home/liuxs/ncbi/dbGaP-26086/sra/SRR7554958.sra': SEQUENCE.PRIMARY_ALIGNMENT_ID <-> PRIMARY_ALIGNMENT.SEQ_SPOT_ID referential integrity ok
2020-07-23T02:30:10 vdb-validate.2.10.0 info: Referential Integrity: REF_ID <-> PRIMARY_ALIGNMENT_IDS  76.3% complete
2020-07-23T02:30:11 vdb-validate.2.10.0 info: Referential Integrity: REF_ID <-> PRIMARY_ALIGNMENT_IDS 100.0% complete
2020-07-23T02:30:11 vdb-validate.2.10.0 info: Database '/public/home/liuxs/ncbi/dbGaP-26086/sra/SRR7554958.sra': REFERENCE.PRIMARY_ALIGNMENT_IDS <-> PRIMARY_ALIGNMENT.REF_ID referential integrity ok
2020-07-23T02:30:11 vdb-validate.2.10.0 info: Database 'SRR7554958.sra' is consistent

表型數(shù)據(jù)解密

下載下來的表型數(shù)據(jù)后綴是.ncbi.enc衡创,需要進(jìn)行解密


分為導(dǎo)入密鑰和進(jìn)行解密兩個步驟

$ vdb-config --import xxxx.ngc
$ vdb-decrypt xx.ncbi_enc # 單個文件解密
$ vdb-decrypt ~/ncbi/dbGaP-26086/files/ # 整個表型數(shù)據(jù)存放的文件夾進(jìn)行解密

解密完成之后帝嗡,文件的后綴不見了,變成了正常的文件格式
【新的版本做了更新璃氢,vdb-config --import 失效了哟玷,此功能整合進(jìn)vdb-decrypt --ngc】

部分sra文件下載失敗的解決方法

提取下載失敗的SRRXXX名字,放入一個新的文件中一也,對這個新的文件進(jìn)行prefetch下載

步驟:

  1. 創(chuàng)建一個shell腳本
$ vi download.sh

shell腳本內(nèi)容如下:

cat是逐行讀取文件按內(nèi)容巢寡,我的文件每行都是SRA序號,就是直接`prefetch`的對象椰苟。
  1. nohup提交shell腳本

開始下載...

文件整理:

  • 從上到下分別是cart file(selected accession for processing sra toolkit)抑月、key(密鑰)下載的SRA內(nèi)容(full list of accession recordset)

[圖片上傳失敗...(image-1963a2-1598250164533)]

  • 下載表型
  • 下載過程中出現(xiàn)的這些文件是做啥用的舆蝴?谦絮?题诵??

    [圖片上傳失敗...(image-f0c890-1598250164532)]

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末层皱,一起剝皮案震驚了整個濱河市性锭,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌叫胖,老刑警劉巖草冈,帶你破解...
    沈念sama閱讀 223,126評論 6 520
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異瓮增,居然都是意外死亡怎棱,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,421評論 3 400
  • 文/潘曉璐 我一進(jìn)店門绷跑,熙熙樓的掌柜王于貴愁眉苦臉地迎上來拳恋,“玉大人,你說我怎么就攤上這事砸捏∽缪遥” “怎么了?”我有些...
    開封第一講書人閱讀 169,941評論 0 366
  • 文/不壞的土叔 我叫張陵带膜,是天一觀的道長吩谦。 經(jīng)常有香客問我,道長膝藕,這世上最難降的妖魔是什么式廷? 我笑而不...
    開封第一講書人閱讀 60,294評論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮芭挽,結(jié)果婚禮上滑废,老公的妹妹穿的比我還像新娘。我一直安慰自己袜爪,他們只是感情好蠕趁,可當(dāng)我...
    茶點故事閱讀 69,295評論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著辛馆,像睡著了一般俺陋。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上昙篙,一...
    開封第一講書人閱讀 52,874評論 1 314
  • 那天腊状,我揣著相機(jī)與錄音,去河邊找鬼苔可。 笑死缴挖,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的焚辅。 我是一名探鬼主播映屋,決...
    沈念sama閱讀 41,285評論 3 424
  • 文/蒼蘭香墨 我猛地睜開眼苟鸯,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了棚点?” 一聲冷哼從身側(cè)響起倔毙,我...
    開封第一講書人閱讀 40,249評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎乙濒,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體卵蛉,經(jīng)...
    沈念sama閱讀 46,760評論 1 321
  • 正文 獨居荒郊野嶺守林人離奇死亡颁股,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,840評論 3 343
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了傻丝。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片甘有。...
    茶點故事閱讀 40,973評論 1 354
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖葡缰,靈堂內(nèi)的尸體忽然破棺而出亏掀,到底是詐尸還是另有隱情,我是刑警寧澤泛释,帶...
    沈念sama閱讀 36,631評論 5 351
  • 正文 年R本政府宣布滤愕,位于F島的核電站,受9級特大地震影響怜校,放射性物質(zhì)發(fā)生泄漏间影。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 42,315評論 3 336
  • 文/蒙蒙 一茄茁、第九天 我趴在偏房一處隱蔽的房頂上張望魂贬。 院中可真熱鬧,春花似錦裙顽、人聲如沸付燥。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,797評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽键科。三九已至,卻和暖如春漩怎,著一層夾襖步出監(jiān)牢的瞬間萝嘁,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,926評論 1 275
  • 我被黑心中介騙來泰國打工扬卷, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留牙言,地道東北人。 一個月前我還...
    沈念sama閱讀 49,431評論 3 379
  • 正文 我出身青樓怪得,卻偏偏與公主長得像咱枉,于是被迫代替她去往敵國和親卑硫。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,982評論 2 361