轉(zhuǎn)錄組學(xué)習(xí)二(數(shù)據(jù)下載)

轉(zhuǎn)錄組學(xué)習(xí)一(軟件安裝)
轉(zhuǎn)錄組學(xué)習(xí)二(數(shù)據(jù)下載)
轉(zhuǎn)錄組學(xué)習(xí)三(數(shù)據(jù)質(zhì)控)
轉(zhuǎn)錄組學(xué)習(xí)四(參考基因組及gtf注釋探究)
轉(zhuǎn)錄組學(xué)習(xí)五(reads的比對與samtools排序)
轉(zhuǎn)錄組學(xué)習(xí)六(reads計數(shù)與標(biāo)準(zhǔn)化)
轉(zhuǎn)錄組學(xué)習(xí)七(差異基因分析)
轉(zhuǎn)錄組學(xué)習(xí)八(功能富集分析)

任務(wù)

  • 學(xué)習(xí)的文章是:《AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors》. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034
  • 在文章里面找到數(shù)據(jù)地址GSE81916 這樣就可以下載sra文件作業(yè)翘贮,看文章里的methods部分辩蛋,把它用到的軟件和參數(shù)摘抄下來账劲,然后理解GEO/SRA數(shù)據(jù)庫的數(shù)據(jù)存放形式官套。

<font color =orange>文章</font>

image
  • 主要內(nèi)容的是利用RNA-seq及RIP-seq(RNA-immunoprecipitation)來證明AKAP95對轉(zhuǎn)錄后調(diào)控的 可變剪接具有重要作用倔约。
    其中對于RNA-seq分析部分主要在Methods方法的Bioinformatic analyses:
  • 測序平臺:Illumina HiSeq 2500
  • 取樣物種:Homo sapiens和Mus musculus 的293個cells
  • 數(shù)據(jù)類型: 雙末端PE reads 2 x 50bp
  • 參考基因組:人類參考基因組CRCh37/hg19
  • 比對軟件:TopHat(v2.0.13)
  • GTF文件類型:GRCh38.70
  • 比對數(shù)據(jù)質(zhì)控:過濾低質(zhì)量比對reads(MQ > 30)
  • 平均插入長度及標(biāo)準(zhǔn)差(mean insert sizes and the s.d.'s):Picard-tools(v 1.126)
  • 計算reads count: HTSeq(v0.6.0)
  • 差異基因分析:DESeq(v3.0)
  • 差異外顯子分析:DEXSeq(v3.1)
  • (RPKM/FPKM?)The read per million normalized:BEDTools(v2.17.0), bedGraphToBigWig tool(v4)
  • GO富集分析DAVID

<font color =orange>數(shù)據(jù)</font>

  1. 首先簡單介紹NCBI的GEO數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/geo/)

GEO數(shù)據(jù)庫(Gene expression Omnibus)就是當(dāng)今最大纯路、最全面的公共基因表達(dá)數(shù)據(jù)資源之宿。簡單說GEO就是一個公共數(shù)據(jù)庫捻脖,包含大多數(shù)已在雜志發(fā)表文章的原始數(shù)據(jù)磁玉。

  1. 主頁輸入文章的登錄號GSE81916停忿。根據(jù)Overall design可知:1-8位RIP-seq數(shù)據(jù),9-15為RNA-seq數(shù)據(jù)蚊伞。其中9-11為AKAP95敲除后在人類293個cells里的數(shù)據(jù)席赂,12-15為在小鼠ES cells里的數(shù)據(jù)吮铭。故我們需要下載9-15的RNA-seq數(shù)據(jù)。
  2. 另外一個重要的數(shù)據(jù)庫就是SRA Run Selector(https://trace.ncbi.nlm.nih.gov/Traces/study/?go=home]r)颅停。同樣搜索數(shù)據(jù)登錄號GSE81916沐兵。得出關(guān)于這些數(shù)據(jù)的基本信息,其中我們所關(guān)注的RNA-seq數(shù)據(jù)的基本信息如
    image
    • SRR原始數(shù)據(jù)文件為SRR35899{56..62}
    • 其中56~58為人類數(shù)據(jù) 56為對照組便监,57, 58為控制組
    • 59~62為小鼠的數(shù)據(jù).實驗處理方式如圖:
    • 最后下載SRR35899{56..62}這7個數(shù)據(jù)集
    • 看了一下扎谎,這7個SRR數(shù)據(jù)需要10.38Gb 解壓完全之后共占空間24.17Gb,數(shù)據(jù)量感覺"比較大"烧董。


      image

<font color =orange>下載</font>

總共10Gb的數(shù)據(jù)量下載起來還是需要挺長時間的毁靶。目前所知道的有兩種下載方式:sratoolkit里自帶的preftch程序,與直接循環(huán)腳本wget下載數(shù)據(jù)逊移。

  1. Sratoolkit下載
mkdir rna_seq_test && cd rna_seq_test
###根據(jù)SRR數(shù)據(jù)結(jié)尾可知變化的數(shù)值主要是最后兩個56~62故

for i in `seq 56 62` ## shell的``與seq 兩個用法
do
nohup preftch SRR35899${i} & ##preftch與 后臺運(yùn)行
done

preftch程序會將數(shù)據(jù)下載存儲在$HOME/ncbi/public/sra/目錄下预吆。總共10.38Gb胳泉,慢慢下拐叉。

  1. 直接根據(jù)ftp網(wǎng)址用wget下載
    ftp網(wǎng)址一般都是具有規(guī)律的。根據(jù)徐洲更所提各種網(wǎng)址會分為共同部分變動部分
    FTP網(wǎng)址(ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747)可以分為以下部分(可以自行刪除探索其他網(wǎng)站部分)
    • 所有SRA數(shù)據(jù)的共同部分:ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant
    • reads表示存放reads數(shù)據(jù)扇商,在FTP可以看到另一個選項是analysis凤瘦,表示分析結(jié)果的文件
    • ByStudy表示根據(jù)Study進(jìn)行分類,其他還可以根據(jù)實驗ByExp,根據(jù)Run,ByRun.
    • sra/SRP/SRP075/SRP075747: 進(jìn)一步的分類檢索案铺。
      可以知道這些文件的地址改變只有最后兩個數(shù)字的不同。故循環(huán)腳本下載如下
for i in `seq 56 62`
do
nohup wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747/SRR35899${i}/SRR35899{$i}.sra &
done

最后總共下載完10多G啊控汉,截個圖


image

2017/10/14 Sat.晚8點小結(jié):對知識點: GEO笔诵、SRA數(shù)據(jù)庫, 簡單的循環(huán)腳本 做了進(jìn)一步的熟悉乎婿。仍然存在的問題就是這些SRA數(shù)據(jù)包括的數(shù)據(jù)具體是什么,是如何設(shè)計實驗方案的。這些預(yù)計在接下來解壓的文件和后續(xù)分析中會有所解釋吊宋。

參考文章

  1. 徐洲更 (偽)從零開始學(xué)轉(zhuǎn)錄組:讀文章拿到測序數(shù)據(jù) https://mp.weixin.qq.com/s?__biz=MzI1MjU5MjMzNA==&mid=2247484450&idx=1&sn=61784c91c745b0e3705bbc9145e69f3c&chksm=e9e02d83de97a495a87df0008977d2213736ab0505372c2f04a517ffcfcbf52747e911e89851&scene=21#wechat_redirect
  2. 青山屋主 如何從NCBI下載高通量數(shù)據(jù) http://fbb84b26.wiz03.com/share/s/3XK4IC0cm4CL22pU-r1HPcQQ2FSGeS3LE4tM2rg0A-1qRcP-
  3. 沈夢圓 PANDA姐的轉(zhuǎn)錄組入門(2):讀文章拿到測序數(shù)據(jù) https://mp.weixin.qq.com/s/kRSIHuXtgZs6HWiPwYnSmA
  4. GEO數(shù)據(jù)庫簡介 https://wenku.baidu.com/view/907abb0c1711cc7931b716e4.html
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末吊档,一起剝皮案震驚了整個濱河市怠硼,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌葡秒,老刑警劉巖赖草,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件疚顷,死亡現(xiàn)場離奇詭異笆檀,居然都是意外死亡酗洒,警方通過查閱死者的電腦和手機(jī)酒唉,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進(jìn)店門雹锣,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人攒射,你說我怎么就攤上這事会放。” “怎么了窗市?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵福青,是天一觀的道長媒役。 經(jīng)常有香客問我穿仪,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上寇壳,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好稼病,可當(dāng)我...
    茶點故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布隘谣。 她就那樣靜靜地躺著秩仆,像睡著了一般。 火紅的嫁衣襯著肌膚如雪阵难。 梳的紋絲不亂的頭發(fā)上殿衰,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼钳榨。 笑死,一個胖子當(dāng)著我的面吹牛缕溉,可吹牛的內(nèi)容都是我干的考传。 我是一名探鬼主播,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼证鸥,長吁一口氣:“原來是場噩夢啊……” “哼僚楞!你這毒婦竟也來了勤晚?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤泉褐,失蹤者是張志新(化名)和其女友劉穎赐写,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體膜赃,經(jīng)...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡挺邀,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了财剖。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片悠夯。...
    茶點故事閱讀 40,030評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖躺坟,靈堂內(nèi)的尸體忽然破棺而出沦补,到底是詐尸還是另有隱情,我是刑警寧澤咪橙,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布夕膀,位于F島的核電站,受9級特大地震影響美侦,放射性物質(zhì)發(fā)生泄漏产舞。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一菠剩、第九天 我趴在偏房一處隱蔽的房頂上張望易猫。 院中可真熱鬧,春花似錦具壮、人聲如沸准颓。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽攘已。三九已至,卻和暖如春怜跑,著一層夾襖步出監(jiān)牢的瞬間样勃,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工性芬, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留峡眶,地道東北人。 一個月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓植锉,卻偏偏與公主長得像幌陕,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子汽煮,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,976評論 2 355

推薦閱讀更多精彩內(nèi)容