轉(zhuǎn)錄組學(xué)習(xí)一(軟件安裝)
轉(zhuǎn)錄組學(xué)習(xí)二(數(shù)據(jù)下載)
轉(zhuǎn)錄組學(xué)習(xí)三(數(shù)據(jù)質(zhì)控)
轉(zhuǎn)錄組學(xué)習(xí)四(參考基因組及gtf注釋探究)
轉(zhuǎn)錄組學(xué)習(xí)五(reads的比對與samtools排序)
轉(zhuǎn)錄組學(xué)習(xí)六(reads計數(shù)與標(biāo)準(zhǔn)化)
轉(zhuǎn)錄組學(xué)習(xí)七(差異基因分析)
轉(zhuǎn)錄組學(xué)習(xí)八(功能富集分析)
任務(wù)
- 學(xué)習(xí)的文章是:《AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors》. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034
- 在文章里面找到數(shù)據(jù)地址GSE81916 這樣就可以下載sra文件作業(yè)翘贮,看文章里的methods部分辩蛋,把它用到的軟件和參數(shù)摘抄下來账劲,然后理解GEO/SRA數(shù)據(jù)庫的數(shù)據(jù)存放形式官套。
<font color =orange>文章</font>
-
主要內(nèi)容的是利用RNA-seq及RIP-seq(RNA-immunoprecipitation)來證明AKAP95對轉(zhuǎn)錄后調(diào)控的 可變剪接具有重要作用倔约。
其中對于RNA-seq分析部分主要在Methods方法的Bioinformatic analyses: - 測序平臺:Illumina HiSeq 2500
- 取樣物種:Homo sapiens和Mus musculus 的293個cells
- 數(shù)據(jù)類型: 雙末端PE reads 2 x 50bp
- 參考基因組:人類參考基因組CRCh37/hg19
- 比對軟件:TopHat(v2.0.13)
- GTF文件類型:GRCh38.70
- 比對數(shù)據(jù)質(zhì)控:過濾低質(zhì)量比對reads(MQ > 30)
- 平均插入長度及標(biāo)準(zhǔn)差(mean insert sizes and the s.d.'s):Picard-tools(v 1.126)
- 計算reads count: HTSeq(v0.6.0)
- 差異基因分析:DESeq(v3.0)
- 差異外顯子分析:DEXSeq(v3.1)
- (RPKM/FPKM?)The read per million normalized:BEDTools(v2.17.0), bedGraphToBigWig tool(v4)
- GO富集分析:DAVID
<font color =orange>數(shù)據(jù)</font>
- 首先簡單介紹NCBI的GEO數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/geo/)
GEO數(shù)據(jù)庫(Gene expression Omnibus)就是當(dāng)今最大纯路、最全面的公共基因表達(dá)數(shù)據(jù)資源之宿。簡單說GEO就是一個公共數(shù)據(jù)庫捻脖,包含大多數(shù)已在雜志發(fā)表文章的原始數(shù)據(jù)磁玉。
- 主頁輸入文章的登錄號GSE81916停忿。根據(jù)Overall design可知:1-8位RIP-seq數(shù)據(jù),9-15為RNA-seq數(shù)據(jù)蚊伞。其中9-11為AKAP95敲除后在人類293個cells里的數(shù)據(jù)席赂,12-15為在小鼠ES cells里的數(shù)據(jù)吮铭。故我們需要下載9-15的RNA-seq數(shù)據(jù)。
-
另外一個重要的數(shù)據(jù)庫就是SRA Run Selector(https://trace.ncbi.nlm.nih.gov/Traces/study/?go=home]r)颅停。同樣搜索數(shù)據(jù)登錄號GSE81916沐兵。得出關(guān)于這些數(shù)據(jù)的基本信息,其中我們所關(guān)注的RNA-seq數(shù)據(jù)的基本信息如image
- SRR原始數(shù)據(jù)文件為SRR35899{56..62}
- 其中56~58為人類數(shù)據(jù) 56為對照組便监,57, 58為控制組
- 59~62為小鼠的數(shù)據(jù).實驗處理方式如圖:
- 最后下載SRR35899{56..62}這7個數(shù)據(jù)集
-
看了一下扎谎,這7個SRR數(shù)據(jù)需要10.38Gb 解壓完全之后共占空間24.17Gb,數(shù)據(jù)量感覺"比較大"烧董。
image
<font color =orange>下載</font>
總共10Gb的數(shù)據(jù)量下載起來還是需要挺長時間的毁靶。目前所知道的有兩種下載方式:sratoolkit里自帶的preftch程序,與直接循環(huán)腳本wget下載數(shù)據(jù)逊移。
- Sratoolkit下載
mkdir rna_seq_test && cd rna_seq_test
###根據(jù)SRR數(shù)據(jù)結(jié)尾可知變化的數(shù)值主要是最后兩個56~62故
for i in `seq 56 62` ## shell的``與seq 兩個用法
do
nohup preftch SRR35899${i} & ##preftch與 后臺運(yùn)行
done
preftch程序會將數(shù)據(jù)下載存儲在$HOME/ncbi/public/sra/目錄下预吆。總共10.38Gb胳泉,慢慢下拐叉。
-
直接根據(jù)ftp網(wǎng)址用wget下載
ftp網(wǎng)址一般都是具有規(guī)律的。根據(jù)徐洲更所提各種網(wǎng)址會分為共同部分和變動部分
FTP網(wǎng)址(ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747)可以分為以下部分(可以自行刪除探索其他網(wǎng)站部分)- 所有SRA數(shù)據(jù)的共同部分:ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant
- reads表示存放reads數(shù)據(jù)扇商,在FTP可以看到另一個選項是analysis凤瘦,表示分析結(jié)果的文件
- ByStudy表示根據(jù)Study進(jìn)行分類,其他還可以根據(jù)實驗ByExp,根據(jù)Run,ByRun.
- sra/SRP/SRP075/SRP075747: 進(jìn)一步的分類檢索案铺。
可以知道這些文件的地址改變只有最后兩個數(shù)字的不同。故循環(huán)腳本下載如下
for i in `seq 56 62`
do
nohup wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747/SRR35899${i}/SRR35899{$i}.sra &
done
最后總共下載完10多G啊控汉,截個圖
2017/10/14 Sat.晚8點小結(jié):對知識點: GEO笔诵、SRA數(shù)據(jù)庫, 簡單的循環(huán)腳本 做了進(jìn)一步的熟悉乎婿。仍然存在的問題就是這些SRA數(shù)據(jù)包括的數(shù)據(jù)具體是什么,是如何設(shè)計實驗方案的。這些預(yù)計在接下來解壓的文件和后續(xù)分析中會有所解釋吊宋。
參考文章
- 徐洲更 (偽)從零開始學(xué)轉(zhuǎn)錄組:讀文章拿到測序數(shù)據(jù) https://mp.weixin.qq.com/s?__biz=MzI1MjU5MjMzNA==&mid=2247484450&idx=1&sn=61784c91c745b0e3705bbc9145e69f3c&chksm=e9e02d83de97a495a87df0008977d2213736ab0505372c2f04a517ffcfcbf52747e911e89851&scene=21#wechat_redirect
- 青山屋主 如何從NCBI下載高通量數(shù)據(jù) http://fbb84b26.wiz03.com/share/s/3XK4IC0cm4CL22pU-r1HPcQQ2FSGeS3LE4tM2rg0A-1qRcP-
- 沈夢圓 PANDA姐的轉(zhuǎn)錄組入門(2):讀文章拿到測序數(shù)據(jù) https://mp.weixin.qq.com/s/kRSIHuXtgZs6HWiPwYnSmA
- GEO數(shù)據(jù)庫簡介 https://wenku.baidu.com/view/907abb0c1711cc7931b716e4.html