本系列課程學(xué)習(xí)的文章是:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034
很容易在文章里面找到數(shù)據(jù)地址GSE81916 這樣就可以下載sra文件
數(shù)據(jù)下載部分
第一步:在PubMeb上查找文獻(xiàn)
第二步: 根據(jù)文獻(xiàn)的method部分找到RNA-Seq是如何存放的
第三步: 在GEO上查找GSE81916
GEO站點: https://www.ncbi.nlm.nih.gov/geo/
找到了NCBI的SRA工具下載所需要的SRR編號赶掖。
GEO網(wǎng)址: https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE81916 分為兩個部分:
- 共同部分:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=
- 變動部分:GSE81916
FTP網(wǎng)址ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747 可以分為以下幾個部分
- 所有SRA數(shù)據(jù)的共同部分: ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant
- reads表示存放reads數(shù)據(jù)带射,在FTP可以看到另一個選項是analysis纲岭,表示分析結(jié)果
- ByStudy表示根據(jù)Study進(jìn)行分類,其他還可以根據(jù)實驗
ByExp
,根據(jù)Run,ByRun
. - sra/SRP/SRP075/SRP075747: 后面部分都是為了便于檢索。
第四步:通過循環(huán)缠俺,分別用prefetch下載數(shù)據(jù)
for i in `seq 48 62`;
do
prefetch SRR35899${i}
done
知識點:如何用循環(huán)批量下載數(shù)據(jù)
注: 數(shù)據(jù)很大攒发,需要下載很久,這段時間去看文章所用的分析方法逆害。
文章所用方法:
內(nèi)容主要在Bioinformatic analyses部分
比對:
- 比對軟件:TopHat (v2.0.13)
- 參考基因組:human reference genome (GRCh37/hg19)
- GTF文件: GTF version GRCh37.70
- 只保留MQ >30的map結(jié)果
- Picard-tools (v1.126): 計算平均插入大小(mean insert sizes)和標(biāo)準(zhǔn)差
read count: 軟件:HTSeq v0.6.0
差異表達(dá)分析: DESeq (v3.0)
差異外顯子使用分析: DEXSeq (v3.1)
GO富集分析:DAVID (http://david.ncifcrf.gov/).
實驗設(shè)計:
樣本9-15為mRNA-Seq測序結(jié)果头镊,用于分析人類293個細(xì)胞(9-11)和小鼠ES細(xì)胞(12-15)d的AKAP95敲出影響。
文章到底用RNA-Seq做了那些事情
為了評估AKAP95對AS的全局影響魄幕,他們刪除了人類293 cell和小鼠ES細(xì)胞相艇,通過RNA-Seq和DEXseq 分析找到細(xì)胞mRNA的不同外顯子使用。由于DEXseq考慮到了生物學(xué)變異纯陨,因此對假陽性(False discovery)有可信的控制坛芽。在 293 cell 和 ES cell中,AKAPP95 KD都導(dǎo)致更多地外顯子使用減少翼抠,意味著APAP95通過促進(jìn)外顯子融合調(diào)節(jié)全局地可變剪切(AS). 他們用PCR-based assay驗證了結(jié)果咙轩。
文章用了火山圖展示被影響地外顯子,用餅圖可視化多少個外顯子被下調(diào)了阴颖。Fold change is the ratio of the normalized exon level in AKAP95 KD over that in control cells.
為了證明外顯子使用(exon usage)降低不是因為基因表達(dá)量降低導(dǎo)致的技術(shù)偏差活喊,作者從三個角度進(jìn)行論證
- 工具角度,DEXseq根據(jù)基因的總外顯子信號水平標(biāo)準(zhǔn)化每個外顯子信號
- 數(shù)據(jù)分析量愧,AKAP95 KD的細(xì)胞中那些外顯子使用被影響的大部分基因钾菊,表達(dá)量沒有降低,所以和表達(dá)量無關(guān)偎肃,還用圖證明煞烫。Fold change is the ratio of the normalized exon level in AKAP95 KD over that in control cells.
- PCR數(shù)據(jù)證實
- 小鼠的也是如此
確定可變外顯子使用是AKAP95的直接影響, 他們比較了AKAP95物理靶點(基于AKAP95 RIP-Seq)和功能位點(基于mRNA-Seq)累颂。 那些AKAP95結(jié)合到內(nèi)含子的基因和外顯子使用顯著性變化(AKAP95 KD)的基因顯著性重疊红竭。
邏輯就是: 如果A和B有關(guān),那么有A就有B喘落, 沒有A就沒有B茵宪,且這種關(guān)系不是偶然的。
確定AKAP95靶點參與的生物學(xué)通路瘦棋,他們用了基因本體論(GO)分析了AKAP95的功能位點和物理位點稀火。結(jié)果揭示那些AKAP95 KD 的293細(xì)胞中那些差異外顯子使用的基因,顯著性的富集在chromatin/transcription regulators and RNA processing factors赌朋。那些RIP-Seq找到基因也是如此凰狞。
綜上篇裁, AKAP95可能通過直接和間接調(diào)節(jié)染色質(zhì),轉(zhuǎn)錄和RNA加工調(diào)節(jié)全局基因表達(dá)赡若。
拓展提高: 寫一個Python腳本下載GEO數(shù)據(jù)
下載數(shù)據(jù)的過程無非是根據(jù)GEO找到FTP的地址达布,然后用wget或者prefetch下載而已。在我們今后的生涯里必然會遇到很多次類似的情況逾冬,所以寫個腳本吧黍聂。
腳本邏輯很簡單:
- 根據(jù)GEO accession找到FTP地址
- 用wget循環(huán)下載FTP地址下的數(shù)據(jù)
考慮到GEO會變,每個人的Python版本也不一樣身腻,我臨時寫的代碼的穩(wěn)健性不好产还,所以這里就不貼代碼了。