從CCLE中提取出目的細(xì)胞系的數(shù)據(jù)
較為熟悉的RNA分類為mRNA(信使RNA)逢捺、tRNA(轉(zhuǎn)運(yùn)RNA)和rRNA(核糖體RNA);RNA主要參與生化反應(yīng)挨下,也在細(xì)胞中發(fā)揮復(fù)雜的調(diào)控作用给僵;
- mRNA由DNA轉(zhuǎn)錄而來,攜帶著翻譯成蛋白質(zhì)所需的編碼信息;rRNA與蛋白質(zhì)結(jié)合形成核糖體秩命,轉(zhuǎn)移至細(xì)胞質(zhì)作為翻譯的主要調(diào)控原件;tRNA攜帶氨基酸至核糖體军俊,參與蛋白質(zhì)合成侥加;
- 此外,RNA也被分為編碼RNA和非編碼RNA粪躬。非編碼RNA主要包括housekeeping ncRNAs (tRNA 担败、rRNA) 以及regulatory ncRNAs(可根據(jù)大小進(jìn)一步劃分為lncRNA和sncRNA).Small ncRNAs 又分為micro RNA (miRNA), small nucleolar RNA (snoRNA), small nuclear RNA (snRNA), small-interfering RNA (siRNA), 和 PIWI-interacting RNA (piRNA).
- miRNA大約22個(gè)核苷酸,大多真核細(xì)胞中發(fā)揮基因調(diào)控作用镰官,通過與目標(biāo)mRNA結(jié)合抑制基因的表達(dá)提前;很多miRNA在腫瘤中發(fā)揮重要作用,通過調(diào)控目標(biāo)基因的表達(dá)泳唠,導(dǎo)致腫瘤的產(chǎn)生和疾病進(jìn)展岖研。
- piRNAs大約26-31個(gè)核苷酸,大多與轉(zhuǎn)座子互補(bǔ)警检,通過調(diào)節(jié)轉(zhuǎn)座子的轉(zhuǎn)座來調(diào)控生殖細(xì)胞中基因的翻譯孙援。
- circRNA區(qū)別于其他類型的RNA,5'和3'末端結(jié)合在一起扇雕,形成環(huán)拓售。由蛋白編碼的基因產(chǎn)生,可通過競(jìng)爭(zhēng)性結(jié)合miRNA發(fā)揮調(diào)控作用镶奉。
下載gtf文件通過ENS對(duì)應(yīng)RNA的功能
zcat Homo_sapiens.GRCh38.96.gtf.gz|cut -f 9|sed -E 's/gene_version \".*gene_source \"\w+\";//g'|sed -E 's/; transcript.*//g'|sort|uniq >>GRCh38_ens.txt
-
下載CCLE數(shù)據(jù)庫Data下的細(xì)胞系名稱注釋
-
RNA-seq數(shù)據(jù)在CCLE數(shù)據(jù)庫中有多種數(shù)據(jù)格式础淤,這里選的是counts數(shù)據(jù)
-
可以簡(jiǎn)單看下數(shù)據(jù)的格式
因?yàn)槲业碾娔X服役時(shí)間比較長(zhǎng),所以我是從linux里提取的矩陣哨苛;
zcat CCLE_RNAseq_genes_rpkm_20180929.gct.gz |sed -n '3p' > cell_line.txt
awk '{for(i=1;i<=NF;i++){a[FNR,i]=$i}}END{for(i=1;i<=NF;i++){for(j=1;j<=FNR;j++){printf a[j,i]" "}print ""}}' cell_line.txt > tcell_line.txt
#####這里是把細(xì)胞系的名稱轉(zhuǎn)置成列鸽凶,這樣方便獲取列號(hào)進(jìn)行提取,有點(diǎn)兒笨建峭,但先這樣吧
cat > num.sh
cat $1|while read line
do
cat tcell_line.txt|grep -n ${line} >>$1_num.txt
done
#####此處有教訓(xùn)玻侥,scc.txt是在window里從excel篩選出來粘貼得到的,然后傳到服務(wù)器亿蒸,這里的格式不是unix格式凑兰,在grep過程中一直沒有結(jié)果,在notepad++轉(zhuǎn)成unix格式后边锁,再傳到服務(wù)器姑食,運(yùn)行腳本,才有結(jié)果茅坛;
######從excel中篩選的細(xì)胞系名稱音半,最好加上Description,這樣可以從矩陣中將基因名一起提取出來;
######$1這里是指我在windows里根據(jù)文章描述篩選出來的細(xì)胞系的txt曹鸠;這里是要把對(duì)應(yīng)的列取出來隔躲,之后方便用cut函數(shù)將對(duì)應(yīng)的細(xì)胞系的表達(dá)情況的列取出來
cat > target.sh
cat $1|while read line
do
echo $line > line.txt
num=`cut -d ':' -f 1 line.txt`
col=`zcat CCLE_RNAseq_genes_counts_20180929.gct.gz|cut -f ${num} -`
echo $col > line1.txt
paste line1.txt >>$1_target.txt
done
#####這里是要根據(jù)上一步的列號(hào),進(jìn)行cut操作物延,echo之后,就是行的模式仅父,可以重定向