物種Verticillium dahliae Kleb
1.deseq2差異分析
- 只有count數(shù)據(jù)。按照count數(shù)據(jù)建立col data表格。
- 因?yàn)閏ol data表格只有condition分組捧存。修改代碼靴姿。
- pheatmap的標(biāo)注更改携丁,同樣因?yàn)闆](méi)有l(wèi)ane分組數(shù)據(jù)瘩扼。
- 為啥要normalize?參數(shù)normalized=TRUE
2.DAVID GO分析
2.1 GO分析
- DAVID媒鼓,導(dǎo)入gene list届吁。若為gene symbol,選擇 official gene symbol绿鸣。分析后界面如下:
選擇需要的結(jié)果下載瓷产。
疑問(wèn):GOTERM-BP-DIRECT,1,2,3,4,5的意義。這次選擇了direct下載枚驻,看起來(lái),包含的數(shù)據(jù)是最多的株旷。 - 得到的結(jié)果文件GO-CC
疑問(wèn):Count再登,List-total尔邓,Pop-hits,Pop-total的意義
理解:
1.Count:即List-hits锉矢,也就是我們提交gene list中進(jìn)入CC分類的某Term的數(shù)量梯嗽。(Direct表可能按閾值過(guò)濾了一些不靠譜的,因此表中count總數(shù)小于list-total)
2.List-total:提交gene list中進(jìn)入CC分類的所有term的總數(shù)量
3.Pop-hits:目前已被注釋進(jìn)入CC分類某Term的gene 數(shù)量
4.Pop-total:目前已被注釋進(jìn)入CC分類的總gene數(shù)量
疑問(wèn):作圖的gene ratio如何得到
理解:Count除List-total - term轉(zhuǎn)換:將term按波浪號(hào)分開(kāi)沽损,只取后半部分
用到了sapply和匿名函數(shù)灯节。
難題:直接得到的并不是向量,經(jīng)過(guò)雙方框后绵估,變成matrix炎疆,然后取第二行 - 基因比率:count除list total。count的總和并不等于list total国裳,可能是有一部分進(jìn)入GO——CC分類的基因被過(guò)濾掉形入。
- 調(diào)整generatio計(jì)算。
- ggplot調(diào)整x缝左,y軸名稱(gene ratio和term) 分組涉及onco列名亿遂。注意是否一致。
3.KEGG
- 網(wǎng)站渺杉,找到物種蛇数,點(diǎn)擊字母縮寫(xiě),Brite hierarchy是越,KEGG Orthology (KO)耳舅,download htext下載。
- 問(wèn)題:導(dǎo)入的geneid后一直報(bào)錯(cuò)no gene can be mapped英妓。首先需要是gene symbol挽放。導(dǎo)入的dataframe需要轉(zhuǎn)化成charactor 向量
- 用其他kegg分析結(jié)果作圖
問(wèn)題1.讀入表格,stringasfactor F (不然看起來(lái)是字符實(shí)際是factor蔓纠,在轉(zhuǎn)數(shù)值as numeric時(shí)候辑畦,數(shù)字會(huì)按照f(shuō)actor的順序變成12345)
問(wèn)題2.ggplot中的reorder(更改x或y軸標(biāo)簽的排列順序)
4.clusterprofile 建庫(kù) GO分析
- 參照Y叔公眾號(hào)link。詳細(xì)可見(jiàn)6Orgdb-GO.R
OrgDb這里寫(xiě)maize - MF只出來(lái)兩條腿倚,分面畫(huà)圖會(huì)變寬纯出。
facet_grid(onco ~ ., scales = "free", space = "free")
space free