PDAC數(shù)據(jù)分析-GSE16515-GPL570
致讀者語(yǔ):本人接下來(lái)的九篇GEO解析文章將基于此浇坐,不斷進(jìn)行迭代睬捶,嘗試讓核心步驟、讓圖文與讓結(jié)構(gòu)更加美觀,讓讀者與自身更能直擊GEO分析的本質(zhì)近刘,讓自身具備常見(jiàn)SCI文件畫(huà)圖的思路擒贸。致敬曾老師與小潔老師以及生信技能樹(shù)臀晃,萬(wàn)分感謝。
1.分析思路
01.GEO芯片數(shù)據(jù)是什么酗宋,有什么用积仗?
GEO芯片數(shù)據(jù)即存儲(chǔ)在GEO數(shù)據(jù)庫(kù)中利用芯片測(cè)序獲得的基因表達(dá)譜數(shù)據(jù)(轉(zhuǎn)錄組水平)。通過(guò)GEO芯片數(shù)據(jù)蜕猫,你能查找你感興趣的疾病或者表型相對(duì)于正常組的整體基因表達(dá)譜變化情況寂曹,你就能知道你關(guān)注的基因與通路在你所關(guān)注的疾病與表型中是否發(fā)生了顯著變化,或者篩選出你之前并未關(guān)注的能影響你疾病的關(guān)鍵下游基因或者通路回右。
小提示:
? ? ? ? 跟著以下步驟隆圆,芯片數(shù)據(jù)分析在曾老師與小潔老師以及生信技能樹(shù)的帶領(lǐng)下會(huì)非常簡(jiǎn)單,你就很大程度上能有機(jī)會(huì)找到你下游的基因與通路翔烁。利用別人的數(shù)據(jù)與經(jīng)費(fèi)渺氧,思考完善自己的文章,何樂(lè)而不為呢蹬屹。
02.芯片數(shù)據(jù)能做什么常見(jiàn)分析侣背?
? ? ? ? 許多芯片數(shù)據(jù)會(huì)有相應(yīng)的臨床性狀相關(guān)信息,若有慨默,可以進(jìn)一步進(jìn)行臨床預(yù)后及臨床性狀相關(guān)性分析贩耐;若沒(méi)有,你可以進(jìn)行芯片數(shù)據(jù)的差異分析厦取,芯片數(shù)據(jù)主要需要芯片表達(dá)矩陣與芯片平臺(tái)注釋信息兩類信息潮太。整體上,不管有沒(méi)有臨床性狀相關(guān)信息虾攻,你都可以做差異分析铡买。因此,本文先主要針對(duì)芯片的差異分析進(jìn)行闡述霎箍。
03.芯片數(shù)據(jù)進(jìn)行差異分析需要什么奇钞?
? ? ? ? 做差異分析的話主要需要芯片表達(dá)矩陣與芯片平臺(tái)注釋信息,你網(wǎng)上所看的火山圖漂坏、熱圖蛇券、GO富集與KEGG圖等都是它們做出來(lái)的,所以如果你需要獲得做這些圖樊拓,第一步先找到這兩個(gè)。
04.芯片數(shù)據(jù)差異分析的常規(guī)思路
十一步帶你做差異分析(3中運(yùn)行流程有更詳細(xì)的描述)
2.數(shù)據(jù)集介紹
GEO鏈接:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE16515
芯片平臺(tái):GPL570 [HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array
平臺(tái)鏈接:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL570
樣品信息:16個(gè)正常樣本與36個(gè)胰腺導(dǎo)管腺癌(PDAC)樣本
3.運(yùn)行流程(12步)
運(yùn)行按上述思維導(dǎo)圖帶你做差異分析
為什么是12步呢塘慕,上面不是說(shuō)好11步嗎筋夏?因?yàn)橐肦語(yǔ)言做下述分析,你得安裝與加載相應(yīng)的包才能進(jìn)行后續(xù)分析图呢。
注意看代碼時(shí)識(shí)別非關(guān)鍵命令與關(guān)鍵命令条篷,非關(guān)鍵命令不影響結(jié)果運(yùn)行但是能用來(lái)了解自身處理的數(shù)據(jù)情況骗随;關(guān)鍵命令是直接與結(jié)果息息相關(guān)的命令,錯(cuò)了會(huì)直接影響結(jié)果或者出不了結(jié)果赴叹。
小提示(小感悟):
不管是芯片數(shù)據(jù)分析鸿染,還是其它數(shù)據(jù)分析作圖,整體就是準(zhǔn)備輸入文件(按照你要運(yùn)行的計(jì)算工具的輸入格式)乞巧,按照規(guī)定的流程運(yùn)行(你要實(shí)現(xiàn)什么就用什么流程)涨椒,獲得輸出文件(包括你要的圖與數(shù)據(jù))三步。其中尤為重要的是你得了解你自身的數(shù)據(jù)绽媒,按照輸入要求準(zhǔn)備數(shù)據(jù)以及運(yùn)行相應(yīng)的流程蚕冬,輸出結(jié)果變成了一個(gè)自然而然地過(guò)程。
00步:安裝與加載下述分析的相應(yīng)包
01步:GSE芯片數(shù)據(jù)集的下載
GEO芯片數(shù)據(jù)集中含有后續(xù)數(shù)據(jù)分析相關(guān)的探針表達(dá)矩陣exp(注意與基因表達(dá)矩陣的關(guān)鍵區(qū)別就在它的行名是探針I(yè)D名是辕,而非基因名)囤热、臨床分組信息pd與GPL芯片平臺(tái)注釋信息(可以知道該芯片源自哪個(gè)平臺(tái),你去下載那個(gè)平臺(tái)對(duì)應(yīng)的注釋信息获三,通過(guò)過(guò)R就能將探針矩陣對(duì)應(yīng)轉(zhuǎn)換為的基因矩陣)----三組關(guān)鍵信息旁蔼。
芯片矩陣與基因矩陣的區(qū)別以及為什么要轉(zhuǎn)換芯片矩陣?
芯片表達(dá)矩陣行名是探針I(yè)D疙教,列名是樣本名棺聊;而芯片平臺(tái)注釋信息中含有探針I(yè)D與基因名的對(duì)應(yīng)關(guān)系。由于后續(xù)展示的結(jié)果不管是差異基因還是差異功能及差異通路相關(guān)的結(jié)果都與基因名相關(guān)松逊,所以要將芯片的探針表達(dá)矩陣轉(zhuǎn)換為基因表達(dá)矩陣躺屁,基于芯片平臺(tái)中探針I(yè)D與基因名的對(duì)應(yīng)關(guān)系。
02步:提取三組關(guān)鍵信息(輸入數(shù)據(jù)準(zhǔn)備)
03步.GPL芯片平臺(tái)注釋信息下載
04步:箱線圖p1初看整體探針檢測(cè)情況
箱線圖二看:
1.檢查各個(gè)樣本的整體探針檢測(cè)情況经宏,是防止分析檢測(cè)差異太大的樣本犀暑,可以用箱線圖;箱線圖一看
2.取log烁兰,是因?yàn)槭紫萳og分析便于量化耐亏,更為關(guān)鍵的是后續(xù)的差異分析logFC更是基于此;若取完log再次取log沪斟,會(huì)影響后續(xù)差異分析广辰。判斷是否需要取log,看其箱線圖值是否在20以內(nèi)主之;箱線圖二看
05.獲取基因表達(dá)矩陣择吊,去除冗余探針
獲取基因表達(dá)矩陣是因?yàn)楹罄m(xù)分析不用探針矩陣的探針I(yè)D,而用基因名槽奕,所以需要將探針I(yè)D轉(zhuǎn)換為基因名
去除冗余探針:因?yàn)榇嬖诙鄠€(gè)探針對(duì)應(yīng)到一個(gè)基因名之上几睛,而基因表達(dá)矩陣之中,一個(gè)基因只能對(duì)應(yīng)一個(gè)探針的表達(dá)值粤攒,所以需要去除冗余探針所森。目前去除冗余探針的方式主要有取隨機(jī)值囱持、取最大值與取中位數(shù)三種,本差異分析選擇取隨機(jī)值焕济。具體取啥纷妆,隨心所欲,像小潔老師所說(shuō)的晴弃,具體哪種方式可行沒(méi)有硬性標(biāo)準(zhǔn)掩幢,生信分析像曾老師所說(shuō)的都可以,最關(guān)鍵的是數(shù)據(jù)可信肝匆,分析方式可信即可按需粒蜈。
06步:獲取樣品分組信息并分組
07步:3個(gè)質(zhì)控圖及拼圖
三個(gè)質(zhì)控圖包括反映樣本之間相似性的PCA圖、高變基因熱圖與樣品相關(guān)性圖