十一步帶你解構(gòu)GEO分析常規(guī)流程(一)

PDAC數(shù)據(jù)分析-GSE16515-GPL570

致讀者語(yǔ):本人接下來(lái)的九篇GEO解析文章將基于此浇坐,不斷進(jìn)行迭代睬捶,嘗試讓核心步驟、讓圖文與讓結(jié)構(gòu)更加美觀,讓讀者與自身更能直擊GEO分析的本質(zhì)近刘,讓自身具備常見(jiàn)SCI文件畫(huà)圖的思路擒贸。致敬曾老師與小潔老師以及生信技能樹(shù)臀晃,萬(wàn)分感謝。

1.分析思路

01.GEO芯片數(shù)據(jù)是什么酗宋,有什么用积仗?

GEO芯片數(shù)據(jù)即存儲(chǔ)在GEO數(shù)據(jù)庫(kù)中利用芯片測(cè)序獲得的基因表達(dá)譜數(shù)據(jù)(轉(zhuǎn)錄組水平)。通過(guò)GEO芯片數(shù)據(jù)蜕猫,你能查找你感興趣的疾病或者表型相對(duì)于正常組的整體基因表達(dá)譜變化情況寂曹,你就能知道你關(guān)注的基因與通路在你所關(guān)注的疾病與表型中是否發(fā)生了顯著變化,或者篩選出你之前并未關(guān)注的能影響你疾病的關(guān)鍵下游基因或者通路回右。

小提示:

? ? ? ? 跟著以下步驟隆圆,芯片數(shù)據(jù)分析在曾老師與小潔老師以及生信技能樹(shù)的帶領(lǐng)下會(huì)非常簡(jiǎn)單,你就很大程度上能有機(jī)會(huì)找到你下游的基因與通路翔烁。利用別人的數(shù)據(jù)與經(jīng)費(fèi)渺氧,思考完善自己的文章,何樂(lè)而不為呢蹬屹。

02.芯片數(shù)據(jù)能做什么常見(jiàn)分析侣背?

? ? ? ? 許多芯片數(shù)據(jù)會(huì)有相應(yīng)的臨床性狀相關(guān)信息,若有慨默,可以進(jìn)一步進(jìn)行臨床預(yù)后及臨床性狀相關(guān)性分析贩耐;若沒(méi)有,你可以進(jìn)行芯片數(shù)據(jù)的差異分析厦取,芯片數(shù)據(jù)主要需要芯片表達(dá)矩陣芯片平臺(tái)注釋信息兩類信息潮太。整體上,不管有沒(méi)有臨床性狀相關(guān)信息虾攻,你都可以做差異分析铡买。因此,本文先主要針對(duì)芯片的差異分析進(jìn)行闡述霎箍。

03.芯片數(shù)據(jù)進(jìn)行差異分析需要什么奇钞?

? ? ? ? 做差異分析的話主要需要芯片表達(dá)矩陣芯片平臺(tái)注釋信息,你網(wǎng)上所看的火山圖漂坏、熱圖蛇券、GO富集與KEGG圖等都是它們做出來(lái)的,所以如果你需要獲得做這些圖樊拓,第一步先找到這兩個(gè)

04.芯片數(shù)據(jù)差異分析的常規(guī)思路

十一步帶你做差異分析(3中運(yùn)行流程有更詳細(xì)的描述)


2.數(shù)據(jù)集介紹

GEO鏈接:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE16515

芯片平臺(tái):GPL570 [HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array

平臺(tái)鏈接:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL570

樣品信息:16個(gè)正常樣本與36個(gè)胰腺導(dǎo)管腺癌(PDAC)樣本

3.運(yùn)行流程(12步)

運(yùn)行按上述思維導(dǎo)圖帶你做差異分析

為什么是12步呢塘慕,上面不是說(shuō)好11步嗎筋夏?因?yàn)橐肦語(yǔ)言做下述分析,你得安裝與加載相應(yīng)的包才能進(jìn)行后續(xù)分析图呢。

注意看代碼時(shí)識(shí)別非關(guān)鍵命令與關(guān)鍵命令条篷,非關(guān)鍵命令不影響結(jié)果運(yùn)行但是能用來(lái)了解自身處理的數(shù)據(jù)情況骗随;關(guān)鍵命令是直接與結(jié)果息息相關(guān)的命令,錯(cuò)了會(huì)直接影響結(jié)果或者出不了結(jié)果赴叹。

小提示(小感悟):

不管是芯片數(shù)據(jù)分析鸿染,還是其它數(shù)據(jù)分析作圖,整體就是準(zhǔn)備輸入文件(按照你要運(yùn)行的計(jì)算工具的輸入格式)乞巧,按照規(guī)定的流程運(yùn)行(你要實(shí)現(xiàn)什么就用什么流程)涨椒,獲得輸出文件(包括你要的圖與數(shù)據(jù))三步。其中尤為重要的是你得了解你自身的數(shù)據(jù)绽媒,按照輸入要求準(zhǔn)備數(shù)據(jù)以及運(yùn)行相應(yīng)的流程蚕冬,輸出結(jié)果變成了一個(gè)自然而然地過(guò)程。

00步:安裝與加載下述分析的相應(yīng)包

01步:GSE芯片數(shù)據(jù)集的下載

GEO芯片數(shù)據(jù)集中含有后續(xù)數(shù)據(jù)分析相關(guān)的探針表達(dá)矩陣exp(注意與基因表達(dá)矩陣的關(guān)鍵區(qū)別就在它的行名是探針I(yè)D名是辕,而非基因名)囤热、臨床分組信息pdGPL芯片平臺(tái)注釋信息(可以知道該芯片源自哪個(gè)平臺(tái),你去下載那個(gè)平臺(tái)對(duì)應(yīng)的注釋信息获三,通過(guò)過(guò)R就能將探針矩陣對(duì)應(yīng)轉(zhuǎn)換為的基因矩陣)----三組關(guān)鍵信息旁蔼。

芯片矩陣與基因矩陣的區(qū)別以及為什么要轉(zhuǎn)換芯片矩陣?

芯片表達(dá)矩陣行名是探針I(yè)D疙教,列名是樣本名棺聊;而芯片平臺(tái)注釋信息中含有探針I(yè)D與基因名的對(duì)應(yīng)關(guān)系。由于后續(xù)展示的結(jié)果不管是差異基因還是差異功能及差異通路相關(guān)的結(jié)果都與基因名相關(guān)松逊,所以要將芯片的探針表達(dá)矩陣轉(zhuǎn)換為基因表達(dá)矩陣躺屁,基于芯片平臺(tái)中探針I(yè)D與基因名的對(duì)應(yīng)關(guān)系。

02步:提取三組關(guān)鍵信息(輸入數(shù)據(jù)準(zhǔn)備)

03步.GPL芯片平臺(tái)注釋信息下載

04步:箱線圖p1初看整體探針檢測(cè)情況

箱線圖二看:

1.檢查各個(gè)樣本的整體探針檢測(cè)情況经宏,是防止分析檢測(cè)差異太大的樣本犀暑,可以用箱線圖;箱線圖一看

2.取log烁兰,是因?yàn)槭紫萳og分析便于量化耐亏,更為關(guān)鍵的是后續(xù)的差異分析logFC更是基于此;若取完log再次取log沪斟,會(huì)影響后續(xù)差異分析广辰。判斷是否需要取log,看其箱線圖值是否在20以內(nèi)主之;箱線圖二看

05.獲取基因表達(dá)矩陣择吊,去除冗余探針

獲取基因表達(dá)矩陣是因?yàn)楹罄m(xù)分析不用探針矩陣的探針I(yè)D,而用基因名槽奕,所以需要將探針I(yè)D轉(zhuǎn)換為基因名

去除冗余探針:因?yàn)榇嬖诙鄠€(gè)探針對(duì)應(yīng)到一個(gè)基因名之上几睛,而基因表達(dá)矩陣之中,一個(gè)基因只能對(duì)應(yīng)一個(gè)探針的表達(dá)值粤攒,所以需要去除冗余探針所森。目前去除冗余探針的方式主要有取隨機(jī)值囱持、取最大值與取中位數(shù)三種,本差異分析選擇取隨機(jī)值焕济。具體取啥纷妆,隨心所欲,像小潔老師所說(shuō)的晴弃,具體哪種方式可行沒(méi)有硬性標(biāo)準(zhǔn)掩幢,生信分析像曾老師所說(shuō)的都可以,最關(guān)鍵的是數(shù)據(jù)可信肝匆,分析方式可信即可按需粒蜈。

06步:獲取樣品分組信息并分組

07步:3個(gè)質(zhì)控圖及拼圖

三個(gè)質(zhì)控圖包括反映樣本之間相似性的PCA圖高變基因熱圖樣品相關(guān)性圖

樣本相關(guān)性熱圖懶惰的沒(méi)去除行旗国,懶一下先枯怖,哈哈

08步:差異基因-limma分析(火山圖與熱圖,兩圖)

09步:利用GO與KEGG富集分析差異功能與差異通路

10步:GSEA富集

11步:KEGG的GSEA富集分析可視化

致敬曾老師能曾、小潔老師與小郭老師度硝,生信技能樹(shù)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市寿冕,隨后出現(xiàn)的幾起案子蕊程,更是在濱河造成了極大的恐慌,老刑警劉巖驼唱,帶你破解...
    沈念sama閱讀 206,013評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件藻茂,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡玫恳,警方通過(guò)查閱死者的電腦和手機(jī)辨赐,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)京办,“玉大人掀序,你說(shuō)我怎么就攤上這事〔研觯” “怎么了不恭?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,370評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)财饥。 經(jīng)常有香客問(wèn)我换吧,道長(zhǎng),這世上最難降的妖魔是什么钥星? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,168評(píng)論 1 278
  • 正文 為了忘掉前任式散,我火速辦了婚禮,結(jié)果婚禮上打颤,老公的妹妹穿的比我還像新娘暴拄。我一直安慰自己,他們只是感情好编饺,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布乖篷。 她就那樣靜靜地躺著,像睡著了一般透且。 火紅的嫁衣襯著肌膚如雪撕蔼。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 48,954評(píng)論 1 283
  • 那天秽誊,我揣著相機(jī)與錄音鲸沮,去河邊找鬼。 笑死锅论,一個(gè)胖子當(dāng)著我的面吹牛讼溺,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播最易,決...
    沈念sama閱讀 38,271評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼怒坯,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了藻懒?” 一聲冷哼從身側(cè)響起剔猿,我...
    開(kāi)封第一講書(shū)人閱讀 36,916評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎嬉荆,沒(méi)想到半個(gè)月后归敬,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,382評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡鄙早,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評(píng)論 2 323
  • 正文 我和宋清朗相戀三年汪茧,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蝶锋。...
    茶點(diǎn)故事閱讀 37,989評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡陆爽,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出扳缕,到底是詐尸還是另有隱情慌闭,我是刑警寧澤,帶...
    沈念sama閱讀 33,624評(píng)論 4 322
  • 正文 年R本政府宣布躯舔,位于F島的核電站驴剔,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏粥庄。R本人自食惡果不足惜丧失,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望惜互。 院中可真熱鬧布讹,春花似錦琳拭、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,199評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至膘流,卻和暖如春絮缅,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背呼股。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,418評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工耕魄, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人彭谁。 一個(gè)月前我還...
    沈念sama閱讀 45,401評(píng)論 2 352
  • 正文 我出身青樓吸奴,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親马靠。 傳聞我的和親對(duì)象是個(gè)殘疾皇子奄抽,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容