GWAS分析-說人話(12)“BUG”机久?您好臭墨!

前言

當(dāng)歲月靜好,一切就等著到“曼哈頓”相見的時(shí)候

“BUG”就悄悄地來了吞加!~

如暴風(fēng)雨前一樣安靜裙犹。


若數(shù)據(jù)安好,便是晴天~

當(dāng)一切如前話獲得一個(gè)又一個(gè)的關(guān)聯(lián)結(jié)果后衔憨,卡殼的事情出現(xiàn)了叶圃!

當(dāng)我使用keep保留希望留住想要的亞組的時(shí)候,居然報(bào)錯(cuò)了<肌(是的1-23號(hào)染色體掺冠,只有15號(hào)有問題)

小白幼小而又脆弱的心靈!

提取完后居然沒有剩下的樣本B氲场德崭?

反正我也有22條染色體了~ 不如......

騷年!忘記騷想法揖盘!科學(xué)精神都去哪里了C汲!兽狭!

于是就要開始查原因了憾股。

人話:結(jié)果是簡單的,但是查找原因的過程是痛苦的~

正如:相愛是簡單的箕慧,但是相處的日子是痛苦的一樣服球。


第一步:一開始,我并不知道Individual ID是不是真的不存在(當(dāng)然不存在的可能性不大~)

但是本著科學(xué)的精神颠焦,我們還是在需要提取的txt文件(--keep中間的那個(gè)文件)中挑一個(gè)individual ID出來斩熊,

grep -nw 142120126 chr19.ped?

是存在的~
反復(fù)查找是否存在

IID說:你愛或不愛,我就在哪里~

那么伐庭,究竟是什么阻擋著我們的康莊大道粉渠?


第二步:為什么其他染色體能夠提取出來分冈,就這個(gè)不行?

是否有天生異品之處渣叛?

我們先看看文件長什么樣子丈秩!

打開15號(hào)(不能提取的),19號(hào)和22號(hào)(能提取的)文件淳衙,看長什么樣子(文件較大蘑秽,打開需要一點(diǎn)時(shí)間~ 注意加head!s锱省3ι!否則普通電腦handle不了Qヵ恕)

awk '{print $1,$2}' chr15.ped |head?

awk '{print $1,$2}' chr19.ped|head

awk '{print $1,$2}' chr22.ped |head

結(jié)果:

看到了嗎缀雳?15號(hào)染色體和其他的染色體不!一梢睛!樣肥印!

第三步:把所有不同的??給找出來!

你想想绝葡,就看前幾行就已經(jīng)有不一樣了深碱,中間的呢?后面的呢藏畅?

相信我敷硅,你是不可能全部打開,然后一個(gè)一個(gè)對(duì)比的S溲帧=时摹!榜旦!

(有聽過愚公移山嗎幽七?)

我們首先讀入15號(hào)染色體和20號(hào)染色體(隨便選的,一個(gè)能跑的就可以了)

打開R(Rstudio也好溅呢,Terminal的R也罷)

讀入chr15.fam文件

chr15fam=read.table("chr15.fam",header=F,stringsAsFactors=F)

讀入chr20.fam文件

chr20fam=read.table("chr20.fam",header=F,stringsAsFactors=F)

我說過了澡屡,熟悉這些文件是什么,是很重要的E航臁(GWAS分析-說人話(2)認(rèn)識(shí)文件名

查看一下,我們關(guān)心的第二列(Individual ID亭饵,我們想保留的)是否不一樣

#首先配對(duì)

tmp=match(chr15fam[,2], chr20fam[,2])

#然后查看沒有配對(duì)的元素個(gè)數(shù)(我們的目的是查不同啊~)

length(which(is.na(tmp)))

結(jié)果:

[1] 2

沒想到還真有P菖肌(15號(hào)染色體有兩個(gè)不同于其他染色體的存在!)

究竟是哪個(gè)9佳颉Lざ怠词顾!

which(is.na(tmp))

[1]? 275 1211

我們來看一個(gè)全相!

chr20fam[notfound,]

? ? ? ? ? V1 ? ? ? ? ? ? ?V2 ? ? ? ? ? ? ?V3 V4 V5 V6

275? famid275 142120304? 0? 0? 0 -9

1211 famid1211 142120782? 0? 0? 0 -9

我們從一開始的head碱妆,發(fā)現(xiàn)了某些individual ID缺失了肉盹,導(dǎo)致和FamilyID的配對(duì)亂了!

所以我們盡管看看是否如此:

查看15號(hào)染色體第274行(減一行)的樣子

chr15fam[274,]

結(jié)果:

? ? ? ? ? V1? ? ? ? V2 V3 V4 V5 V6

274 famid274 142120304? 0? 0? 0 -9

對(duì)比15號(hào)染色體第275行

chr20fam[275,]

好的疹尾,發(fā)現(xiàn)第二行的Individual ID是一樣的上忍,但是Family ID確實(shí)不一樣!

? ? ? ? ? V1? ? ? ? V2 V3 V4 V5 V6

275 famid275 142120304? 0? 0? 0 -9

這個(gè)就是為什么之前的keep完全提取不了數(shù)據(jù)的原因D杀尽G侠丁!

我們要知道繁成,--keep中間的文件是有兩行的吓笙,是配對(duì)的!

這個(gè)染色體亂套了=硗蟆面睛!

是的,一子錯(cuò)滿盤皆落錯(cuò)W鸢帷(這是原來數(shù)據(jù)集的問題啦~)

第四步:我們通過科學(xué)的方法查找了問題所在了叁鉴,接下來就是解決問題了!~

#我們首先在R中讀入原來用在--keep中的txt文件

scfam=read.table("SCfam.txt",header=F,stringsAsFactors=F)

#在terminal中提取15號(hào)染色體ped文件前兩行(Family ID和Individual ID)毁嗦,保存為一個(gè)txt文件亲茅。

awk '{print $1,$2}' chr15.ped > ~seedson/Desktop/file/Chr15IDs.txt

awk '{print $1,$2}' chr20.ped > ~seedson/Desktop/file/Chr20IDs.txt (用于后面的確認(rèn)而已)

在R中讀入15號(hào)染色體的txt文件

chr15=read.table("Chr15IDs.txt",header=F,stringsAsFactors=F)

#可省略(不過習(xí)慣上都要看看數(shù)據(jù)讀入成不成功,不成功的話狗准,后面的分析都是不靠譜的克锣!~)

scfam[1:2,]

chr15[1:3,]

?dim(chr15)

dim(chr20)

control15[1:3,]

#我們?cè)俅_認(rèn)一下,第二行是否有差異腔长,差異的是哪個(gè)(上述第三步重復(fù))

tmp=match(chr15[,2], chr20[,2])

length(which(is.na(tmp)))

which(is.na(tmp))

chr20[275,]

chr20[1211,]

Terminal界面:

相信我袭祟,查BUG就是要反復(fù)確認(rèn),因?yàn)闆]有人會(huì)告訴你答案

大招來了捞附!~

設(shè)定一個(gè)變量(scinchr15)巾乳,把需要提取的Individual ID和全部的15號(hào)染色體的Individual ID配對(duì)起來(第二列)

scinchr15= match(scfam[,2], chr15[,2])

#length(which(is.na(scinchr15)))

#scinchr15[1:10]

#scfaminchr15=match(scfam[,1], chr15[,1])

#length(which(is.na(scfaminchr15)))

#scfaminchr15[1:10]

對(duì)于15號(hào)染色體需要提取的數(shù)據(jù)(scforchr15):

對(duì)于15號(hào)染色體的行,根據(jù)scinchr15保留鸟召,對(duì)于15號(hào)染色體的列胆绊,全部第一,二列全部保留欧募。

scforchr15= chr15[scinchr15, 1:2]

#scforchr15[1:3,]

#scinchr15[1:10]

#輸出數(shù)據(jù)压状,用于--keep中間。

write.table(scforchr15, file="SCfam_forChr15.txt",quote=F,row.names=F,col.names=F)

看見右下角的Done,腰不疼啦,腿不痛啦..上六樓啊也有勁勒

配對(duì)成功

對(duì)照組也是同樣的處理(其他亞組也是一樣了)

chr15=read.table("Chr15IDs.txt",header=F,stringsAsFactors=F)

control15=read.table("controlfam.txt",header=F,stringsAsFactors=F)

controlscinchr15= match(control15[,2], chr15[,2])

scforchr15control= chr15[controlscinchr15, 1:2]

write.table(scforchr15control,file="control_forChr15.txt",quote=F,row.names=F,col.names=F)

后記

告訴大家一個(gè)不幸的消息:盡管我經(jīng)過如此謹(jǐn)慎的計(jì)算后种冬,該染色體并沒有我們想要的SNP

......

原諒我的浮躁~

c'est la 科研 (???)?

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末镣丑,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子娱两,更是在濱河造成了極大的恐慌莺匠,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,464評(píng)論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件十兢,死亡現(xiàn)場離奇詭異趣竣,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)纪挎,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,033評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門期贫,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人异袄,你說我怎么就攤上這事通砍。” “怎么了烤蜕?”我有些...
    開封第一講書人閱讀 169,078評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵封孙,是天一觀的道長。 經(jīng)常有香客問我讽营,道長虎忌,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,979評(píng)論 1 299
  • 正文 為了忘掉前任橱鹏,我火速辦了婚禮膜蠢,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘莉兰。我一直安慰自己挑围,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,001評(píng)論 6 398
  • 文/花漫 我一把揭開白布糖荒。 她就那樣靜靜地躺著杉辙,像睡著了一般。 火紅的嫁衣襯著肌膚如雪捶朵。 梳的紋絲不亂的頭發(fā)上蜘矢,一...
    開封第一講書人閱讀 52,584評(píng)論 1 312
  • 那天,我揣著相機(jī)與錄音综看,去河邊找鬼品腹。 笑死,一個(gè)胖子當(dāng)著我的面吹牛红碑,可吹牛的內(nèi)容都是我干的舞吭。 我是一名探鬼主播,決...
    沈念sama閱讀 41,085評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼镣典!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起唾琼,我...
    開封第一講書人閱讀 40,023評(píng)論 0 277
  • 序言:老撾萬榮一對(duì)情侶失蹤兄春,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后锡溯,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體赶舆,經(jīng)...
    沈念sama閱讀 46,555評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,626評(píng)論 3 342
  • 正文 我和宋清朗相戀三年祭饭,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了芜茵。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,769評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡倡蝙,死狀恐怖九串,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情寺鸥,我是刑警寧澤猪钮,帶...
    沈念sama閱讀 36,439評(píng)論 5 351
  • 正文 年R本政府宣布,位于F島的核電站胆建,受9級(jí)特大地震影響烤低,放射性物質(zhì)發(fā)生泄漏笆载。R本人自食惡果不足惜凉驻,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,115評(píng)論 3 335
  • 文/蒙蒙 一沿侈、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧咳短,春花似錦蛛淋、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,601評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽杨伙。三九已至限匣,卻和暖如春毁菱,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背峦筒。 一陣腳步聲響...
    開封第一講書人閱讀 33,702評(píng)論 1 274
  • 我被黑心中介騙來泰國打工窗慎, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人遮斥。 一個(gè)月前我還...
    沈念sama閱讀 49,191評(píng)論 3 378
  • 正文 我出身青樓伏伐,卻偏偏與公主長得像,于是被迫代替她去往敵國和親藐翎。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,781評(píng)論 2 361