大家好郑象,好久不見,這個公眾號目前只有我在寫倘屹,所有更新隨心所欲银亲,想起來什么就發(fā)點啥,也不為掙錢纽匙,希望能跟大家分享一些自己在生信學(xué)習(xí)中的感受务蝠。
上次我們把完整的vcf數(shù)據(jù)提取出來了,完整的數(shù)據(jù)對于我們提取其他有效信息非常有用烛缔,不過這個數(shù)據(jù)框的列名有些比較令人費解馏段,并不是我們數(shù)據(jù)的命名形式。今天我們講這個完整數(shù)據(jù)每一列的列名代表什么意思践瓷。
我們先來看看數(shù)據(jù)都有哪些列:
找到官方的說明:The first row represents a biallelic variant (rs10399793). Thereference allele (T) is always the non-effect allele and must match thereference genome sequence. The alternative allele (C) is always the effectallele and often (but not always) the minor allele. The final column containsthe effect size (ES), standard error (SE), P value on -log10 scale (LP), studyallele frequency (AF) and sample size (NS). Some fields are optional othersrequired, refer to the header and section 2 (below) for details.
翻譯一下:effect size (ES)效應(yīng)值也就是beta毅弧,standard error (SE)標(biāo)準(zhǔn)誤,P value on -log10
scale(LP)(存疑当窗,每個數(shù)據(jù)不太一樣够坐,有的是直接給的P,可能需要探索一下)崖面,study allele frequency (AF)也就是大家熟悉的eaf元咙,sample size (SS)樣本量,ALT即effect_allele巫员,REF即other_allele庶香,NC number_cases即患者數(shù)量。其他的大家一眼就能看出來就不翻譯了简识。有了這些數(shù)據(jù)就可以整理一下做任何想做的事情了赶掖。
R語言是生信學(xué)習(xí)避不開的語言感猛,在孟德爾隨機化領(lǐng)域,基本上只有R可以做完所有的分析奢赂,R在繪圖上也有很完善的語法陪白,也是比較簡單的語言,我目前學(xué)習(xí)上碰到的事情大部分都是R完成的膳灶,少量使用到python咱士,希望大家能學(xué)好R。