大家好堂淡,孟德爾隨機化很多人都是從TwoSampleMR包入手學(xué)習(xí)的,很多GWAS的概念如果不搞清楚,寫SCI的時候容易犯一些概念性的錯誤帖池,低分的雜志可能大家都很水,可能也就一笑而過了吭净,如果想投高分的SCI 睡汹,那么可能審稿人一眼就能看出來并拒稿。所以寂殉,從這一期開始囚巴,我嘗試來解釋一些孟德爾隨機化的基本概念及最簡單的計算方式,不zhuai原理,主要是也不懂彤叉。
今天來介紹MAF(minor allele frequency庶柿,最小等位基因頻率),它是指人群中第二多的等位基因頻率秽浇。假設(shè)檢測同一位點浮庐,檢測到了A,T和C三種堿基兼呵,A出現(xiàn)100次兔辅,T出現(xiàn)80次,C出現(xiàn)20次击喂,則第二多的T的等位基因頻率為80/200维苔。
從概念基本就可以看出來,MAF肯定是<0.5的懂昂,因為如果>0.5介时,那就不是第二多。在GWAS或者QTL文件中凌彬,經(jīng)常沒有MAF這一列沸柔,但是有Eaf這一列,他們之間的關(guān)系就是:如果Eaf>0.5铲敛,那么MAF=1-Eaf褐澎;如果Eaf<0.5,那么MAF=Eaf伐蒋。
搞懂這個關(guān)系工三,代碼就很簡單啦。MAF=ifelse(GWAS$eaf>0.5, GWAS$eaf,1- GWAS$eaf)先鱼,大概就是這么個意思俭正。
計算這個有什么用呢?這就要從SNP的概念講起來焙畔,簡單來說掸读,就是SNP是在人群中有一定比例出現(xiàn)的突變,并不是隨便一個突變就叫SNP宏多。那么進(jìn)行SNP過濾的時候儿惫,這個MAF就要大于某個閾值,一般是0.01伸但,也就是人群中1%的人存在的突變姥闪。
TwoSampleMR包中有一個函數(shù)extract_outcome_data,是提取暴露數(shù)據(jù)的砌烁,有個參數(shù),maf_threshold這個就是MAF的閾值,取0.01就好了函喉。