不同于以往的 makers删顶,現(xiàn)在定位通常是基于重測(cè)序數(shù)據(jù)雹舀。但是由于測(cè)序數(shù)據(jù)基因組覆蓋率的問題著恩,并不是群體內(nèi)所有個(gè)體在每個(gè)標(biāo)記都有位點(diǎn)信息洒嗤;而且由于測(cè)序數(shù)據(jù)準(zhǔn)確性的問題,單個(gè)的 SNP 位點(diǎn)不再像過去的傳統(tǒng)標(biāo)記那么可靠魁亦。
所以渔隶,在定位之前,可能需要對(duì)數(shù)據(jù)進(jìn)行一些處理洁奈。常規(guī)的 mapping 和 call SNP 不多說(shuō)间唉,我之前介紹了一個(gè)方法,是關(guān)于構(gòu)建 bin 標(biāo)記的利术,有興趣的可以移步看一下:SNPbinner 構(gòu)建定位群體的基因組 bin 圖譜呈野。
說(shuō)在前面
參數(shù)資料:
1.A guide to QTL mapping with R/qtl
首先是安裝包的安裝和調(diào)用:
install.packages("qtl")
library(qtl)
一、數(shù)據(jù)格式
軟件支持多種格式輸入印叁,http://www.rqtl.org/sampledata 提供了各種文件格式示例被冒。
讀取數(shù)據(jù)的函數(shù)為read.cross?。
args(read.cross)
function (format = c("csv", "csvr", "csvs", "csvsr", "mm", "qtx", "qtlcart", "gary", "karl", "mapqtl", "tidy"),
? ? dir = "", file, genfile, mapfile, phefile, chridfile, mnamesfile, pnamesfile,
????na.strings = c("-", "NA"),
? ? genotypes = c("A", "H", "B", "D", "C"), alleles = c("A", "B"),
????estimate.map = FALSE,
? ? convertXdata = TRUE, error.prob = 1e-04, map.function = c("haldane", "kosambi", "c-f", "morgan"),
????BC.gen = 0, F.gen = 0, crosstype = NULL, ...)
以上各參數(shù)顧名思義轮蜕;
file, genfile, mapfile, phefile, chridfile, mnamesfile, pnamesfile??
# 為不同輸入文件昨悼,file 指的是 csv 或 csvr 或 mm 格式的輸入文件,genfile 指基因型文件跃洛;mapfile 為遺傳圖譜率触;chridfile 為每個(gè)標(biāo)記的染色體信息;mnamesfile 為 markers 的名字信息汇竭;pnamesfile 為表型名字信息葱蝗。
genotypes? ? ? ? # 基因型信息,即文件中 marker 處的基因型是什么字母指定的细燎;
alleles? ? ? ? ? ? ? ? # 用于標(biāo)記兩個(gè)等位基因两曼;
estimate.map? ? # 在 TRUE 的情況下,如果輸入文件中不包含遺傳圖譜玻驻,則使用函數(shù) est.map 進(jìn)行計(jì)算合愈;
crosstype? ? ? ? # 可選,指定特定的雜交類型;
在指定基因型或者缺失字符時(shí)佛析,注意區(qū)分大小寫益老,相同字母的大小寫分別會(huì)代表不同的含義;若文件給出了 genetic map寸莫,則?estimate.map 參數(shù)選用 FALSE 即可捺萌;
常用的是逗號(hào)分割的 csv 格式文件,文件格式示例如下:
起始的列為表型數(shù)據(jù)膘茎,隨后的列是標(biāo)記的信息桃纯;
第一行包含表型和標(biāo)記的名字;
第二行在每個(gè)表型下面必須是空字段披坏,基因型的列下面必須是染色體名稱(最好是純數(shù)字态坦,帶字母也不是不行,后續(xù)可能會(huì)造成麻煩)棒拂,X 染色體就用 X 或 x 表示伞梯;
第三行是可選的,沒有也行帚屉,是每個(gè)標(biāo)記遺傳圖譜上的位置信息(cM position)谜诫;
再往下的行就是每個(gè)個(gè)體的表型,以及遺傳標(biāo)記的信息攻旦,缺失用 NA 或 - 表示喻旷。
其中,染色體標(biāo)識(shí)和遺傳圖譜位置處不允許有缺失值牢屋。
表型列如果存在“id”且预、“ID”、“Id”的名字烙无,則會(huì)被認(rèn)為這一列為個(gè)體標(biāo)識(shí)符辣之。
在實(shí)際使用時(shí),最少需要指定的參數(shù)只有兩個(gè)皱炉,其余都可以使用默認(rèn)參數(shù):
> mydata <- read.cross(format="csv", file="mydata.csv")
值得提一下的是怀估,如果是按上述文件格式生成的 csv file,那?genfile, mapfile, phefile, chridfile, mnamesfile, pnamesfile 這一系列是不需要的合搅;
二多搀、示例
以軟件自帶文件為例,sug.csv 文件部分內(nèi)容見下圖
sug <- read.cross("csv", "https://rqtl.org", "sug.csv", genotypes=c("CC", "CB", "BB"), alleles=c("C", "B"))
以上直接從官網(wǎng)上讀取文件灾部,而后可以簡(jiǎn)單檢查一下讀入的數(shù)據(jù):
summary(sug)
plot(sug)
結(jié)果這里就不展示了康铭,會(huì)對(duì)表中數(shù)據(jù)指標(biāo)進(jìn)行總結(jié)和簡(jiǎn)單的繪圖。
數(shù)據(jù)導(dǎo)入之后赌髓,最好對(duì)數(shù)據(jù)的基本概況進(jìn)行一個(gè)檢查从藤,后面有一章會(huì)單獨(dú)介紹數(shù)據(jù)質(zhì)量檢查催跪,有興趣的話可以移步:
R/qtl 定位分析(三)Single-QTL analysis
R/qtl 定位分析(四)Non-normal phenotypes
對(duì) QTL 定位有興趣的話可以看看我建的一個(gè)文集:QTL 定位。要是覺得有用可以登錄一下賬號(hào)夷野,點(diǎn)個(gè)贊懊蒸,以表支持!