用R語言對vcf文件進(jìn)行數(shù)據(jù)挖掘.2 方法簡介

目錄

  1. 前言
  2. 方法簡介
  3. 從vcf文件里提取有用信息
  4. tidy vcfR
  5. vcf可視化1
  6. vcf可視化2
  7. 測序深度覆蓋度
  8. 窗口縮放
  9. 如何單獨(dú)分離染色體
  10. 利用vcf信息判斷物種染色體倍數(shù)
  11. CNV分析

1.讀取數(shù)據(jù)

vcfR可以直接讀取vcf格式的數(shù)據(jù)。如果同時(shí)讀取參照序列fasta格式的序列文件和gff格式文件的注釋文件還可以獲取更完整的信息(此步驟并非必須,可以只讀取vcf數(shù)據(jù))带斑。在此處便于重復(fù)用到了pinfsc50包碗殷。這個(gè)包里是植物致病微生物的基因序列測序結(jié)果孤紧。包含了一個(gè)vcf文件誊册,一個(gè)fasta文件和一個(gè)gff文件仙蛉。

1.1 整合數(shù)據(jù)

pkg <- "pinfsc50"
vcf_file <- system.file("extdata", "pinf_sc50.vcf.gz", package = pkg)
dna_file <- system.file("extdata", "pinf_sc50.fasta", package = pkg)
gff_file <- system.file("extdata", "pinf_sc50.gff", package = pkg)

1.2 用vcfR讀取vcf數(shù)據(jù)

library(vcfR)
vcf <- read.vcfR( vcf_file, verbose = FALSE )

1.3 用ape讀取fasta數(shù)據(jù)

這里用到參照序列的數(shù)據(jù)材彪。

dna <- ape::read.dna(dna_file, format = "fasta")

1.4 讀取gff格式的注釋文件

gff <- read.table(gff_file, sep="\t", quote="")

當(dāng)這些數(shù)據(jù)被讀取到內(nèi)存的時(shí)候就可以開始對染色體名字或者其它一些東西進(jìn)行修改了。由于vcfR更擅長對的單獨(dú)染色體進(jìn)行分析觉痛,所以當(dāng)你的基因過大或者有很多樣本的時(shí)候役衡,建議對數(shù)據(jù)進(jìn)行拆分。

2. 建立chromR項(xiàng)目

讀取完數(shù)據(jù)以后就可以建立chromR薪棒,來對數(shù)據(jù)進(jìn)行詳細(xì)的分析手蝎。

library(vcfR)
chrom <- create.chromR(name='Supercontig', vcf=vcf, seq=dna, ann=gff)

3. 對chromR進(jìn)行進(jìn)一步處理

首先對數(shù)據(jù)進(jìn)行初步的可視化,

plot(chrom)

我們在上面的圖里得到很多信息,比方說測序深度(DP)的峰在500俐芯,但是拖著尾巴棵介,這個(gè)尾巴表示數(shù)據(jù)里包含著CNV信息。然后比對質(zhì)量(MQ)的峰值在60,于是我們可以以60為中心對數(shù)據(jù)進(jìn)行過濾吧史。
使用masker可以對數(shù)據(jù)進(jìn)行過濾標(biāo)記邮辽。然后可視化過濾以后的數(shù)據(jù)。

chrom <- masker(chrom, min_QUAL = 1, min_DP = 300, max_DP = 700, min_MQ = 59.9,  max_MQ = 60.1)
plot(chrom)

是不是順眼多了贸营。當(dāng)然我們也可以看一下SNP的分布情況吨述。注意右下角的圖。

chrom <- proc.chromR(chrom, verbose=TRUE)
plot(chrom)

4. 數(shù)據(jù)可視化

chromoqc()可以對數(shù)據(jù)進(jìn)行更完整的可視化钞脂。包括外顯子內(nèi)含子的分布揣云,GC含量的分布等等。

chromoqc(chrom, dp.alpha=20)

5. 數(shù)據(jù)輸出

最后可以用函數(shù)write.vcf()把數(shù)據(jù)輸出成新的vcf文件芳肌。

之后的文章里會(huì)有更加詳細(xì)的說明

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
禁止轉(zhuǎn)載灵再,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者。
  • 序言:七十年代末亿笤,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子栋猖,更是在濱河造成了極大的恐慌净薛,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蒲拉,死亡現(xiàn)場離奇詭異肃拜,居然都是意外死亡痴腌,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進(jìn)店門燃领,熙熙樓的掌柜王于貴愁眉苦臉地迎上來士聪,“玉大人,你說我怎么就攤上這事猛蔽“颍” “怎么了?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵曼库,是天一觀的道長区岗。 經(jīng)常有香客問我,道長毁枯,這世上最難降的妖魔是什么慈缔? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮种玛,結(jié)果婚禮上藐鹤,老公的妹妹穿的比我還像新娘。我一直安慰自己赂韵,他們只是感情好教藻,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著右锨,像睡著了一般括堤。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上绍移,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天悄窃,我揣著相機(jī)與錄音,去河邊找鬼蹂窖。 笑死轧抗,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的瞬测。 我是一名探鬼主播横媚,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼月趟!你這毒婦竟也來了灯蝴?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤孝宗,失蹤者是張志新(化名)和其女友劉穎穷躁,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體因妇,經(jīng)...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡问潭,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年猿诸,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片狡忙。...
    茶點(diǎn)故事閱讀 40,030評論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡梳虽,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出灾茁,到底是詐尸還是另有隱情窜觉,我是刑警寧澤,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布删顶,位于F島的核電站竖螃,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏逗余。R本人自食惡果不足惜特咆,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望录粱。 院中可真熱鬧腻格,春花似錦、人聲如沸啥繁。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽旗闽。三九已至酬核,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間适室,已是汗流浹背嫡意。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留捣辆,地道東北人蔬螟。 一個(gè)月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓,卻偏偏與公主長得像汽畴,于是被迫代替她去往敵國和親旧巾。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,976評論 2 355

推薦閱讀更多精彩內(nèi)容