目前基因測(cè)序工作中主要存在三個(gè)問(wèn)題:
question1:精確控制問(wèn)題括袒,其中主要是質(zhì)量控制問(wèn)題毕莱。
是由于目前基因測(cè)序中存在很多種算法蔑鹦,但是不同的算法都會(huì)產(chǎn)生不同的結(jié)果,面對(duì)這樣的問(wèn)題我們?cè)撊绾芜x擇成為一個(gè)棘手的問(wèn)題抡四。
(目前要做的是設(shè)計(jì)指控模型柜蜈,設(shè)計(jì)投票機(jī)制,如果設(shè)計(jì)成為接下來(lái)研究可突破的點(diǎn)指巡,在此過(guò)程中要抓住兩個(gè)方面的重點(diǎn):①數(shù)據(jù)特征②算法特征)
question2:輸入性數(shù)據(jù)質(zhì)量問(wèn)題。
主要是指輸入數(shù)據(jù)對(duì)輸出數(shù)據(jù)的影響
question3:輸出性數(shù)據(jù)質(zhì)量問(wèn)題
主要指在測(cè)序輸出時(shí)隶垮,會(huì)有相當(dāng)多的參數(shù)藻雪,那么如何調(diào)控和選擇這些參數(shù)也是一個(gè)值得研究的問(wèn)題。
學(xué)習(xí)的整體思路:
首先生物信息學(xué)分為幾大部分:蛋白組學(xué)狸吞,基因組學(xué)勉耀,轉(zhuǎn)錄組學(xué),代謝組學(xué)等
我們主要接觸的是基因組信息學(xué)蹋偏,以及部分的轉(zhuǎn)錄組學(xué)(接觸極少)
目前我們要看的知識(shí)主要是:
①第二代基因組測(cè)序技術(shù)的數(shù)據(jù)特點(diǎn)(原理大概了解即可)
②對(duì)輸出數(shù)據(jù)的處理:首先得到下機(jī)數(shù)據(jù)fastq(準(zhǔn)確度達(dá)99.99%)——>通過(guò)對(duì)比原理——>bam格式的對(duì)比數(shù)據(jù)
(其中對(duì)比過(guò)程是我們接下來(lái)工作的重點(diǎn)之一便斥,如何對(duì)比,使用什么軟件威始,軟件參數(shù)如何設(shè)定都是需要解決的問(wèn)題枢纠,例如給出fastq數(shù)據(jù),我們?nèi)绾芜M(jìn)行統(tǒng)計(jì)黎棠,以及參數(shù)的配置等問(wèn)題晋渺;
目前使用較多的對(duì)比軟件是:BWA:存在問(wèn)題①讀段長(zhǎng)度為200以?xún)?nèi),不適用于第三代基因測(cè)序技術(shù)產(chǎn)生的數(shù)據(jù)脓斩;②參數(shù)相當(dāng)多木西,且參數(shù)有人種偏好,偏好白種人随静,對(duì)黃種人和黑種人的準(zhǔn)確度較低八千。)
——>變異分析工具(例如gatk)——>變異數(shù)據(jù)——>標(biāo)準(zhǔn)數(shù)據(jù)——>表達(dá)驗(yàn)證數(shù)據(jù)——>上臨床
其他相關(guān)知識(shí):
①基因數(shù)據(jù)庫(kù)主要有三個(gè):Genebank(美國(guó)) UCSC:https://genome.ucsc.edu/;EMBL(歐洲)燎猛;DDBJ(日本)