---我們實驗室是研究雪蓮的幸斥,可以做10X單細胞轉(zhuǎn)錄組嗎勋篓?
···可以
--- 我們實驗室前幾年做了雪蓮的基因組,沒有發(fā)表此熬,師兄做的庭呜,不知道質(zhì)量怎么樣,可以做10X單細胞轉(zhuǎn)錄組嗎犀忱?
···可以
---我們實驗室做的雪蓮三代轉(zhuǎn)錄組募谎,有一個基因組,基于這個可以做10X單細胞轉(zhuǎn)錄組嗎阴汇?
···可以
所以說数冬,基因組是生命科學(xué)實驗室基礎(chǔ)建設(shè)的一部分,在不遠的將來搀庶,單細胞也會是。
要回答上述問題,首先要明白的一點就是:基因組是什么搬泥?
基因組主要有兩個文件:
- fa序列文件
>15 dna:chromosome chromosome:GRCh38:15:1:101991189:1 REF
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
- gtf注釋文件
!genome-build GRCh38.p12
#!genome-version GRCh38
#!genome-date 2013-12
#!genome-build-accession NCBI:GCA_000001405.27
#!genebuild-last-updated 2018-01
1 havana gene 29554 31109 . + . gene_id "ENSG00000243485"; gene_version "5"; gene_name "MIR1302-2HG"; gene_source "havana"; gene_biotype "lincRNA"
1 havana transcript 29554 31097 . + . gene_id "ENSG00000243485"; gene_version "5"; transcript_id "ENST00000473358"; transcript_version "1"; gene_name "MIR1302-2HG"; gene_source "havana"; gene_biotype "lincRNA"; transcript_name "MIR1302-
1 havana exon 29554 30039 . + . gene_id "ENSG00000243485"; gene_version "5"; transcript_id "ENST00000473358"; transcript_version "1"; exon_number "1"; gene_name "MIR1302-2HG"; gene_source "havana"; gene_biotype "lincRNA"; transcript_name
1 havana exon 30564 30667 . + . gene_id "ENSG00000243485"; gene_version "5"; transcript_id "ENST00000473358"; transcript_version "1"; exon_number "2"; gene_name "MIR1302-2HG"; gene_source "havana"; gene_biotype "lincRNA"; transcript_name
1 havana exon 30976 31097 . + . gene_id "ENSG00000243485"; gene_version "5"; transcript_id "ENST00000473358"; transcript_version "1"; exon_number "3"; gene_name "MIR1302-2HG"; gene_source "havana"; gene_biotype "lincRNA"; transcript_name
1 havana transcript 30267 31109 . + . gene_id "ENSG00000243485"; gene_version "5"; transcript_id "ENST00000469289"; transcript_ve
組裝
序列文件就是基因組的序列以fa格式存儲小腊,這里我們看到在GRCh38版本中染色體兩端加了很多N。
從序列文件我們可以得到什么咆蒿?
- 組裝水平:染色體东抹,contig,還是scaffold水平蜡秽?
- 組裝質(zhì)量評估:
動植物基因組de novo工作府阀,其組裝指標(biāo)的好壞直接影響著整個基因組的質(zhì)量。而評估基因組組裝結(jié)果芽突,contigN50和scaffoldN50是第一指標(biāo)试浙,即contig/ scaffoldN50:將contig/scaffold長度從長到短進行排序并累加,當(dāng)累加和達到contig/scaffold總長度的50%的時候寞蚌,最后參與加和的那一條contig/scaffold長度即為contig/ scaffoldN50的長度田巴。一般來說钠糊,contig/scaffoldN50越長,表示組裝結(jié)果越好壹哺。
但是抄伍,N50指標(biāo)高就意味著組裝結(jié)果就一定可靠嗎?
不一定管宵!將一些不相關(guān)的reads或者contig錯誤的連接為scaffold截珍,一樣可以達到很高的scaffoldN50。
目前高水平文章發(fā)表箩朴,組裝指標(biāo)固然是一方面岗喉,但真正決定文章發(fā)表檔次的,是生物學(xué)故事是否足夠完美炸庞,有亮點钱床。我們知道,后續(xù)分析依賴的基礎(chǔ)便是組裝得到的基因組埠居,因此查牌,不可靠的組裝結(jié)果,對基因組后續(xù)分析會造成很大的困擾滥壕,甚至?xí)贸鲥e誤的生物學(xué)結(jié)論纸颜。
那么,如何才能檢驗一個基因組組裝結(jié)果的可靠性呢捏浊?
1懂衩、 序列一致性評估:
基因組是通過reads組裝得到,這一步金踪,是將reads比到基因組上浊洞,驗證reads對基因組的覆蓋情況,用于評估組裝的完整性以及測序的均勻性胡岔。較高的mapping rate(90%以上)以及coverage(95%以上)認為組裝結(jié)果和reads有比較好的一致性法希。
2、 序列完整性評估:
所謂完整性評估靶瘸,即評估組裝得到的基因組對基因區(qū)的覆蓋程度苫亦,一般需要借助RNA方面的證據(jù)進行評估,如EST數(shù)據(jù)或RNA reads怨咪。由于用來評估的RNA方面證據(jù)不同屋剑,得到的比例也會有差別。一般來說诗眨,50%的scaffold覆蓋基因的95%以上唉匾,85%的scaffold覆蓋基因的90%以上,認為組裝較完整。
3巍膘、 準(zhǔn)確性評估:
通過全長BAC序列厂财,可以通過與組裝結(jié)果的比對,對組裝結(jié)果的正確性進行驗證峡懈,從BAC序列和scaffold是否具有較好的一致性來判斷組裝質(zhì)量璃饱。
4、 保守性基因評估:
即根據(jù)廣泛存在于大量真核生物中的保守蛋白家族集合(248個core gene庫)肪康,對組裝得到基因組進行評估荚恶,評估組裝基因組中的core gene的準(zhǔn)確性和完整性×字В可以通過該物種和同源物種cegma的比例裆甩,判斷保守基因組裝情況。
有沒有現(xiàn)成的方法來評估呢齐唆?
有的,LAI: 評估基因組質(zhì)量一個標(biāo)準(zhǔn)
得到的LAI值按照如下評估標(biāo)準(zhǔn)進行分類:
Category | LAI | Examples |
---|---|---|
Draft | 0 ≤ LAI < 10 | Apple (v1.0), Cacao (v1.0) |
Reference | 10 ≤ LAI < 20 | Arabidopsis (TAIR10), Grape (12X) |
Gold | 20 ≤ LAI | Rice (MSUv7), Maize (B73 v4) |
注釋
注釋就是以位置信息來注明基因組的序列每一段都是什么功能(一種描述)冻河。
那么箍邮,如何對基因組序列進行注釋呢?基因組組裝完成后叨叙,或者是完成了草圖锭弊,就不可避免遇到一個問題,需要對基因組序列進行注釋擂错。注釋之前首先得構(gòu)建基因模型味滞,有三種策略:
- 從頭注釋(de novo prediction):通過已有的概率模型來預(yù)測基因結(jié)構(gòu),在預(yù)測剪切位點和UTR區(qū)準(zhǔn)確性較低
- 同源預(yù)測(homology-based prediction):有一些基因蛋白在相近物種間的保守型搞钮呀,所以可以使用已有的高質(zhì)量近緣物種注釋信息通過序列聯(lián)配的方式確定外顯子邊界和剪切位點
- 基于轉(zhuǎn)錄組預(yù)測(transcriptome-based prediction):通過物種的RNA-seq數(shù)據(jù)輔助注釋剑鞍,能夠較為準(zhǔn)確的確定剪切位點和外顯子區(qū)域。
在高通量測序的時代爽醋,基因組序列的獲得已經(jīng)不是難題了蚁署,但是每段序列的注釋依然需要也是值得花一些精力的。
我的基因組可以做10X單細胞轉(zhuǎn)錄組了嗎蚂四?
在對基因組有了基本的認識之后光戈,我們來回答這個問題。
Cell Ranger uses an aligner called STAR, which peforms splicing-aware alignment of reads to the genome. Cell Ranger then uses the transcript annotation GTF to bucket the reads into exonic, intronic, and intergenic, and by whether the reads align (confidently) to the genome. A read is exonic if at least 50% of it intersects an exon, intronic if it is non-exonic and intersects an intron, and intergenic otherwise.
基本的注釋信息:
Column | Name | Description |
---|---|---|
1 | Chromosome | Must refer to a chromosome/contig in the genome fasta. |
2 | Source | Unused. |
3 | Feature | cellranger count only uses rows where this line is exon . |
4 | Start | Start position on the reference (1-based inclusive). |
5 | End | End position on the reference (1-based inclusive). |
6 | Score | Unused. |
7 | Strand | Strandedness of this feature on the reference: + or -. |
8 | Frame | Unused. |
9 | Attributes | A semicolon-delimited list of key-value pairs of the form key "value". The attribute keys transcript_id and gene_id are required; gene_name is optional and may be non-unique, but if present will be preferentially displayed in reports. |
也就是注釋信息中必須要有exon遂赠,transcript_id久妆,gene_id ,這個是做10X單細胞轉(zhuǎn)錄組對一個基因組最基本的要求跷睦。能組裝到染色體水平當(dāng)然更好筷弦,組裝不到的話也可以。
有了fa以及gtf文件之后送讲,我們就可以用cellrang的mkerf流程來構(gòu)建10X專用的參考基因組了:
cellranger mkref --genome=output_genome --fasta=input.fa --genes=input.gtf
構(gòu)建好之后奸笤,是這樣的:
genome_output/
├── fasta
│ └── genome.fa
├── genes
│ └── genes.gtf
├── pickle
│ └── genes.pickle
├── reference.json
└── star # STAR genome index folder
- For the genome sequence, include all major chromosomes, unplaced and unlocalized scaffolds, but do not include patches and alternative haplotypes.
- In Ensembl, the recommended genome file to download is annotated as "primary assembly." - In NCBI, it is "no alternative - analysis set."
- For the GTF file, genes must be annotated with feature type 'exon' (column 3). - Prior to
mkref
, GTF annotation files from Ensembl and NCBI are typically filtered withmkgtf
to include only a subset of the annotated gene biotypes.
Creating a Reference Package with cellranger mkref
關(guān)于特殊物種細胞類型的注釋
著很大程度上取決于我們的基因組注釋情況惋啃,如果是斑馬魚這種模式生物,一般的研究者是很多的监右,文獻檢索是可以獲得有益的背景(marker基因或者表達譜)知識用于細胞類型鑒定的:
有了marker基因或者表達譜細胞的定義就和人鼠的沒有什么方法學(xué)上的區(qū)別了边灭。
第二種,新鮮的基因組健盒,用于定量轉(zhuǎn)錄組的基因功能還不清楚绒瘦,基因名只是自定義的編號。這個有兩個方法來做:
- 對基因做功能富集扣癣,看某群的差異基因在功能上富集到哪惰帽,根據(jù)功能結(jié)合生物學(xué)知識來做。
R包clusterProfiler的純無參自定義物種注釋的GO父虑、KEGG富集分析及GSEA
- 同源基因该酗。用同源基因來將特殊物種的基因與已知基因構(gòu)建聯(lián)系,自然界基因并不是每個物種一套特意的基因士嚎,有許多是同源的呜魄。
基本思路也是構(gòu)建從已知到未知的證據(jù)鏈。
關(guān)于人類參考基因組的一些認識
https://www.cnblogs.com/leezx/p/5710819.html
Why Use Zebrafish to Study Human Diseases?