特殊物種cellranger基因組質(zhì)量評估

---我們實驗室是研究雪蓮的幸斥,可以做10X單細胞轉(zhuǎn)錄組嗎勋篓?
···可以

--- 我們實驗室前幾年做了雪蓮的基因組,沒有發(fā)表此熬,師兄做的庭呜,不知道質(zhì)量怎么樣,可以做10X單細胞轉(zhuǎn)錄組嗎犀忱?
···可以

---我們實驗室做的雪蓮三代轉(zhuǎn)錄組募谎,有一個基因組,基于這個可以做10X單細胞轉(zhuǎn)錄組嗎阴汇?
···可以

所以說数冬,基因組是生命科學(xué)實驗室基礎(chǔ)建設(shè)的一部分,在不遠的將來搀庶,單細胞也會是。

要回答上述問題,首先要明白的一點就是:基因組是什么搬泥?

基因組主要有兩個文件:

  • fa序列文件
>15 dna:chromosome chromosome:GRCh38:15:1:101991189:1 REF
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
  • gtf注釋文件
!genome-build GRCh38.p12
#!genome-version GRCh38
#!genome-date 2013-12
#!genome-build-accession NCBI:GCA_000001405.27
#!genebuild-last-updated 2018-01
1       havana  gene    29554   31109   .       +       .       gene_id "ENSG00000243485"; gene_version "5"; gene_name "MIR1302-2HG"; gene_source "havana"; gene_biotype "lincRNA"
1       havana  transcript      29554   31097   .       +       .       gene_id "ENSG00000243485"; gene_version "5"; transcript_id "ENST00000473358"; transcript_version "1"; gene_name "MIR1302-2HG"; gene_source "havana"; gene_biotype "lincRNA"; transcript_name "MIR1302-
1       havana  exon    29554   30039   .       +       .       gene_id "ENSG00000243485"; gene_version "5"; transcript_id "ENST00000473358"; transcript_version "1"; exon_number "1"; gene_name "MIR1302-2HG"; gene_source "havana"; gene_biotype "lincRNA"; transcript_name 
1       havana  exon    30564   30667   .       +       .       gene_id "ENSG00000243485"; gene_version "5"; transcript_id "ENST00000473358"; transcript_version "1"; exon_number "2"; gene_name "MIR1302-2HG"; gene_source "havana"; gene_biotype "lincRNA"; transcript_name 
1       havana  exon    30976   31097   .       +       .       gene_id "ENSG00000243485"; gene_version "5"; transcript_id "ENST00000473358"; transcript_version "1"; exon_number "3"; gene_name "MIR1302-2HG"; gene_source "havana"; gene_biotype "lincRNA"; transcript_name 
1       havana  transcript      30267   31109   .       +       .       gene_id "ENSG00000243485"; gene_version "5"; transcript_id "ENST00000469289"; transcript_ve
組裝

序列文件就是基因組的序列以fa格式存儲小腊,這里我們看到在GRCh38版本中染色體兩端加了很多N。
從序列文件我們可以得到什么咆蒿?

  • 組裝水平:染色體东抹,contig,還是scaffold水平蜡秽?
  • 組裝質(zhì)量評估:

動植物基因組de novo工作府阀,其組裝指標(biāo)的好壞直接影響著整個基因組的質(zhì)量。而評估基因組組裝結(jié)果芽突,contigN50和scaffoldN50是第一指標(biāo)试浙,即contig/ scaffoldN50:將contig/scaffold長度從長到短進行排序并累加,當(dāng)累加和達到contig/scaffold總長度的50%的時候寞蚌,最后參與加和的那一條contig/scaffold長度即為contig/ scaffoldN50的長度田巴。一般來說钠糊,contig/scaffoldN50越長,表示組裝結(jié)果越好壹哺。

但是抄伍,N50指標(biāo)高就意味著組裝結(jié)果就一定可靠嗎?

不一定管宵!將一些不相關(guān)的reads或者contig錯誤的連接為scaffold截珍,一樣可以達到很高的scaffoldN50。

目前高水平文章發(fā)表箩朴,組裝指標(biāo)固然是一方面岗喉,但真正決定文章發(fā)表檔次的,是生物學(xué)故事是否足夠完美炸庞,有亮點钱床。我們知道,后續(xù)分析依賴的基礎(chǔ)便是組裝得到的基因組埠居,因此查牌,不可靠的組裝結(jié)果,對基因組后續(xù)分析會造成很大的困擾滥壕,甚至?xí)贸鲥e誤的生物學(xué)結(jié)論纸颜。

那么,如何才能檢驗一個基因組組裝結(jié)果的可靠性呢捏浊?

1懂衩、 序列一致性評估:

基因組是通過reads組裝得到,這一步金踪,是將reads比到基因組上浊洞,驗證reads對基因組的覆蓋情況,用于評估組裝的完整性以及測序的均勻性胡岔。較高的mapping rate(90%以上)以及coverage(95%以上)認為組裝結(jié)果和reads有比較好的一致性法希。

2、 序列完整性評估:

所謂完整性評估靶瘸,即評估組裝得到的基因組對基因區(qū)的覆蓋程度苫亦,一般需要借助RNA方面的證據(jù)進行評估,如EST數(shù)據(jù)或RNA reads怨咪。由于用來評估的RNA方面證據(jù)不同屋剑,得到的比例也會有差別。一般來說诗眨,50%的scaffold覆蓋基因的95%以上唉匾,85%的scaffold覆蓋基因的90%以上,認為組裝較完整。

3巍膘、 準(zhǔn)確性評估:

通過全長BAC序列厂财,可以通過與組裝結(jié)果的比對,對組裝結(jié)果的正確性進行驗證峡懈,從BAC序列和scaffold是否具有較好的一致性來判斷組裝質(zhì)量璃饱。

4、 保守性基因評估:

即根據(jù)廣泛存在于大量真核生物中的保守蛋白家族集合(248個core gene庫)肪康,對組裝得到基因組進行評估荚恶,評估組裝基因組中的core gene的準(zhǔn)確性和完整性×字В可以通過該物種和同源物種cegma的比例裆甩,判斷保守基因組裝情況。

有沒有現(xiàn)成的方法來評估呢齐唆?

有的,LAI: 評估基因組質(zhì)量一個標(biāo)準(zhǔn)

得到的LAI值按照如下評估標(biāo)準(zhǔn)進行分類:

Category LAI Examples
Draft 0 ≤ LAI < 10 Apple (v1.0), Cacao (v1.0)
Reference 10 ≤ LAI < 20 Arabidopsis (TAIR10), Grape (12X)
Gold 20 ≤ LAI Rice (MSUv7), Maize (B73 v4)
注釋

注釋就是以位置信息來注明基因組的序列每一段都是什么功能(一種描述)冻河。


那么箍邮,如何對基因組序列進行注釋呢?基因組組裝完成后叨叙,或者是完成了草圖锭弊,就不可避免遇到一個問題,需要對基因組序列進行注釋擂错。注釋之前首先得構(gòu)建基因模型味滞,有三種策略:

  • 從頭注釋(de novo prediction):通過已有的概率模型來預(yù)測基因結(jié)構(gòu),在預(yù)測剪切位點和UTR區(qū)準(zhǔn)確性較低
  • 同源預(yù)測(homology-based prediction):有一些基因蛋白在相近物種間的保守型搞钮呀,所以可以使用已有的高質(zhì)量近緣物種注釋信息通過序列聯(lián)配的方式確定外顯子邊界和剪切位點
  • 基于轉(zhuǎn)錄組預(yù)測(transcriptome-based prediction):通過物種的RNA-seq數(shù)據(jù)輔助注釋剑鞍,能夠較為準(zhǔn)確的確定剪切位點和外顯子區(qū)域。

在高通量測序的時代爽醋,基因組序列的獲得已經(jīng)不是難題了蚁署,但是每段序列的注釋依然需要也是值得花一些精力的。

我的基因組可以做10X單細胞轉(zhuǎn)錄組了嗎蚂四?

在對基因組有了基本的認識之后光戈,我們來回答這個問題。

Cell Ranger uses an aligner called STAR, which peforms splicing-aware alignment of reads to the genome. Cell Ranger then uses the transcript annotation GTF to bucket the reads into exonic, intronic, and intergenic, and by whether the reads align (confidently) to the genome. A read is exonic if at least 50% of it intersects an exon, intronic if it is non-exonic and intersects an intron, and intergenic otherwise.

基本的注釋信息:

Column Name Description
1 Chromosome Must refer to a chromosome/contig in the genome fasta.
2 Source Unused.
3 Feature cellranger count only uses rows where this line is exon.
4 Start Start position on the reference (1-based inclusive).
5 End End position on the reference (1-based inclusive).
6 Score Unused.
7 Strand Strandedness of this feature on the reference: + or -.
8 Frame Unused.
9 Attributes A semicolon-delimited list of key-value pairs of the form key "value". The attribute keys transcript_id and gene_idare required; gene_name is optional and may be non-unique, but if present will be preferentially displayed in reports.

也就是注釋信息中必須要有exon遂赠,transcript_id久妆,gene_id ,這個是做10X單細胞轉(zhuǎn)錄組對一個基因組最基本的要求跷睦。能組裝到染色體水平當(dāng)然更好筷弦,組裝不到的話也可以。

有了fa以及gtf文件之后送讲,我們就可以用cellrang的mkerf流程來構(gòu)建10X專用的參考基因組了:

cellranger mkref --genome=output_genome --fasta=input.fa --genes=input.gtf

構(gòu)建好之后奸笤,是這樣的:

genome_output/
├── fasta
│   └── genome.fa
├── genes
│   └── genes.gtf
├── pickle
│   └── genes.pickle
├── reference.json
└── star # STAR genome index folder
  • For the genome sequence, include all major chromosomes, unplaced and unlocalized scaffolds, but do not include patches and alternative haplotypes.
    • In Ensembl, the recommended genome file to download is annotated as "primary assembly." - In NCBI, it is "no alternative - analysis set."
  • For the GTF file, genes must be annotated with feature type 'exon' (column 3). - Prior to mkref, GTF annotation files from Ensembl and NCBI are typically filtered with mkgtf to include only a subset of the annotated gene biotypes.

Creating a Reference Package with cellranger mkref

關(guān)于特殊物種細胞類型的注釋

著很大程度上取決于我們的基因組注釋情況惋啃,如果是斑馬魚這種模式生物,一般的研究者是很多的监右,文獻檢索是可以獲得有益的背景(marker基因或者表達譜)知識用于細胞類型鑒定的:

A Single-Cell Transcriptome Atlas for Zebrafish Development
A toolbox to study epidermal cell types in zebrafish

有了marker基因或者表達譜細胞的定義就和人鼠的沒有什么方法學(xué)上的區(qū)別了边灭。

第二種,新鮮的基因組健盒,用于定量轉(zhuǎn)錄組的基因功能還不清楚绒瘦,基因名只是自定義的編號。這個有兩個方法來做:

  • 對基因做功能富集扣癣,看某群的差異基因在功能上富集到哪惰帽,根據(jù)功能結(jié)合生物學(xué)知識來做。

R包clusterProfiler的純無參自定義物種注釋的GO父虑、KEGG富集分析及GSEA

  • 同源基因该酗。用同源基因來將特殊物種的基因與已知基因構(gòu)建聯(lián)系,自然界基因并不是每個物種一套特意的基因士嚎,有許多是同源的呜魄。

基本思路也是構(gòu)建從已知到未知的證據(jù)鏈。


關(guān)于人類參考基因組的一些認識
https://www.cnblogs.com/leezx/p/5710819.html
Why Use Zebrafish to Study Human Diseases?

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末莱衩,一起剝皮案震驚了整個濱河市爵嗅,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌笨蚁,老刑警劉巖睹晒,帶你破解...
    沈念sama閱讀 206,723評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異括细,居然都是意外死亡伪很,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評論 2 382
  • 文/潘曉璐 我一進店門奋单,熙熙樓的掌柜王于貴愁眉苦臉地迎上來是掰,“玉大人,你說我怎么就攤上這事辱匿〖矗” “怎么了?”我有些...
    開封第一講書人閱讀 152,998評論 0 344
  • 文/不壞的土叔 我叫張陵匾七,是天一觀的道長絮短。 經(jīng)常有香客問我,道長昨忆,這世上最難降的妖魔是什么丁频? 我笑而不...
    開封第一講書人閱讀 55,323評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上席里,老公的妹妹穿的比我還像新娘叔磷。我一直安慰自己,他們只是感情好奖磁,可當(dāng)我...
    茶點故事閱讀 64,355評論 5 374
  • 文/花漫 我一把揭開白布改基。 她就那樣靜靜地躺著,像睡著了一般咖为。 火紅的嫁衣襯著肌膚如雪秕狰。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,079評論 1 285
  • 那天躁染,我揣著相機與錄音鸣哀,去河邊找鬼。 笑死吞彤,一個胖子當(dāng)著我的面吹牛我衬,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播饰恕,決...
    沈念sama閱讀 38,389評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼低飒,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了懂盐?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,019評論 0 259
  • 序言:老撾萬榮一對情侶失蹤糕档,失蹤者是張志新(化名)和其女友劉穎莉恼,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體速那,經(jīng)...
    沈念sama閱讀 43,519評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡俐银,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,971評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了端仰。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片捶惜。...
    茶點故事閱讀 38,100評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖荔烧,靈堂內(nèi)的尸體忽然破棺而出吱七,到底是詐尸還是另有隱情,我是刑警寧澤鹤竭,帶...
    沈念sama閱讀 33,738評論 4 324
  • 正文 年R本政府宣布踊餐,位于F島的核電站,受9級特大地震影響臀稚,放射性物質(zhì)發(fā)生泄漏吝岭。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,293評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望窜管。 院中可真熱鬧散劫,春花似錦、人聲如沸幕帆。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,289評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蜓肆。三九已至颜凯,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間仗扬,已是汗流浹背症概。 一陣腳步聲響...
    開封第一講書人閱讀 31,517評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留早芭,地道東北人彼城。 一個月前我還...
    沈念sama閱讀 45,547評論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像退个,于是被迫代替她去往敵國和親募壕。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,834評論 2 345

推薦閱讀更多精彩內(nèi)容