作者捎琐,Evil Genius
22號馬上上課了哨毁,該準備的基本都準備完畢砸彬,靜待上課就可以了造垛。當然期間還會根據(jù)情況進行更新
單細胞測序數(shù)據(jù)生成的bam文件葡秒,經(jīng)過cellsnp-lite分析時候拿到如下的文件:
關于這個cellsnp-lite姻乓,我發(fā)現(xiàn)很多人的用法都是錯誤的,這個會在課上詳細說一下該怎么用眯牧。
首先是call snp 的文件
大家注意這個文件蹋岩,還是根據(jù)基因組的位點找到的突變信息,并沒有注釋到具體的基因学少,以及是否引起氨基酸的變化剪个,所以我們需要注釋一下,拿到如下的結(jié)果
這個時候就拿到突變的氨基酸變化信息版确,至于變化時候有害扣囊,需要額外的注釋,或者數(shù)據(jù)庫查找绒疗,這個之前分享過侵歇,下圖是示例:
大家可以查閱,比如clinvar忌堂、oncokb盒至、my cancer genome等數(shù)據(jù)庫。
接下來就是要拿到單細胞的突變矩陣士修,如下圖:
拿到完整的信息之后枷遂,就可以跟文章一樣納入單細胞的基礎分析之中了。
好了棋嘲,拿到cellsnp-lite的分析結(jié)果酒唉,我們首先來注釋位點的氨基酸變化,軟件是ANNOVAR,做過外顯子的應該都很熟悉的
table_annovar=table_annovar.pl腳本路徑
humandb=humandb數(shù)據(jù)庫路徑
perl $table_annovar \
--buildver hg38 \
--otherinfo \
--nastring . cellSNP.base.vcf $humandb \
-protocol refGene \
-operation g \
--vcfinput --remove > test.log 2>&1
即可得到單細胞突變的注釋文件
接下來是矩陣的整理
import scipy.io as sio
matrix_data = sio.mmread('cellSNP.tag.AD.mtx')
matrix_data = pd.DataFrame(matrix_data.todense())
###barocde
barcode = pd.read_csv('cellSNP.samples.tsv',sep = '\t',header=None)
matrix_data.columns = barcode.iloc[:,0]
處理注釋文件