CellDancer

細(xì)胞不會(huì)跳舞我不知道，但似乎nature biotech的文章代碼會(huì)有毒异吻。。。

CellDancer是最新發(fā)表在nature biotechnology上的一個(gè)類似scVelo的計(jì)算RNA Velocity的程序题涨，原文詳見：
https://www.nature.com/articles/s41587-023-01728-5

文本中說本文的創(chuàng)新之處在于可以克服scVelo不能分析的一些數(shù)據(jù)，如含有多個(gè)cell lineage時(shí)总滩，或者有基因表達(dá)不符合前提假設(shè)纲堵，有boost時(shí)，Velocity分析會(huì)出錯(cuò)闰渔。Celldancer 號(hào)稱可以解決這個(gè)問題席函。恰好有自己的數(shù)據(jù)一組，scVelo 分析會(huì)出現(xiàn)明顯的反向冈涧，決定嘗試一下茂附，看看虛實(shí)。

首先就發(fā)現(xiàn)這個(gè)包不能直接用于我的數(shù)據(jù)炕舵，celldancer需要數(shù)據(jù)以csv的形式讀入何之，雖然也提供了一個(gè)從anndata里提取splicing數(shù)據(jù)的功能：adata_to_df_with_embed，實(shí)測(cè)這個(gè)功能暫時(shí)（截止至：04-04-2023）有點(diǎn)雞肋咽筋，暫時(shí)不能滿足實(shí)際需要溶推。

一開始以為是小毛病，看完后發(fā)現(xiàn)必須得改奸攻，因?yàn)榱钊艘庀氩坏降氖撬馕＃瓉淼牟糠执a是這樣寫的：

    for i,gene in enumerate(gene_list):
        data_onegene = adata_to_raw_one_gene(adata, us_para=us_para, gene=gene)
        if i==0:
            data_onegene.to_csv(save_path,header=True,index=False)
        else:
            data_onegene.to_csv(save_path,mode='a',header=False,index=False)

竟然要求每循環(huán)一個(gè)基因，就寫盤一次睹耐，如果你幾萬個(gè)基因辐赞，就要寫盤幾萬次？硝训？响委？這不是TMD神經(jīng)病嗎。多跑幾次程序你的電腦就廢了窖梁。

到這里隱約感覺這可能又是一個(gè)坑赘风，代碼寫得這么爛，不太相信效果會(huì)好纵刘。邀窃。。假哎。這年頭發(fā)文章不吹牛都會(huì)死瞬捕。鞍历。。

另外非常不喜歡那個(gè)一行一行的打印處理進(jìn)度肪虎，打印了幾萬行劣砍，除了刷屏有毛用？用tqdm改了個(gè)進(jìn)度條扇救。

改動(dòng)后如下：

def adata_to_df_with_embed(adata,
                            us_para=['Mu', 'Ms'],
                            cell_type_para='celltype',
                            embed_para='X_umap',
                            save_path='cell_type_u_s_sample_df.csv',
                            gene_list=None):
    
    def adata_to_raw_one_gene(data, us_para, gene):
        data2 = data[:,data.var.index.isin([gene])].copy()
        n=len(data2)
        u0 = data2.layers[us_para[0]][:,0].copy().astype(np.float32)
        u0 = scipy.sparse.csr_matrix.todense(u0).tolist()
        s0 = data2.layers[us_para[1]][:,0].copy().astype(np.float32)
        s0 = scipy.sparse.csr_matrix.todense(s0).tolist()
        raw_data = pd.DataFrame({'gene_name':[gene]*n, 'unsplice':u0, 'splice':s0})
        raw_data.splice = [i[0] for i in raw_data.splice]
        raw_data.unsplice = [i[0] for i in raw_data.unsplice]
        return(raw_data)

    if gene_list is None: gene_list=adata.var.index
    
    
    dfs = []
    for gene in tqdm(gene_list):
        global combined
        data_onegene = adata_to_raw_one_gene(adata, us_para=us_para, gene=gene)
        data_onegene.sort_index(inplace=True) 
        dfs.append(data_onegene)

    combined = pd.concat(dfs).reset_index(drop=True)

    # cell info
    gene_num=len(gene_list)
    cellID=pd.DataFrame({'cellID':adata.obs.index})
    celltype_meta=adata.obs[cell_type_para].reset_index(drop=True)
    celltype=pd.DataFrame({'clusters':celltype_meta})#
    embed_map=pd.DataFrame({'embedding1':adata.obsm[embed_para][:,0],'embedding2':adata.obsm[embed_para][:,1]})
    # embed_info_df = pd.concat([embed_info]*gene_num)
    embed_info=pd.concat([cellID,celltype,embed_map],axis=1)
    embed_raw=pd.concat([embed_info]*gene_num)
    embed_raw=embed_raw.reset_index(drop=True)
    
    raw_data=pd.concat([combined,embed_raw],axis=1)
        
    return(raw_data)

下面開始搞
首先秆剪，導(dǎo)入所需要的庫，也不知道真的需不需要這么多

import pandas as pd
import celldancer.utilities as cdutil
import scanpy as sc
import os
import sys
import glob
import math
import matplotlib.pyplot as plt
import celldancer as cd
import celldancer.cdplt as cdplt
from celldancer.cdplt import colormap

讀入數(shù)據(jù)

adata = sc.read_h5ad('/home/Documents/integrated_20L_with_splicing.h5ad')

用魔改后的adata_to_df_with_embed將我的保存于anndata的剪切數(shù)據(jù)提取出來爵政，此處不輸出csv 文件仅讽，直接從內(nèi)存調(diào)用，你也可選擇將其保存成csv钾挟，而不是原來的強(qiáng)制保存洁灵。

cell_type_u_s =cdutil.adata_to_df_with_embed(adata,\
                              us_para=['unspliced','spliced'],\
                              cell_type_para='seurat_clusters',\
                              embed_para='X_umap') #

該過程比較慢，取決于基因數(shù)目掺出，你也可以加入一個(gè)感興趣基因的列表徽千，單獨(dú)處理這些基因而非全部基因.

gene_list=['Rora','Fgfr3','Wee1','Cux1','Slc6a6','Hlf','Myof','Dmkn','Sema3d']

loss_df, cellDancer_df=cd.velocity(cell_type_u_s,\
                                   gene_list=gene_list,\
                                   permutation_ratio=0.125,\
                                   n_jobs=2)

cellDancer_df

這一步貌似也有點(diǎn)問題，容易出錯(cuò)汤锨，似乎減少基因數(shù)目和線程數(shù) 有幫助双抽。問題似乎有點(diǎn)復(fù)雜，暫且跳過闲礼。

import seaborn as sns
colevels=adata.obs.seurat_clusters.unique()
cellcolor=dict(zip(colevels,sns.color_palette("husl", len(colevels)).as_hex()))


# compute cell velocity
cellDancer_df=cd.compute_cell_velocity(cellDancer_df=cellDancer_df, projection_neighbor_choice='gene', expression_scale='power10', projection_neighbor_size=10, speed_up=(100,100))

# plot cell velocity
fig, ax = plt.subplots(figsize=(10,10))
cdplt.scatter_cell(ax,
                   cellDancer_df,
                   colors=cellcolor,
                   alpha=0.5,
                   s=10,
                   velocity=True,
                   legend='on',
                   min_mass=15,
                   arrow_grid=(20,20),
                   custom_xlim=[-6,13],
                   custom_ylim=[2,16], )
ax.axis('off')
plt.show()

import random
# set parameters
dt = 0.05
t_total = {dt:int(10/dt)}
n_repeats = 10

# estimate pseudotime
cellDancer_df = cd.pseudo_time(cellDancer_df=cellDancer_df,
                               grid=(30,30),
                               dt=dt,
                               t_total=t_total[dt],
                               n_repeats=n_repeats,
                               speed_up=(100,100),
                               n_paths = 3,
                               plot_long_trajs=True,
                               psrng_seeds_diffusion=[i for i in range(n_repeats)],
                               n_jobs=2)

# plot pseudotime
fig, ax = plt.subplots(figsize=(6,6))
im=cdplt.scatter_cell(ax,cellDancer_df, colors='pseudotime', alpha=0.5, velocity=False, custom_xlim=(-5,11), custom_ylim=(4,18))
ax.axis('off')
plt.show()

結(jié)果似乎不咋地牍汹，估計(jì)如果挑幾個(gè)重要的基因，可能會(huì)有所改善柬泽。有待進(jìn)一步研究慎菲。

Figure_4.png

最后編輯于：2023.04.20 02:20:25

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市锨并，隨后出現(xiàn)的幾起案子露该，更是在濱河造成了極大的恐慌，老刑警劉巖第煮，帶你破解...
沈念sama閱讀 206,839評(píng)論 6贊 482
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件解幼，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡包警，警方通過查閱死者的電腦和手機(jī)撵摆，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,543評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來揽趾，“玉大人台汇，你說我怎么就攤上這事苛骨±橄梗” “怎么了苟呐？”我有些...
開封第一講書人閱讀 153,116評(píng)論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長俐筋。經(jīng)常有香客問我牵素，道長，這世上最難降的妖魔是什么澄者？我笑而不...
開封第一講書人閱讀 55,371評(píng)論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任笆呆，我火速辦了婚禮，結(jié)果婚禮上粱挡，老公的妹妹穿的比我還像新娘赠幕。我一直安慰自己，他們只是感情好询筏，可當(dāng)我...
茶點(diǎn)故事閱讀 64,384評(píng)論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布榕堰。她就那樣靜靜地躺著，像睡著了一般嫌套。火紅的嫁衣襯著肌膚如雪逆屡。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,111評(píng)論 1贊 285
城市分裂傳說
那天踱讨，我揣著相機(jī)與錄音魏蔗，去河邊找鬼。笑死痹筛，一個(gè)胖子當(dāng)著我的面吹牛莺治，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播帚稠，決...
沈念sama閱讀 38,416評(píng)論 3贊 400
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼产雹，長吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了翁锡？” 一聲冷哼從身側(cè)響起蔓挖，我...
開封第一講書人閱讀 37,053評(píng)論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎馆衔，沒想到半個(gè)月后瘟判，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,558評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡角溃，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,007評(píng)論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年拷获，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片减细。...
茶點(diǎn)故事閱讀 38,117評(píng)論 1贊 334
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡匆瓜，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情驮吱，我是刑警寧澤茧妒，帶...
沈念sama閱讀 33,756評(píng)論 4贊 324
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站左冬，受9級(jí)特大地震影響桐筏，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜拇砰，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,324評(píng)論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一梅忌、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧除破，春花似錦牧氮、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,315評(píng)論 0贊 19
一樁弒父案蹋笼，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至躁垛，卻和暖如春剖毯，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背教馆。一陣腳步聲響...
開封第一講書人閱讀 31,539評(píng)論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工逊谋，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人土铺。一個(gè)月前我還...
沈念sama閱讀 45,578評(píng)論 2贊 355
代替公主和親
正文我出身青樓胶滋，卻偏偏與公主長得像，于是被迫代替她去往敵國和親悲敷。傳聞我的和親對(duì)象是個(gè)殘疾皇子究恤，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,877評(píng)論 2贊 345

CellDancer

竟然要求每循環(huán)一個(gè)基因，就寫盤一次睹耐，如果你幾萬個(gè)基因辐赞，就要寫盤幾萬次？硝训？响委？這不是TMD神經(jīng)病嗎。多跑幾次程序你的電腦就廢了窖梁。

推薦閱讀更多精彩內(nèi)容