很多朋友問是如何保持閱讀量的,其實(shí)待侵,大部分是之前的存貨丢早。有一部分是每有會(huì)意,把之前的舊書拿出來再翻一翻秧倾,做個(gè)導(dǎo)圖放上來的怨酝。今天,我想和大家分享一點(diǎn)最近對(duì)單細(xì)胞數(shù)據(jù)科學(xué)的理解那先,總結(jié)為一句話:
單細(xì)胞數(shù)據(jù)科學(xué)四大過程組兩大知識(shí)領(lǐng)域與三重境界
說到單細(xì)胞數(shù)據(jù)科學(xué)凫碌,不得不回憶起2020年的一個(gè)無名的夜晚,那一晚無意間瀏覽到一篇文章:
Eleven grand challenges in single-cell data science ,L?hnemann et al. Genome Biology (2020) 21:31
這是我第一次知道有單細(xì)胞數(shù)據(jù)科學(xué)這一概念胃榕,后來以single-cell data science(SCDS)作為關(guān)鍵字,做過幾次檢索瞄摊,也讀過幾本數(shù)據(jù)科學(xué)的書籍勋又,這個(gè)概念慢慢明晰起來。當(dāng)別人在討論單細(xì)胞數(shù)據(jù)分析换帜、生信分析楔壤、數(shù)據(jù)挖掘的時(shí)候,我開了一個(gè)單細(xì)胞數(shù)據(jù)科學(xué)專欄惯驼。在單細(xì)胞生信分析到單細(xì)胞數(shù)據(jù)科學(xué)的過渡中蹲嚣,有一篇文章不得不提:
Luecken MD, Theis FJ. Current best practices in single-cell RNA-seq analysis: a tutorial. Mol. Syst. Biol. 2019, 15: e8746.
在這篇文章中,作者提出了單細(xì)胞數(shù)據(jù)分析的最佳實(shí)踐祟牲,也奠定了目前大部分單細(xì)胞數(shù)據(jù)分析的基本框架:
不管哪家公司做的數(shù)據(jù)分析隙畜,不管是哪個(gè)平臺(tái)的單細(xì)胞數(shù)據(jù),數(shù)據(jù)分析的基本流程逃不過這個(gè)流程说贝。
現(xiàn)在看來议惰,雖然這兩年單細(xì)胞技術(shù)也在發(fā)展,數(shù)據(jù)分析工具依然層出不窮乡恕,但是2020年的時(shí)候言询,數(shù)據(jù)分析的基本框架基本形成俯萎。這兩年大家基本上是在反芻前人的理念。
這并不妨礙我們依然可以發(fā)現(xiàn)許多新的見解运杭,如任老師在一次訪談中提出:
- monocle把單細(xì)胞從分析離散的亞群推向刻畫發(fā)育的連續(xù)性夫啊。
- RNA velocity 把絕對(duì)定量擴(kuò)展到可變剪切。
- scomap把組織解離損失的空間結(jié)構(gòu)找回來
書讀百遍辆憔,其意自見撇眯。下面就來分享一下:單細(xì)胞數(shù)據(jù)科學(xué)四大過程組兩大知識(shí)領(lǐng)域與三重境界。
四大過程組
單細(xì)胞數(shù)據(jù)科學(xué)的過程主要是:
產(chǎn)生矩陣躁愿。成熟的細(xì)胞解離叛本、分離、細(xì)胞標(biāo)記彤钟、核酸捕獲来候、二代測序,為獲得高通量的單細(xì)胞表達(dá)矩陣提供了保證逸雹。也是單細(xì)胞數(shù)據(jù)科學(xué)的第一個(gè)過程組营搅,也可以喚作實(shí)驗(yàn)過程組。這個(gè)過程組中可以選擇不同通量梆砸、不同平臺(tái)转质。
探索數(shù)據(jù)。獲得單細(xì)胞矩陣之后帖世,接下來是簡要探索一下數(shù)據(jù)的基本表現(xiàn)休蟹,正所謂:降維聚類,必知必會(huì)日矫。這個(gè)過程組中赂弓,最基本的品格是:探索時(shí)貪婪。從不同側(cè)面觀察數(shù)據(jù)哪轿,選取不同特征表現(xiàn)數(shù)據(jù)盈魁,不同分組間差異基因分析。數(shù)據(jù)探索的方法流程都比較成熟窃诉,如R語言生態(tài)下的Seurat杨耙,python生態(tài)下的scanpy,不需要太多的生物學(xué)背景飘痛。
推斷分析珊膜。與數(shù)據(jù)探索不同,推斷分析需要分析者具備一定的生物學(xué)背景敦冬,這樣的推斷才是有方向的辅搬,也才是有益的。推斷過程組可以分為兩個(gè)小方向:細(xì)胞方向的細(xì)胞軌跡、基因方向的調(diào)控與通路堪遂。
多方驗(yàn)證介蛉。隨著單細(xì)胞技術(shù)的發(fā)展,單細(xì)胞數(shù)據(jù)往往需要和其他技術(shù)或組學(xué)相互結(jié)合與驗(yàn)證溶褪。此過程組的基本品格是:探索時(shí)貪婪币旧,驗(yàn)證時(shí)謹(jǐn)慎。
兩大知識(shí)領(lǐng)域
單細(xì)胞數(shù)據(jù)科學(xué)可以分為兩大知識(shí)領(lǐng)域猿妈,一個(gè)是細(xì)胞層面的細(xì)胞生物學(xué)吹菱,一個(gè)是基因表達(dá)或者表觀的高通量多組學(xué)。
- 細(xì)胞層面的細(xì)胞生物學(xué)彭则,可以說是連接的是細(xì)胞表型鳍刷,如細(xì)胞類型、細(xì)胞圖譜俯抖,細(xì)胞之間的關(guān)系输瓜。推薦的書籍有《細(xì)胞生物學(xué)》、《細(xì)胞》芬萍、《癌生物學(xué)》尤揣、《醫(yī)學(xué)免疫學(xué)》等。
- 基因表達(dá)或者表觀的高通量多組學(xué)柬祠,可以說是連接的是分子機(jī)理北戏,往往指向的是基因表達(dá)調(diào)控的特異性。推薦的書籍有《細(xì)胞分子生物學(xué)》漫蛔、《基因X》嗜愈、《分子生物學(xué)》、《高通量測序技術(shù)》等莽龟。
這兩大知識(shí)領(lǐng)域目前都是在不斷快速發(fā)展過程中芝硬,單細(xì)胞技術(shù)也在促進(jìn)我們不斷拓展這兩大知識(shí)領(lǐng)域的認(rèn)知邊界。
三重境界
說起三重境界轧房,我們都不陌生。雖然我們已經(jīng)歸納出單細(xì)胞數(shù)據(jù)科學(xué)有跡可循绍绘,但是這一點(diǎn)也不妨礙數(shù)據(jù)科學(xué)是一個(gè)需要探索奶镶、發(fā)掘、驗(yàn)證陪拘、攀登的科學(xué)這一事實(shí)厂镇。特別是單細(xì)胞技術(shù)在如此火熱的大環(huán)境下,不少朋友想吃快餐左刽,昨晚連夜釋放的數(shù)據(jù)捺信,天一亮就從網(wǎng)上復(fù)制代碼來分析自己的數(shù)據(jù)。
我們不要忘記單細(xì)胞數(shù)據(jù)科學(xué)也有三重境界:
- ‘昨夜西風(fēng)凋碧樹,獨(dú)上高樓迄靠,望盡天涯路’秒咨,此第一境也。
- ‘衣帶漸寬終不悔掌挚,為伊消得人憔悴’雨席,此第二境也。
- ‘眾里尋他千百度吠式,驀然回首陡厘,那人正在燈火闌珊處’,此第三境也特占〔谥茫”
【降維聚類,必知必會(huì)】很簡單是目,能配置分析環(huán)境和復(fù)制代碼就可以谤饭。
具備一定的生物學(xué)背景之后,【探索時(shí)貪婪胖笛,驗(yàn)證時(shí)謹(jǐn)慎】也不是難事网持。
但是真正走過四大過程組,諳熟兩大知識(shí)領(lǐng)域长踊,歷盡三重境界方才修得單細(xì)胞數(shù)據(jù)科學(xué)家之名功舀。
在節(jié)目的最后,作者本人在單細(xì)胞數(shù)據(jù)科學(xué)四大過程組兩大知識(shí)領(lǐng)域與三重境界的基礎(chǔ)上身弊,寄語單細(xì)胞數(shù)據(jù)科學(xué)新人六大箴言:
- 生信雖好辟汰,不要貪杯哦。編程語言先學(xué)一門阱佛,數(shù)據(jù)分析技術(shù)先學(xué)一種帖汞,不要并行開搞。
- 相信我凑术,你并不孤獨(dú)翩蘸。大部分你遇到的問題,別人都已經(jīng)遇到過了淮逊,并已經(jīng)解決了催首,又并寫出來發(fā)在網(wǎng)上了。
- 基礎(chǔ)不牢泄鹏,地動(dòng)山搖郎任。雖然單細(xì)胞數(shù)據(jù)下機(jī)之后,就處于不斷貶值的過程中备籽,但是如果貪快舶治,不求甚解地分析數(shù)據(jù),往往會(huì)帶來無盡的返工。
- 先練兵霉猛,再打仗尺锚。先學(xué)習(xí)如何分析數(shù)據(jù),再利用學(xué)到的數(shù)據(jù)分析知識(shí)韩脏,去分析自己的的數(shù)據(jù)缩麸。而不是,數(shù)據(jù)下機(jī)之后赡矢,復(fù)制網(wǎng)上的代碼去跑自己的數(shù)據(jù)杭朱。
- 輸出倒閉輸入。教吹散,才是最好的學(xué)習(xí)弧械。學(xué)到的要交給別人,賺到的要花出去空民。
- 讀源碼刃唐,解決實(shí)際問題。要勇于界轩,善于閱讀源碼画饥、原文檔、原理浊猾。
加油抖甘,少年,開卷有益(juan,第一聲)葫慎。