繼我前幾天的文章徹夜反思:我為什么總是學(xué)不好生信藕帜? 之后烫罩,我認(rèn)為有必要去搞清楚,為啥我真的學(xué)不會生信洽故,以及到底需要怎么樣才能學(xué)會生信嗡髓。于是乎,我認(rèn)真觀看了賣萌哥給我的推薦收津,信息如下:
平臺:B站
up主:鯪魚不會飛(孟浩巍老師)
題目:2020-02-08-生信入門的經(jīng)驗(yàn)分享
為什么學(xué)起來這么困難?
缺乏對生信整個框架的認(rèn)知
我對生信的理解就是浊伙,整理數(shù)據(jù)撞秋,然后畫圖。因此嚣鄙,一直是從數(shù)據(jù)整理下手吻贿,然后學(xué)別人的畫圖代碼。當(dāng)然也會跟著別人的項(xiàng)目pipeline走哑子,但是出了既定的框架外舅列,我就會非常的迷茫。一直以來卧蜓,我在生信上所做的努力就是:
(1)學(xué)習(xí)基本的linux操作帐要,掌握一套數(shù)據(jù)分析流程,比如RNA-seq弥奸;
(2)學(xué)習(xí)基本的測序知識榨惠,比如illumia的測序原理;
(3)重頭戲:學(xué)習(xí)R語言基礎(chǔ)盛霎,以及轉(zhuǎn)錄組數(shù)據(jù)分析流程赠橙。
我在完成上面學(xué)習(xí)之后,我發(fā)現(xiàn)一些很重要的問題:
(1)內(nèi)心沒有標(biāo)準(zhǔn)愤炸,對數(shù)據(jù)的質(zhì)量沒有把控期揪,例如:我可能知道RNA-seq的QC結(jié)果最重要的是幾個quality的項(xiàng)目,但是卻不知道為什么规个。每次我拿到QC報(bào)告凤薛,總要問一下別人,我這個adapter的檢測沒有通過诞仓,影不影響后續(xù)的數(shù)據(jù)分析枉侧?一般得到的回復(fù)就是,咱們主要看看Q30等等狂芋,其他不是很重要榨馁。這背后真正的原因,其實(shí)是不清晰的帜矾,這就讓我感覺很模糊翼虫,沒有掌控感屑柔;
(2)我可能知道TPM比RPKM和FPKM好像現(xiàn)在用得更多,大約知道一些原因珍剑,但是我并不知道RPKM是FPKM的2倍掸宛,以及它的原因;
(3)我可能會重復(fù)R語言的代碼招拙,但是我還是不知道為什么要做某些數(shù)據(jù)轉(zhuǎn)換唧瘾,做與不做到底有啥區(qū)別?做到怎么樣才是對自己的數(shù)據(jù)負(fù)責(zé)别凤,得到合理的結(jié)果饰序。
出現(xiàn)以上原因是因?yàn)椋?strong>對測序原理沒有掌握好规哪,對每一個步驟的測序數(shù)據(jù)的由來和作用并不清晰求豫;其次是對于不同工具的理解仍然不夠,統(tǒng)計(jì)學(xué)知識也嚴(yán)重不足诉稍。
學(xué)生信應(yīng)該掌握什么蝠嘉?
首先需要認(rèn)識到,生物信息學(xué)是要用計(jì)算機(jī)技術(shù)去解決大數(shù)據(jù)杯巨,并且結(jié)合生物學(xué)背景來篩選出有意義的數(shù)據(jù)蚤告。因此,生信要結(jié)合計(jì)算機(jī)+生物背景知識服爷,同時還需要有統(tǒng)計(jì)學(xué)知識罩缴,在這里孟老師講解得非常清晰:
(1)linux操作能力:在這里他僅僅提到了操作系統(tǒng)的能力,而我認(rèn)為至少還要理解每一步驟的數(shù)據(jù)結(jié)構(gòu)和意義层扶,以及不同的數(shù)據(jù)能提供給我們的信息箫章。你需要非常努力,才能看起來毫不費(fèi)力镜会。在這里他推薦了羅老師的30個linux基本操作命令(帶有相應(yīng)的習(xí)題)檬寂。
(2)編程能力:這是我一直都未曾掌握的東西,對于半自助應(yīng)用的我來說戳表,一開始給我的定位就是不需要掌握編程能力桶至,只要學(xué)好linux還有R語言即可∝倚瘢可是會編程的人用linux和不會編程的人是完全不同的感覺镣屹,在這一點(diǎn)上雖然我不是很著急,但是必須要有所學(xué)習(xí)价涝。這里提到的是Python鲤遥,C蹬竖,C++样勃,Java等東西。
(3)統(tǒng)計(jì)能力:這是我也一直忽略的逸寓,我認(rèn)為R語言本身就有一套流程,我是用工具的人覆山,我不需要去理解工具是怎么制作的竹伸,然而事實(shí)上是,我還得明白工作是怎么運(yùn)作的簇宽,以及工具是要如何選擇勋篓。因此在后續(xù)方面要保持對基本統(tǒng)計(jì)學(xué)知識的掌握。
(4)生物能力:這里我就不談了魏割,作為一個生物學(xué)基本研究人員譬嚣,這是必備的素養(yǎng)。
孟老師推薦的半自助學(xué)習(xí)生信流程
半自助的意思是见妒,只是分析數(shù)據(jù)--而后畫圖。全自助是還要在算法等等方法做一系列的努力甸陌。
(1)linux學(xué)習(xí):羅老師3個文件须揣,1-2天;
(2)統(tǒng)計(jì)學(xué)學(xué)習(xí):《醫(yī)學(xué)統(tǒng)計(jì)學(xué)》漫長3個月钱豁,當(dāng)然他在視頻中還有其他的推薦以及對統(tǒng)計(jì)學(xué)必備知識框架耻卡;
(3)測序基礎(chǔ):illumia的視頻(我看過不少),但僅僅是視頻是不夠的牲尺,這其中還有很多細(xì)節(jié)需要去夯實(shí)卵酪,大約1周時間;
(4)選擇1篇文章谤碳,重復(fù)結(jié)果溃卡。
這里提出:上游幾乎一樣,下游則是對BAM文件的處理蜒简,并且他在知乎上有很多對于細(xì)節(jié)問題的解答瘸羡,所以我打算過去看一波