讀李霞老師《生物信息學(xué)》教材

第一次知道李霞老師是在2019年“數(shù)學(xué)吐句、計算機(jī)與生命科學(xué)交叉科學(xué)青年學(xué)者論壇”上，詳見：2019||數(shù)學(xué)黎做、計算機(jī)與生命科學(xué)交叉科學(xué)青年學(xué)者論壇随夸。在論壇上她的演講是《數(shù)學(xué)在生物醫(yī)學(xué)中的作用》，生動有趣潭枣，主要是能夠恰如其分地overlap到數(shù)學(xué)和生物醫(yī)學(xué)的點比默。后來就開始在網(wǎng)上搜關(guān)于她的資料：

了解到李老師是數(shù)學(xué)出身轉(zhuǎn)到生物信息，也是國內(nèi)早期從事和教授生物信息的老師之一盆犁。雖然到其門下讀書幾乎不可能了命咐，但是總是在關(guān)注著生物信息第一梯隊的老師的動態(tài)。前幾天谐岁，在國內(nèi)某知名生信大廠的二手群里醋奠，看到有前同事在出手一本生物信息教材——2010年出版的《生物信息學(xué)》。要知道那時候翰铡，該大廠也是本書出版后一年（2011）才成立的钝域。10年來讽坏，該廠為我國培養(yǎng)了成百上千的高通量測序（生信锭魔，產(chǎn)品，運營路呜，銷售）人才迷捧。看到這個時間胀葱，看到李老師的教材漠秋，我覺得自己責(zé)無旁貸要收下本書了，在之前屯過：

剛好抵屿，也借此機(jī)會庆锦，一窺十年前生物信息的狀態(tài)。在此轧葛，我們不禁要問搂抒，那時候?qū)W習(xí)生物信息的同學(xué)，現(xiàn)在都在哪呢尿扯？

如今(指2012年)求晶，李霞教授已是名符其實的桃李滿天下。從2001年招收第一屆研究生衷笋，到今天李霞教授已經(jīng)招收了11屆學(xué)生芳杏，培養(yǎng)碩士生54人、博士生35人,已畢業(yè)的45名學(xué)生絕大多數(shù)分配到中國科學(xué)院、清華大學(xué)爵赵、香港科技大學(xué)吝秕、同濟(jì)大學(xué)等科研院所或重點高校工作。李霞教授一直堅持碩士研究生發(fā)表SCI收錄影響因子2.0空幻、博士研究生發(fā)表SCI收錄影響因子5.0（或累計）的論文才能畢業(yè)郭膛，就是在這近乎苛刻的培養(yǎng)要求下，哈醫(yī)大生物信息學(xué)院培養(yǎng)的學(xué)生個個功夫過硬氛悬，實力不凡则剃。

目前國內(nèi)越來越多的高校開始開設(shè)《生物信息》這門課了，坊間也有很多培訓(xùn)機(jī)構(gòu)在做培訓(xùn)如捅，據(jù)某大廠統(tǒng)計棍现，2019年較2018年變化-30%。2020年新冠影響镜遣，又多了許多序列數(shù)據(jù)需要生物信息人員來分析己肮。十年前，生物信息還只是一個科研院所的研究項目悲关，十年后谎僻，生物信息已經(jīng)是一個常見的工種：

所以能在一門學(xué)科的早期就開始教育和普及工作是很需要魄力的。

好了寓辱，讓我們回到課本上來艘绍。

緒論
    生物信息學(xué)的興起
    生物信息學(xué)在生命科學(xué)中的地位

這部分作者講述了人類基因組計劃的劃時代作用：改變生物科學(xué)的研究范式。同時：

全書的重點也落腳在生物信息在人類復(fù)雜疾病中的應(yīng)用上秫筏。這又回到我們之前的追問：NGS數(shù)據(jù)那么多诱鞠，什么時候才能改善人類健康？2020的新冠这敬，讓我們看到了希望航夺，NGS技術(shù)在早期的病毒序列解讀，后期的防控篩查都起到了舉足輕重的作用崔涂。

緒論是用來召喚夢想的阳掐。

生物信息學(xué)基礎(chǔ)
    DNA、RNA和蛋白質(zhì)序列信息資源
        核酸序列
        蛋白質(zhì)序列數(shù)據(jù)庫
        NCBI與EMBL-EBI
    雙序列比對
        替換計分矩陣
        雙序列比對算法
        數(shù)據(jù)庫搜索
        比對的統(tǒng)計學(xué)顯著性
        參數(shù)的選擇
    多序列比對
        相似性與距離冷蚂、計分與罰分缭保、替換矩陣
        主要比對方法與軟件
        局部比對、glocal比對帝雇、synthenic比對
        全基因組比對
        軟件涮俄，參數(shù)，比對質(zhì)量
    序列特征分析
        DNA序列特征分析
        蛋白質(zhì)序列特征分析
        序列綜合分析
    分子進(jìn)化分析
        系統(tǒng)發(fā)生分析與重建
        核酸和蛋白質(zhì)的適應(yīng)進(jìn)化
        分子進(jìn)化與生物信息
    表達(dá)序列分析
        EST數(shù)據(jù)分析
        基因表達(dá)系列分析
    基因芯片數(shù)據(jù)分析
        常見的芯片平臺與數(shù)據(jù)庫
        基因芯片數(shù)據(jù)的處理
        差異表達(dá)分析
        基因芯片數(shù)據(jù)的聚類分析
        基因芯片數(shù)據(jù)的分類分析
        基因芯片數(shù)據(jù)其他分析
        常用表達(dá)譜分析軟件

第二部分的生物信息基礎(chǔ)尸闸，主要介紹了序列比對和表達(dá)數(shù)據(jù)分析模式彻亲。其實這個是永遠(yuǎn)不會過時的知識點孕锄，在
讀后|| Encyclopedia of Bioinformatics and Computational Biology ABC of Bioinformatics
NGS通識第零講||NGS通識
文章中，我們都提到過苞尝，生物信息處理的數(shù)據(jù)類型就那么幾種：序列畸肆，矩陣，圖像宙址，文本轴脐，空間。所以序列的基本處理這個還是要懂的抡砂，如何評價兩個序列的相似性大咱？在算法上如何實現(xiàn)?這是生物信息的基本功，生物信息不是只會畫個圖注益，也不是只會安裝軟件碴巾，它不是。所以丑搔，關(guān)于生物信息我們還要學(xué)習(xí)很多數(shù)學(xué)和計算機(jī)的知識厦瓢。

在看這一章的時候，恰巧也在極客時間上重溫《數(shù)據(jù)結(jié)構(gòu)與算法之美》啤月，深感自己的底子之薄煮仇，生信的坑子之深：

在這里我們不去講編輯距離，不去畫動態(tài)規(guī)劃的表谎仲，關(guān)于生信的算法我第一次接觸的是
用隱馬爾可夫模型做基因預(yù)測

功能基因組信息學(xué)
    基因注釋與功能分類
        基因注釋數(shù)據(jù)庫
        基因集功能富集分析
        基因功能預(yù)測
    蛋白質(zhì)分析與蛋白質(zhì)組學(xué)
        蛋白質(zhì)分析方法
        蛋白質(zhì)組學(xué)數(shù)據(jù)的獲取與分析
    蛋白質(zhì)結(jié)構(gòu)分析
        蛋白質(zhì)的高級結(jié)構(gòu)
        蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫
        蛋白質(zhì)結(jié)構(gòu)預(yù)測
        基于結(jié)構(gòu)預(yù)測蛋白質(zhì)功能
        蛋白質(zhì)結(jié)構(gòu)異常與疾病
    轉(zhuǎn)錄調(diào)控信息學(xué)
        轉(zhuǎn)錄調(diào)控的高通量實現(xiàn)
        轉(zhuǎn)錄因子結(jié)合位點的信息學(xué)預(yù)測方法
        轉(zhuǎn)錄調(diào)控數(shù)據(jù)庫
    生物分子網(wǎng)絡(luò)
        生物分子網(wǎng)絡(luò)概述
        生物分子網(wǎng)絡(luò)分析
        生物分子網(wǎng)絡(luò)的重構(gòu)和應(yīng)用
            基因表達(dá)網(wǎng)絡(luò)
            基因調(diào)控網(wǎng)絡(luò)
            蛋白質(zhì)互作網(wǎng)絡(luò)
            代謝網(wǎng)絡(luò)
    計算表觀遺傳學(xué)
        基因組的DNA甲基化
        組蛋白修飾的表觀基因組
        基因組印記
        表觀遺傳學(xué)數(shù)據(jù)庫及軟件

如果不是看過本書的出版時間浙垫，你完全看不出這是十年前的教材。因為討論的主題就算放到今天依然是很新穎的强重，這就是聞道有先后吧绞呈。比如最近比較火的冷凍電鏡（Cryoelectron Microscopy），在本書中也有提到间景。就方法論來說，我覺得這部分的生物分子網(wǎng)絡(luò)很有啟發(fā)意義艺智，目前的生物信息一般是分析序列結(jié)構(gòu)和基因表達(dá)倘要，但是生物過程往往是比較復(fù)雜的，所以網(wǎng)絡(luò)的應(yīng)用似乎是顯而易見十拣。

目前生物分子網(wǎng)路正應(yīng)用在生物系統(tǒng)的許多方面封拧，也在和新的算法一起給我們帶來新的見解。

生物信息學(xué)與人類復(fù)雜疾病
    人類復(fù)雜疾病與計算系統(tǒng)生物學(xué)
        復(fù)雜疾病概述
        復(fù)雜疾病數(shù)據(jù)庫
        疾病網(wǎng)絡(luò)重構(gòu)和計算系統(tǒng)生物學(xué)方法
    單核苷酸多態(tài)與人類疾病
        SNP分型技術(shù)與數(shù)據(jù)庫資源
        基于SNP的復(fù)雜疾病遺傳定位
        數(shù)量性狀研究與SNP的系統(tǒng)遺傳學(xué)分析
        SNP相關(guān)的集成軟件工具
    miRNA與復(fù)雜疾病
        miRNA 與靶基因
        miRNA多態(tài)和復(fù)雜疾病
        miRNA 表達(dá)譜與復(fù)雜疾病
        miRNA 調(diào)控分子網(wǎng)絡(luò)

這部分是本教材的落腳點夭问，就像為之前的所有知識點找到了歸屬泽西。所謂打鐵還需自身硬，要把生物信息（數(shù)學(xué)與計算機(jī)和生命科學(xué)的結(jié)合）應(yīng)用到揭示解決人類的健康上去缰趋，我們還有一段路要走捧杉，目前我們至少可以確定陕见，這條路的基本方向是對的。

十年前我們分析基因芯片表達(dá)數(shù)據(jù)味抖，十年后我們分析單細(xì)胞轉(zhuǎn)錄組表達(dá)譜评甜；十年前我們分析SNP和MiRNA，十年后我們分析ecDNA仔涩；十年前我們摸索著前進(jìn)忍坷，十年后我們滿懷憧憬。

十年間熔脂，我們看到生物信息在測序方法佩研，數(shù)據(jù)庫建設(shè)，數(shù)據(jù)挖掘算法與軟件等方面都有新的發(fā)展霞揉。2010-2020這十年依然是后基因組時代韧骗，后功能基因組時代。如今零聚，我們可以在單個細(xì)胞水平上來分析DNA（基因組）袍暴，RNA（轉(zhuǎn)錄組），蛋白質(zhì)（組）及其互作隶症。如果說十九世紀(jì)末二十世紀(jì)初政模，以細(xì)胞病理學(xué)為基礎(chǔ)的醫(yī)學(xué)模式，開始向分子醫(yī)學(xué)轉(zhuǎn)變蚂会。那么淋样，隨著單細(xì)胞技術(shù)的成熟，在生命科學(xué)的信息流中胁住，分子醫(yī)學(xué)（DNA趁猴，RNA，蛋白）將被單細(xì)胞統(tǒng)一起來彪见，走向組織儡司，器官（圖譜），個體（精準(zhǔn)醫(yī)療）余指，群體（免疫）捕犬。

生物信息正在慢慢成為人類健康管理的技術(shù)基礎(chǔ)。

本文參考了以下鏈接：
生物信息學(xué)國內(nèi)學(xué)者TOPs【歡迎交流】
走在時代前沿的女科學(xué)家 ——記我國著名生物信息學(xué)家李霞教授
 生物信息學(xué)專業(yè)就業(yè)方向
 http://snap.stanford.edu/deepnetbio-ismb/ipynb/Human+Disease+Network.html
http://www.biols.cas.cn/xwdt/gsdt/201904/t20190419_5277844.html