一彪笼、題名
數(shù)據(jù)挖掘在分子系統(tǒng)發(fā)生與定量構(gòu)效關(guān)系建模中的應(yīng)用(王春娟2008)
二、文章結(jié)構(gòu)
摘要
Abstract
第一章緒論
第二章基于全基因組分子系統(tǒng)發(fā)生分析
第三章基于全蛋白質(zhì)組分子系統(tǒng)發(fā)生分析
第四章支持向量機在定量構(gòu)效關(guān)系研究中的應(yīng)用
致謝
作者簡歷
三船庇、關(guān)鍵詞及摘要解讀
關(guān)鍵詞
:數(shù)據(jù)挖掘;系統(tǒng)發(fā)生分析;定量構(gòu)效關(guān)系;支持向量機回歸屿愚;k-最近鄰
摘要
1、隨著存儲技術(shù)和Internet的迅猛發(fā)展抄谐,各行業(yè)數(shù)據(jù)量急劇增多渺鹦,迫切需求更強有力的工其來“挖掘”有用信息扰法,數(shù)據(jù)挖掘技術(shù)應(yīng)運而生蛹含,日前已在各個領(lǐng)域獲得廣泛地應(yīng)用。本文從數(shù)據(jù)挖掘無監(jiān)督學(xué)習(xí)(聚類-以分子系統(tǒng)發(fā)生分析為例)和有監(jiān)督學(xué)習(xí)(預(yù)測-以化合物定量構(gòu)效關(guān)系建模為例)兩個方面進行了研究塞颁。
2浦箱、提取物種信息特征是分子系統(tǒng)發(fā)生分析的關(guān)鍵吸耿。本文提出新的信息特征提取方法一多尺度步長關(guān)聯(lián)法,建立了一種新的酷窥、不需要序列聯(lián)配的分子系統(tǒng)發(fā)生分析方法咽安,分別基于全基因組序列對冠狀病毒、基于線粒體全蛋白質(zhì)組序列對全變態(tài)昆蟲進行了系統(tǒng)發(fā)生分析蓬推。
基于全基因組的冠狀病毒分子系統(tǒng)發(fā)生分析結(jié)果顯示妆棒,冠狀病毒共分為四大組,SARS冠狀病毒形成個獨立的大分支沸伏,明顯的與其它三組區(qū)分開來糕珊,且來自蝙蝠的冠狀病毒與其它SARS冠狀病毒稍有不同,說明蝙蝠有可能為SARS冠狀病毒的自然宿主毅糟。
基于線粒體全蛋白質(zhì)組序列對全變態(tài)昆蟲進行分子系統(tǒng)發(fā)生分析時红选,引入了氨基酸的19個物理化學(xué)參數(shù),結(jié)果與傳統(tǒng)方法分類較為吻合姆另,兒乎相同科和目的物種都聚在了一起喇肋。說明基于物理化學(xué)參數(shù)的多尺度步長關(guān)聯(lián)在構(gòu)建全變態(tài)昆蟲的分子系統(tǒng)發(fā)生樹時可獲得較好的聚類效果。本文發(fā)展的多尺度步長關(guān)聯(lián)法有望應(yīng)用在基于全基因組水平和全蛋白質(zhì)組水平上的各類分析迹辐。
3蝶防、第二部分發(fā)展了一種新的定量構(gòu)效關(guān)系的預(yù)測方法。論文提出了一種基于支持向量機回歸和k-最近鄰的組合預(yù)測方法(SVR-KNN)右核,并將其應(yīng)用于抗生素的定量構(gòu)效關(guān)系研究慧脱。留一法預(yù)測結(jié)果表明,非線性篩選描述符和子模型能明顯提高預(yù)測精度贺喝,汰選子模型后的組合預(yù)測精度優(yōu)于單一子模型菱鸥,SVR-KNN的MSE、MAPE分別為0.019躏鱼、1.81%氮采;獨立樣本預(yù)測結(jié)果顯示,SVR-KNN在所有參比模型中具有最優(yōu)的預(yù)測精度及穩(wěn)定性染苛,其MSE鹊漠、MAPE分別為0.010、1.33%茶行。說明本文提出的SVR-KNN預(yù)測模型具有較強的預(yù)測能力和優(yōu)異的泛化推廣能力躯概,在化合物的QSAR研究中有廣泛應(yīng)用前景。