催化反應(yīng)產(chǎn)率預(yù)測

簡介

這是 Datawhale 2024 年 AI 夏令營第三期的學(xué)習(xí)活動《從零入門AI for Science》中的一個示例愤诱,基于天池平臺第二屆世界科學(xué)智能大賽 物質(zhì)科學(xué)賽道:催化反應(yīng)產(chǎn)率預(yù)測開展的實踐學(xué)習(xí)。

這是一個簡單的上手baseline城瞎,數(shù)據(jù)集包括測試集和訓(xùn)練集:

  1. 訓(xùn)練集包含23538條反應(yīng)數(shù)據(jù):

    • 樣本序號:

      • rxnid:樣本序號
    • 樣本的特征:

      • Reactant1:反應(yīng)物1绞呈,用SMILES表示。SMILES將化學(xué)分子用ASCII字符表示的方法唾琼,是化學(xué)信息學(xué)領(lǐng)域非常重要的工具

      • Reactant2:反應(yīng)物2渴邦,用SMILES表示

      • Product:產(chǎn)物疯趟,用SMILES表示

      • dditive:催化劑,用SMILES表示

      • Solvent:溶劑谋梭,用SMILES表示

    • 樣本標(biāo)簽:

      • Yield:反應(yīng)產(chǎn)率
  2. 測試集包含2616條反應(yīng)數(shù)據(jù)信峻,和訓(xùn)練集相比,沒有樣本標(biāo)簽瓮床。

分解步驟

1. 導(dǎo)入必要的庫

#首先盹舞,導(dǎo)入庫
import pickle
import pandas as pd
from tqdm import tqdm
from sklearn.ensemble import RandomForestRegressor
from rdkit.Chem import rdMolDescriptors
from rdkit import RDLogger,Chem
import numpy as np
RDLogger.DisableLog('rdApp.*')

pickle主要是用來保存訓(xùn)練的模型到本地,這樣只需訓(xùn)練一次得到模型隘庄,后面可以直接使用踢步,不需要重新訓(xùn)練。
rdkit是一個開源的化學(xué)信息python軟件包丑掺。rdMolDescriptors是RDKit 庫中的一個模塊获印,用于量化分子的結(jié)構(gòu)特征。

2. 從數(shù)據(jù)集提取數(shù)據(jù)

def mfgen(mol,nBits=2048, radius=2):
  '''
  Parameters
  ----------
  mol : mol
  RDKit mol object.
  nBits : int
  Number of bits for the fingerprint.
  radius : int
  Radius of the Morgan fingerprint.
  Returns
  -------
  mf_desc_map : ndarray
  ndarray of molecular fingerprint descriptors.
  '''
  # 返回分子的位向量形式的Morgan fingerprint
  fp = rdMolDescriptors.GetMorganFingerprintAsBitVect(mol,radius=radius,nBits=nBits)
  return np.array(list(map(eval,list(fp.ToBitString()))))
 
 # 加載數(shù)據(jù)
 def vec_cpd_lst(smi_lst):
  smi_set = list(set(smi_lst))
  smi_vec_map = {}
  for smi in tqdm(smi_set): # tqdm:顯示進(jìn)度條
  mol = Chem.MolFromSmiles(smi)
  smi_vec_map[smi] = mfgen(mol)
  smi_vec_map[''] = np.zeros(2048)

  vec_lst = [smi_vec_map[smi] for smi in smi_lst]
  return np.array(vec_lst)

mfgen函數(shù)用于生成 Morgan 指紋街州。

vec_cpd_lst函數(shù)將數(shù)據(jù)集中的各物質(zhì)SMILES字符串轉(zhuǎn)化為分子指紋向量構(gòu)成的數(shù)組兼丰。

使用這兩個函數(shù)玻孟,可以將原始的分子字符串?dāng)?shù)據(jù)集轉(zhuǎn)化為可用于模型訓(xùn)練數(shù)據(jù)集:

# 使用Pandas讀取數(shù)據(jù)集
dataset_dir = '../dataset' 
 
train_df = pd.read_csv(f'{dataset_dir}/round1_train_data.csv')
test_df = pd.read_csv(f'{dataset_dir}/round1_test_data.csv')
 
print(f'Training set size: {len(train_df)}, test set size: {len(test_df)}')
 
 # 使用Pandas讀取數(shù)據(jù)集
train_rct1_smi = train_df['Reactant1'].to_list()
train_rct2_smi = train_df['Reactant2'].to_list()
train_add_smi = train_df['Additive'].to_list()
train_sol_smi = train_df['Solvent'].to_list()
 
 # 將SMILES轉(zhuǎn)化為分子指紋
train_rct1_fp = vec_cpd_lst(train_rct1_smi)
train_rct2_fp = vec_cpd_lst(train_rct2_smi)
train_add_fp = vec_cpd_lst(train_add_smi)
train_sol_fp = vec_cpd_lst(train_sol_smi)
# 在dim=1維度進(jìn)行拼接。即:將一條數(shù)據(jù)的Reactant1,Reactant2,Product,Additive,Solvent字段的morgan fingerprint拼接為一個特征向量鳍征。
train_x = np.concatenate([train_rct1_fp,train_rct2_fp,train_add_fp,train_sol_fp],axis=1)
train_y = train_df['Yield'].to_numpy()
 
 # 測試集也進(jìn)行同樣的操作
test_rct1_smi = test_df['Reactant1'].to_list()
test_rct2_smi = test_df['Reactant2'].to_list()
test_add_smi = test_df['Additive'].to_list()
test_sol_smi = test_df['Solvent'].to_list()
 
test_rct1_fp = vec_cpd_lst(test_rct1_smi)
test_rct2_fp = vec_cpd_lst(test_rct2_smi)
test_add_fp = vec_cpd_lst(test_add_smi)
test_sol_fp = vec_cpd_lst(test_sol_smi)
test_x = np.concatenate([test_rct1_fp,test_rct2_fp,test_add_fp,test_sol_fp],axis=1)

3. 訓(xùn)練模型

實例化并訓(xùn)練一個隨機(jī)森林回歸模型:

# 模型訓(xùn)練
model = RandomForestRegressor(n_estimators=10  # 決策樹的個數(shù)黍翎,越多通常效果越好,但也容易過擬合
            ,max_depth=10  # 設(shè)置樹的最大深度蟆技,與剪枝相關(guān)的參數(shù)玩敏,默認(rèn)值None
            ,min_samples_split=2  # 根據(jù)屬性劃分節(jié)點時,最少的樣本數(shù)质礼,默認(rèn)是2,調(diào)整模型是否過擬合或欠擬合
            ,min_samples_leaf=1  # 葉子節(jié)點最少的樣本數(shù)织阳,默認(rèn)是1眶蕉,也是調(diào)整模型是否過擬合或欠擬合
            ,n_jobs=-1)  # 并行job個數(shù),-1表示使用所有cpu進(jìn)行并行計算
model.fit(train_x,train_y)

保存模型唧躲,避免后面使用時重新訓(xùn)練模型:

with open('./random_forest_model.pkl', 'wb') as file:
  pickle.dump(model, file)</pre>

加載模型并預(yù)測:

with open('random_forest_model.pkl', 'rb') as file:
  loaded_model = pickle.load(file)
 # 測試集預(yù)測
test_pred = loaded_model.predict(test_x)</pre>

4. 生產(chǎn)結(jié)果文本

生成賽題要求的submit文件:

ans_str_lst = ['rxnid,Yield']
for idx,y in enumerate(test_pred):
  ans_str_lst.append(f'test{idx+1},{y:.4f}')
with open('./submit.txt','w') as fw:
  fw.writelines('\n'.join(ans_str_lst))
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末造挽,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子弄痹,更是在濱河造成了極大的恐慌饭入,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,496評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件肛真,死亡現(xiàn)場離奇詭異谐丢,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)蚓让,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,407評論 3 392
  • 文/潘曉璐 我一進(jìn)店門乾忱,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人历极,你說我怎么就攤上這事窄瘟。” “怎么了趟卸?”我有些...
    開封第一講書人閱讀 162,632評論 0 353
  • 文/不壞的土叔 我叫張陵蹄葱,是天一觀的道長。 經(jīng)常有香客問我锄列,道長图云,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,180評論 1 292
  • 正文 為了忘掉前任右蕊,我火速辦了婚禮琼稻,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘饶囚。我一直安慰自己帕翻,他們只是感情好鸠补,可當(dāng)我...
    茶點故事閱讀 67,198評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著嘀掸,像睡著了一般紫岩。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上睬塌,一...
    開封第一講書人閱讀 51,165評論 1 299
  • 那天泉蝌,我揣著相機(jī)與錄音,去河邊找鬼揩晴。 笑死勋陪,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的硫兰。 我是一名探鬼主播诅愚,決...
    沈念sama閱讀 40,052評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼劫映!你這毒婦竟也來了违孝?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,910評論 0 274
  • 序言:老撾萬榮一對情侶失蹤泳赋,失蹤者是張志新(化名)和其女友劉穎雌桑,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體祖今,經(jīng)...
    沈念sama閱讀 45,324評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡校坑,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,542評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了衅鹿。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片撒踪。...
    茶點故事閱讀 39,711評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖大渤,靈堂內(nèi)的尸體忽然破棺而出制妄,到底是詐尸還是另有隱情,我是刑警寧澤泵三,帶...
    沈念sama閱讀 35,424評論 5 343
  • 正文 年R本政府宣布耕捞,位于F島的核電站,受9級特大地震影響烫幕,放射性物質(zhì)發(fā)生泄漏俺抽。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,017評論 3 326
  • 文/蒙蒙 一较曼、第九天 我趴在偏房一處隱蔽的房頂上張望磷斧。 院中可真熱鬧,春花似錦、人聲如沸弛饭。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,668評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽侣颂。三九已至档桃,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間憔晒,已是汗流浹背藻肄。 一陣腳步聲響...
    開封第一講書人閱讀 32,823評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留拒担,地道東北人嘹屯。 一個月前我還...
    沈念sama閱讀 47,722評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像澎蛛,于是被迫代替她去往敵國和親抚垄。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,611評論 2 353

推薦閱讀更多精彩內(nèi)容