- 一技肩、環(huán)境配置
- 1.windows下的安裝與初始化
- 2.用戶設置與服務啟動
- 二界拦、操作使用
- 1.cmd操作
- 2.python操作
一攻礼、環(huán)境配置
PostgreSQL是一個開源睡互、可擴展的關系型數據庫肠套,rdkit官網文檔里也是以postgresql作為案例進行演示舰涌。本文介紹帶rdkit插件的postgresql在windows系統(tǒng)上的環(huán)境配置,以及在python環(huán)境下的基本操作你稚。
1.windows下的安裝與初始化
- 直接在cmd下使用conda安裝繼承了rdkit插件的postgresql
C:\Users\Administrator> conda install -c rdkit rdkit-postgresql
- 安裝完成后需要初始化一下瓷耙,在"-D"后加上數據庫的數據存儲目錄
C:\Users\Administrator> initdb –D d:\postgresql\data
2.用戶設置與服務啟動
- 安裝完成后,直接在cmd中執(zhí)行“postgres -D d:\postgresql\data”啟動服務會出現如下提示刁赖,即不能用帶管理員權限的用戶來啟動服務
Execution of PostgreSQL by a user with administrative permissions is not permitted.
- 接下來在cmd命令行中進行用戶設置搁痛,這部分內容會被360報錯,需要暫時關閉殺毒軟件或手動操作
- 新建一個用戶postgres
C:\Users\Administrator> net user postgres /add
- 激活該用戶
C:\Users\Administrator> net user postgres /active:yes
- 在<password>中設置密碼
C:\Users\Administrator> net user postgres <password>
- 切換到postgres用戶宇弛,并根據提示輸入上一步中設置的密碼
C:\Users\Administrator> runas /user:postgres cmd
- 在彈出的新窗口中啟動postgresql服務
C:\Users\Administrator> postgres -D d:\postgresql\data
-
服務啟動成功鸡典,可以在cmd或python中操作數據庫了
二、操作使用
1.cmd操作
- 再打開一個cmd終端涯肩,創(chuàng)建一個新數據庫命名為mols(需要添加conda的環(huán)境變量)
C:\Users\Administrator> createdb mols
- 為數據庫加載rdkit擴展模塊
C:\Users\Administrator> psql –c “create extension rdkit” mols
- 進入mols數據庫的交互界面.
C:\Users\Administrator> psql mols
- 操作失誤還可以刪除數據庫.
C:\Users\Administrator> dropdb mols
2.python操作
- 這里選擇psycopg2庫用于連接postgresql轿钠,同樣使用conda安裝psycopg2
C:\Users\Administrator> conda install -c conda-forge psycopg2
- 接下來導入psycopg2,并創(chuàng)建一個connection連接:connect()
database:設置連接數據庫的名稱
user:用戶
password:密碼
port:端口號病苗,默認5432
host:宿主ip
>>> import psycopg2
>>> connection = psycopg2.connect(database='mols',
>>> user='Administrator',
>>> password='postgresql',
>>> port='5432',
>>> host='127.0.0.1')
>>> type(connection)
psycopg2.extensions.connection
- 創(chuàng)建一個游標cursor疗垛,在內存中開辟一塊區(qū)域,用于存儲數據操作的結果:connection.cursor()
>>> cur = connection.cursor()
>>> type(cur)
psycopg2.extensions.cursor
- 執(zhí)行一條SQL語句測試一下硫朦,查看操作用戶
>>> cur.execute("select * from current_user;")
>>> reply = cur.fetchall()
>>> reply
[('Administrator',)]
- 寫一條postgresql語句贷腕,記為query,創(chuàng)建一個數據表咬展,命名為info泽裳,并表添加列名,設置數據格式
- 使用游標來執(zhí)行語句:execute(query)
>>> query = '''create table info(id serial primary key,
>>> database text,
>>> project text,
>>> SMILES text,
>>> HA integer,
>>> HD integer,
>>> RB integer,
>>> MW float,
>>> LOGP float);'''
>>> cur.execute(query)
- 讀取1000條左右的數據
>>> import pandas as pd
>>> df = pd.read_excel('ippin.xlsx')
獲取mol對象列表
>>> from rdkit import Chem
>>> mol_list = [x for x in [Chem.MolFromSmiles(i) for i in df.SMILES] if x]
>>> len(mol_list)
1351
創(chuàng)建一個描述符計算對象破婆,將類藥五規(guī)則設置到計算器中涮总,這部分不明白的可以參考這篇文章
from rdkit.ML.Descriptors import MoleculeDescriptors
des_list = ['MolWt', 'NumHAcceptors', 'NumHDonors', 'MolLogP', 'NumRotatableBonds']
calculator = MoleculeDescriptors.MolecularDescriptorCalculator(des_list)
- 使用計算器,對每個分子計算所需描述符
>>> feat_list = ['%s'%str(calculator.CalcDescriptors(mol)) for mol in mol_list]
- 在query中寫入一條向數據表info插入數據的語句祷舀,并執(zhí)行該語句
>>> query = "insert into info (MW, HA, HD, LOGP, RB) values %s" % (','.join(feat_list))
>>> cur.execute(query)
- 通過聚合函數count(*)看一下有多少條結果
- 通過游標獲取查詢結果:fetchall()
>>> query = 'select count(*) from info'
>>> cur.execute(query)
>>> reply = cur.fetchall()
>>> reply
[(1351,)]
- 最后操作完后瀑梗,記得提交對數據庫的修改:commit()
>>> connection.commit()
本文參考自rdkit、postgresql安裝文檔裳扯。
python代碼及源文件在這里抛丽。