繪制結(jié)構(gòu)是化學(xué)工作者的基本功种冬,但是對于大數(shù)據(jù)相關(guān)的工作付燥,人工繪制數(shù)十萬個(gè)結(jié)構(gòu)就有些不現(xiàn)實(shí),所以如果能實(shí)現(xiàn)類似OCR的功能枝哄,將對機(jī)器學(xué)習(xí)有很大幫助肄梨。2008年,一個(gè)叫Igor V. Filippov的老哥發(fā)布了名為OSRA的程序挠锥,即Optical Structure Recognition Application(光學(xué)結(jié)構(gòu)識(shí)別程序)众羡。這是一種類似于傳統(tǒng)的OCR式程序,能將圖片中的化學(xué)結(jié)構(gòu)式轉(zhuǎn)換成計(jì)算機(jī)可以讀取的格式如SMILES蓖租、SDF等粱侣,它后來Schr?dinger公司做的那種基于神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)識(shí)別系統(tǒng)有本質(zhì)區(qū)別。第二年蓖宦,老哥把工作寫成了論文齐婴,如果想詳細(xì)了解,可以看這篇文章:J. Chem. Inf. Model. 2009, 49, 3, 740–743稠茂。
這個(gè)程序的編譯并不怎么順利柠偶,遇到了挺多坑的,我是好幾年前知道它的存在的,但是由于一直沒時(shí)間排坑诱担,就總在用它的在線版毡证,但是長久以來在線版都沒辦法導(dǎo)出SDF,而SMILES的轉(zhuǎn)換又沒法跟圖片上一致该肴,而且最要命的是情竹,它的圖像API居然完全無法識(shí)別MacOS下生成的圖片!匀哄!所以還是得編譯本地版秦效。這段時(shí)間由于肺炎疫情一直在家呆著,終于有時(shí)間仔細(xì)研究一下了涎嚼。(果然閑出屁可以作出奇怪的工作2333)
本文的編譯環(huán)境為MacOS 10.13.6阱州,沒有在其他系統(tǒng)上使過,并不推薦Windows系統(tǒng)法梯,似乎挺麻煩的苔货,作者也不推薦。首先立哑,電腦上需要安裝subversion和homebrew夜惭,subversion用來下載源代碼,homebrew則用來安裝依賴铛绰。
不知道出于什么原因诈茧,作者只會(huì)把BUG修復(fù)到svn版的代碼里(可能是懶癌?)捂掰,所以先用svn把代碼check出來:
# must use svn version code
svn checkout https://svn.code.sf.net/p/osra/code/tags/2.1.1 osra-code
然后安裝依賴敢会,有一些是可以直接用brew安裝的,有一些還是需要編譯安裝这嚣,先說brew安裝的:
brew install libiconv, zlib, bzip2, freetype, libpng, libtiff, lcms, jasper, libjpeg
下面的一些依賴需要編譯安裝鸥昏,用戶要去對應(yīng)的庫的官網(wǎng)下載代碼,然后按照如下的命令逐個(gè)安裝:
#libxml2
./autogen.sh
make -j4
sudo make install
#Compile OCRAD and TCLAP as follows:
./configure
make -j4
sudo make install
#Potrace:
./configure --with-libpotrace --disable-shared
make -j4
sudo make install
#GOCR:
./configure
make libs
sudo make install
注意這里姐帚,Openbabel需要使用作者patch過的版本吏垮,可以在他的sourceforge下載到,下載完成后按如下命令安裝:
#Openbabel
export LDFLAGS=/usr/local/opt/libiconv/lib/libiconv.a
mkdir build
cd build
cmake -DBUILD_SHARED=OFF ..
sudo make install
#GraphicsMagick
export LDFLAGS=
./configure --disable-shared --with-x=no --disable-openmp --without-threads
make -j4
sudo make install
# 要保證你的PATH里可以找到graphicsmagick++-config
# 把下面的路徑換成你自己存儲(chǔ)GraphicsMagick源代碼的位置
export PATH=/Users/simon/Downloads/GraphicsMagick-1.3.21/Magick++/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/lib
#Poppler
sudo chown -R $(whoami) /usr/local/share/man/man4
brew install pkgconfig openjpeg
mkdir build
cd build
cmake -DCMAKE_BUILD_TYPE=Release -DCMAKE_INSTALL_PREFIX=/usr/local -DENABLE_UNSTABLE_API_ABI_HEADERS=ON ..
make -j4
sudo make install
到這里依賴就全部安裝好了卧土,然后就是編譯OSRA主程序了惫皱。你遇到的第一個(gè)大坑就是configure
文件。作者原始的文件應(yīng)該是沒對mac優(yōu)化過尤莺,所以configure就過不了旅敷,得手動(dòng)把里面的某些參數(shù)改一改。用文本編輯器打開configure
颤霎,找到所有的-static-libgcc
媳谁,把它們?nèi)紕h掉涂滴。然后搜索${MACPORTLIBS}
,然后把這個(gè)變量替換成相應(yīng)位置顯示的庫文件晴音,你安裝的庫版本可能會(huì)和我的不一樣柔纵,所以你需要確認(rèn)一下你電腦上安裝的真實(shí)版本,然后把路徑改成你的锤躁,挨個(gè)替換搁料。通過HomeBrew安裝的庫文件會(huì)在/usr/local/Cellar/
里,而編譯安裝的庫則在/usr/local/lib/
里系羞。有以下幾個(gè)庫需要替換:
/usr/local/lib/libxml2.a
/usr/local/Cellar/libiconv/1.16/lib/libiconv.a
/usr/local/Cellar/zlib/1.2.11/lib/libz.a
/usr/local/lib/liblcms2.a
/usr/local/lib/libtiff.a
/usr/local/lib/libfreetype.a
/usr/local/lib/libjasper.a
/usr/local/lib/libpng.a
/usr/local/Cellar/bzip2/1.0.8/lib/libbz2.a
/usr/local/Cellar/zlib/1.2.11/lib/libz.a
完成后郭计,再運(yùn)行configure
就可以通過了,然后按照前面一樣的方法make再install就可以了:
./configure --enable-static-linking --with-graphicsmagick-lib=/usr/local/lib --with-graphicsmagick-include=/usr/local/include/GraphicsMagick
make -j4
sudo make install
以下是我的私貨時(shí)間(笑)
化學(xué)專業(yè)的學(xué)生寫畢業(yè)論文綜述要畫上好幾百個(gè)結(jié)構(gòu)椒振,手動(dòng)畫太令人頭大了昭伸,有了OSRA后,就可以直接識(shí)別PDF里的結(jié)構(gòu)了澎迎,于是乎我寫了一個(gè)截圖的GUI小程序庐杨,直接在結(jié)構(gòu)上畫個(gè)框就能把圖截下來,然后自動(dòng)調(diào)用OSRA把結(jié)構(gòu)識(shí)別成SDF格式夹供,PNG和SDF會(huì)被分別保存下來灵份,SDF打開以后套一個(gè)模板就可以復(fù)制到word里去用了。
程序源代碼我發(fā)布在了我的github上哮洽,用python寫成各吨,需要先用pip安裝PyQt5,如果對你有幫助袁铐,別忘了在github上給我一個(gè)star??下方是一個(gè)演示視頻~
簡書插不了視頻,請移步我的博客觀看demo