使用indri建立index
如果你已經(jīng)編譯過(guò)indri的源代碼,你應(yīng)該可以在buildindex
目錄下找到IndriBuildIndex
這個(gè)文件岗憋。這個(gè)文件大約17MB,就是我們用來(lái)建立索引的可執(zhí)行文件。這個(gè)文件你可以把它拷到任何地方呀枢。為了方便,我把它拷到了一個(gè)新文件夾bin
较店。
首先士八,在建索引之前,我們要告訴程序我們要為哪些文件建立索引梁呈。對(duì)你來(lái)說(shuō)婚度,就是為了database中所有題目建立索引。所以官卡,首先你要新建一個(gè)文件夾蝗茁,文件夾中為每一個(gè)題目建立一個(gè)txt文件。
下圖中寻咒,我在docs文件夾中建立了6個(gè)txt文件哮翘。每個(gè)文件中有一段話。
接下來(lái)毛秘,我們要寫(xiě)建立索引所需要的參數(shù)饭寺。
首先我們要新建一個(gè)文件,里面的內(nèi)容為
<parameters>
<memory>200m</memory>
<index>/mnt/i/databackup/testdocs/</index>
<corpus>
<path>/mnt/i/databackup/docs/</path>
<class>text</class>
</corpus>
</parameters>
注意叫挟,因?yàn)槲沂褂脀in10的bash on ubuntu艰匙,所以他的路徑地址是/mnt/i/databackup/docs/
。另外抹恳,注意最后有個(gè)斜杠员凝,表示這是一個(gè)文件夾,此文件夾下的所有文件都要建立索引奋献。
接下來(lái)我們到bin路徑下(我們剛才把IndriBuidIndex拷到了此目錄下)
執(zhí)行命令./IndriBuildIndex parameter_file.txt
可以看到索引已經(jīng)建好了绊序。然后去看一下剛才我設(shè)定的index的位置
這樣,index就已經(jīng)建立了秽荞。