1. 關于 IBM Content Search Services
IBM Content Search Services 是一款 IBM 自主研發(fā)的獨立的全文檢索組件。就 FileNet 而言但汞,它也是唯一的全文檢索組件。但是依鸥,IBM Content Search Services 的設計不僅僅針對于 FileNet產(chǎn)品究履,它具有良好的擴展性和可嵌入性跳夭,可適用于多種 IBM 企業(yè)級產(chǎn)品,諸如 IBM Content Manager 等搏存。
IBM Content Search Services 為用戶提供整套的全文檢索服務,它支持多種常用文檔檢索矢洲,支持多種編碼方式璧眠,支持多達 22種語言。IBM Content Search Services 是基于開源搜索引擎 Apache Lucene 實現(xiàn)數(shù)據(jù)索引和檢索的功能;基于UIMA 實現(xiàn)分詞功能蛆橡;基于 LanguageWare? 實現(xiàn)語言相關的處理舌界;用戶可以輕松的使用 Java? 和 C++ API, 從 IBM Content Search Services 獲得強大的數(shù)據(jù)索引和檢索功能。
2. IBM Content Search Services 基本架構
IBM Content Search Services 支持單服務器模式泰演,就是文本預處理與創(chuàng)建數(shù)據(jù)索引在同一臺機器上呻拌;它也同時支持多服務器模式,將文本預處理與創(chuàng)建數(shù)據(jù)索引分別部署在不同的機器上睦焕。
IBM Content Search Services 文件預處理需要經(jīng)過如下 5 個步驟藐握,如圖1所示:
圖1: FileNet Content Search Service文檔預處理過程
文本構造:文本構造是指將存儲于信息庫(可以是文件系統(tǒng),也可以是數(shù)據(jù)庫)中的文檔調(diào)用并返回給 Content Search Services 服務器垃喊,為后面的文本處理和數(shù)據(jù)索引提供輸入猾普;
文本提取:為了創(chuàng)建數(shù)據(jù)索引本谜,需要在這步從多種類型的文檔中提取文本內(nèi)容初家。可以自定義提供哪種類型的文檔被提取乌助。Content Search Services 既可以在已知文檔類型溜在、MIME類型或文檔編碼方式的情況下進行提取,也可以未知的情況下他托,自動檢測出輸入文檔是否是二進制或者文檔的編碼方式掖肋;
語言識別:在這步確定所有文檔的語言類型;
分詞:在這步赏参,Content Search Services 應用 UIMA 組件對提取出來的文本進行分詞志笼,將文本分成若干個 Token.
在分詞過程中,許多沒有實際意義的詞匯將被舍棄把篓,不能被分成Token纫溃,如英文中的“the”、“a”纸俭、“and”皇耗,漢字中的“著”、“了”揍很、“的”郎楼,這些詞幾乎不會成為關鍵詞被用戶在檢索過程中使用。分詞產(chǎn)生的Token 最終將被 Lucene 組件創(chuàng)建成索引窒悔;
語言分析:這一步的功能由語言處理組件完成呜袁,通過對 Token 的詞形、時態(tài)简珠、詞匯等方面進行分析和處理阶界,如將 cars 處理為 car虹钮、將 drove 處理為 drive,以提高檢索的查全率膘融。
3. IBM Content Search Services 安裝配置實例
IBM Content Search Services 雖然具有強大的數(shù)據(jù)索引和檢索能力芙粱,但是它的安裝和配置并不復雜瓤逼。下面我們就以 IBM Content Search Services 與 FileNet Content Platform Engine 5.2.1 集成為例椒舵,為大家介紹一個完整的 IBM Content Search Services 安裝與配置實例。我們將以盡可能多的實際安裝截圖來描述整個過程政鼠,盡可能的讓它變的簡單易懂岛都。
3.1 IBM Content Search Services 的安裝
IBM Content Search Services 的安裝律姨,既可以通過圖形向導的方式完成,也可以通過命令行的方式完成臼疫。IBM
Content Search Services 安裝向導的圖形界面十分友好 ,通過閱讀安裝界面的描述择份,用戶基本上可以成功的完成安裝。大致步驟為:
接受安裝許可協(xié)議
指定配置數(shù)據(jù)目錄
指定安裝目錄(下文中以 $CSS_HOME 表示這個目錄)
服務器配置信息
安裝前預覽
安裝
完成安裝
值得注意的是在第 4 步服務器配置信息(見圖2)烫堤。在這里荣赶,我們盡量填入一個獨特的 Authentication Token Seed,而不是使用空值鸽斟。這個 Seed 會生成一個 Token讯壶,這個 Token 將用于 FileNet P8 Content Platform Engine 與IBM Content Search Services 的通信,所以一個獨特的 Token 可以提高通信數(shù)據(jù)傳輸?shù)陌踩浴?/p>
圖2:服務器設置頁面
Token 會被顯示在湾盗、完成安裝的界面。請大家盡量記下這個 Token 后再點擊完成安裝按鈕立轧,這個 Token 將在后面的配置步驟中使用格粪。
IBM Content Search Services 沒有嚴格意義上的命令行安裝方式,IBM Content Search Services的命令行安裝方式等同于IBM傳統(tǒng)的軟件靜默安裝方式 (silent)氛改。我們可以通過修改安裝包中的 css_silent_install.txt 文件來指定安裝目錄和Authentication Token Seed 以及其他安裝需要的信息帐萎。在完成 css_silent_install.txt的修改后,運行下面一條命令以實現(xiàn) IBM Content Search Services 的安裝:
x.x.x-CSS-WIN.exe -i silent -f css_silent_install.txt
在靜默方式下的安裝胜卤,無法直接獲得生成的 Token疆导,用戶需要在 $CSS_HOME/CSS_Server/bin 下運行如下命令來獲取token的相關信息:
configTool.bat printToken -configPath ../config
Token 為圖 3 中紅色標注區(qū)域。
圖 3. Config 文件中的 Token
安裝完成之后葛躏,需要到 $CSS_HOME 下檢查一下安裝日志文件澈段,我們要確保在 $CSS_HOME/css_install_log_x.x.x.log 中不含有任何錯誤信息。
3.2 IBM Content Search Services 的配置
在完成了的安裝之后舰攒,我們來配置一個基本的 IBM Content Search Services 應用實例败富。
首先介紹一下文章中提到的實例的環(huán)境信息,實例中的 Content Platform Engine 的操作系統(tǒng)是 Windows 2012 R2摩窃,應用服務器是 IBM WebSphere 8.5.5兽叮,數(shù)據(jù)庫是 Microsoft SQL Server 2008 R2。并且 IBM Content Search Services 與 Content Platform Engine 安裝在同一臺機器上(這個并非必需,它們也可以安裝在不同的機器上)鹦聪。
3.2.1 啟動 IBM Content Search Services
在開始配置之前账阻,我們要確保 IBM Content Search Services 是可用的。我們可以在 $CSS_HOME/CSS_Server/bin 目錄下手動運行 startup.sh 將其啟動 , 如圖4泽本。
圖4. CSS server啟動
在得到啟動成功的提示后淘太,我們可以通過測試是否可以 telnet 8191 端口(8191 為安裝 IBM Content Search Services 時默認的端口號)的方式,驗證啟動成功观挎。
3.2.2 在CPE domain級別注冊CSS server實例:
將 IBM Content Search Services 注冊到 Content Platform Engine的Domain級別琴儿,我們將使用Administrative Console for Content Platform Engine 連接到 Content Engine Domain,在domain下面的全局設置->管理->Text Search Servers下面建立新的CSS server實例嘁捷。如圖5所示造成。
圖5. CSS Server設置
點擊新建來添加CSS server實例,輸入一個自定義的名字雄嚣,點擊next晒屎, 如圖6所示。
圖6. 輸入CSS Server的名字
在定義服務器頁面缓升,我們可以看到如下信息鼓鲁, 如圖7所示:
圖7. 定義服務器信息
服務器狀態(tài)信息反映了服務器以何種模式工作,我們這里是雙工模式:既可以索引又可以搜索港谊,狀態(tài)是開啟的骇吭。
服務器參數(shù)信息反映了連接的CSS服務器hostname,以及對應的端口和Token歧寺。
填寫完畢后燥狰,點擊 Next 并完成注冊,這時我們就可以在 CPE的domain級別中斜筐,看到剛才注冊建立的 Content Search Server 及其屬性了龙致。
3.2.3 在 Object Store級別建立 Index Area
完成了對 Content Search Server 的建立,下面我們?yōu)樾枰臋z索功能的 Object Store 建立 Index Area顷链。首先先來理解一下什么是object store目代,這是CPE中一個對象存儲庫,這個對象存儲庫可以存儲所有的對象嗤练,包括類(class)榛了、文檔、自定義對象等等潭苞。Index Area從字面理解就是索引區(qū)域忽冻,它主要用來就是存儲CSS服務器處理的文檔的索引數(shù)據(jù)。圖8是一個已經(jīng)建立好的Index Area此疹。
圖8. 建立好的Index Area信息
Index Area的屬性中僧诚,我們可以看到他的狀態(tài)是開啟的遮婶,而且有一個物理空間用來存儲索引相關的信息。
3.2.4 IBM Content Search Services的啟用
完成了Index Area的建立后湖笨,我們要在object store本身以及class級別定義內(nèi)容搜索(Content Base Retrieval)旗扑。我們這里以Document Class為例。
首先在object store級別慈省,我們要啟用IBM CSS臀防,入圖9所示
圖9. 在Object Store啟用IBM Content Search Service
從上圖可以看出產(chǎn)品是支持多語言的,我設置的默認語言是英文边败。
完成上面的配置后袱衷,我們要在object store的class上開啟CBR (Content Base Retrieval),我們這里以Document Class為例笑窜,如圖10致燥。
圖10. Class開啟CBR
這樣我們就在object store級別和class級別開啟了CBR。
3.2.5 IBM Content Search Services的驗證
最后我們將驗證CSS服務器是否已經(jīng)正常配置并工作排截。我們創(chuàng)建一個文件test CBR.txt嫌蚤,并輸入如下內(nèi)容:
test 1:
search Jason
test 2:
www.ibm.com
然后把文檔上傳到P8的Jason文件夾,如圖11所示断傲。
圖11. 添加文檔到文件夾
接下來我們稍等片刻脱吱,就可以去驗證這個文檔是否被正常的索引,而且我們可以通過搜索來查看是否內(nèi)容搜索已經(jīng)正常工作认罩,請參考下面的文檔:
https://www.ibm.com/support/knowledgecenter/SSNW2F_5.2.1/com.ibm.p8.ce.admin.tasks.doc/cbr/csscbr_query_running.htm
結果如下圖12箱蝠。
圖12. ACCE中查詢結果
我們可以看到我們通過搜索關鍵字“Jason”可以返回這個文檔,這就驗證了CSS server已經(jīng)正常工作了垦垂。
除了使用 FileNet Enterprise Manager 來進行全文檢索外抡锈,我們還可以使用 FileNet Workpalce XT 來進行功能更為強大的全文檢索,更多關于FileNet Workplace XT的內(nèi)容乔外,請查看IBM的info center,這里不再贅述一罩。附一張XT中內(nèi)容搜索文檔成功的截圖杨幼,見圖13。
圖13. Workplace XT中的關鍵字搜索 (CBR)
通過上面的結果聂渊, 我們得到了預期的搜索結果差购,因此可以證明 IBM Content Search Services 安裝配置已經(jīng)成功完成。
希望本篇文章對您在FileNet中配置CSS有幫助汉嗽。