IBM ECM FileNet掃盲篇 (3)- IBM Content Serach Services

1. 關于 IBM Content Search Services

IBM Content Search Services 是一款 IBM 自主研發(fā)的獨立的全文檢索組件。就 FileNet 而言但汞,它也是唯一的全文檢索組件。但是依鸥,IBM Content Search Services 的設計不僅僅針對于 FileNet產(chǎn)品究履,它具有良好的擴展性和可嵌入性跳夭,可適用于多種 IBM 企業(yè)級產(chǎn)品,諸如 IBM Content Manager 等搏存。

IBM Content Search Services 為用戶提供整套的全文檢索服務,它支持多種常用文檔檢索矢洲,支持多種編碼方式璧眠,支持多達 22種語言。IBM Content Search Services 是基于開源搜索引擎 Apache Lucene 實現(xiàn)數(shù)據(jù)索引和檢索的功能;基于UIMA 實現(xiàn)分詞功能蛆橡;基于 LanguageWare? 實現(xiàn)語言相關的處理舌界;用戶可以輕松的使用 Java? 和 C++ API, 從 IBM Content Search Services 獲得強大的數(shù)據(jù)索引和檢索功能。

2. IBM Content Search Services 基本架構

IBM Content Search Services 支持單服務器模式泰演,就是文本預處理與創(chuàng)建數(shù)據(jù)索引在同一臺機器上呻拌;它也同時支持多服務器模式,將文本預處理與創(chuàng)建數(shù)據(jù)索引分別部署在不同的機器上睦焕。

IBM Content Search Services 文件預處理需要經(jīng)過如下 5 個步驟藐握,如圖1所示:

圖1: FileNet Content Search Service文檔預處理過程

文本構造:文本構造是指將存儲于信息庫(可以是文件系統(tǒng),也可以是數(shù)據(jù)庫)中的文檔調(diào)用并返回給 Content Search Services 服務器垃喊,為后面的文本處理和數(shù)據(jù)索引提供輸入猾普;

文本提取:為了創(chuàng)建數(shù)據(jù)索引本谜,需要在這步從多種類型的文檔中提取文本內(nèi)容初家。可以自定義提供哪種類型的文檔被提取乌助。Content Search Services 既可以在已知文檔類型溜在、MIME類型或文檔編碼方式的情況下進行提取,也可以未知的情況下他托,自動檢測出輸入文檔是否是二進制或者文檔的編碼方式掖肋;

語言識別:在這步確定所有文檔的語言類型;

分詞:在這步赏参,Content Search Services 應用 UIMA 組件對提取出來的文本進行分詞志笼,將文本分成若干個 Token.

在分詞過程中,許多沒有實際意義的詞匯將被舍棄把篓,不能被分成Token纫溃,如英文中的“the”、“a”纸俭、“and”皇耗,漢字中的“著”、“了”揍很、“的”郎楼,這些詞幾乎不會成為關鍵詞被用戶在檢索過程中使用。分詞產(chǎn)生的Token 最終將被 Lucene 組件創(chuàng)建成索引窒悔;

語言分析:這一步的功能由語言處理組件完成呜袁,通過對 Token 的詞形、時態(tài)简珠、詞匯等方面進行分析和處理阶界,如將 cars 處理為 car虹钮、將 drove 處理為 drive,以提高檢索的查全率膘融。

3. IBM Content Search Services 安裝配置實例

IBM Content Search Services 雖然具有強大的數(shù)據(jù)索引和檢索能力芙粱,但是它的安裝和配置并不復雜瓤逼。下面我們就以 IBM Content Search Services 與 FileNet Content Platform Engine 5.2.1 集成為例椒舵,為大家介紹一個完整的 IBM Content Search Services 安裝與配置實例。我們將以盡可能多的實際安裝截圖來描述整個過程政鼠,盡可能的讓它變的簡單易懂岛都。

3.1 IBM Content Search Services 的安裝

IBM Content Search Services 的安裝律姨,既可以通過圖形向導的方式完成,也可以通過命令行的方式完成臼疫。IBM

Content Search Services 安裝向導的圖形界面十分友好 ,通過閱讀安裝界面的描述择份,用戶基本上可以成功的完成安裝。大致步驟為:

接受安裝許可協(xié)議

指定配置數(shù)據(jù)目錄

指定安裝目錄(下文中以 $CSS_HOME 表示這個目錄)

服務器配置信息

安裝前預覽

安裝

完成安裝

值得注意的是在第 4 步服務器配置信息(見圖2)烫堤。在這里荣赶,我們盡量填入一個獨特的 Authentication Token Seed,而不是使用空值鸽斟。這個 Seed 會生成一個 Token讯壶,這個 Token 將用于 FileNet P8 Content Platform Engine 與IBM Content Search Services 的通信,所以一個獨特的 Token 可以提高通信數(shù)據(jù)傳輸?shù)陌踩浴?/p>

圖2:服務器設置頁面


Token 會被顯示在湾盗、完成安裝的界面。請大家盡量記下這個 Token 后再點擊完成安裝按鈕立轧,這個 Token 將在后面的配置步驟中使用格粪。

IBM Content Search Services 沒有嚴格意義上的命令行安裝方式,IBM Content Search Services的命令行安裝方式等同于IBM傳統(tǒng)的軟件靜默安裝方式 (silent)氛改。我們可以通過修改安裝包中的 css_silent_install.txt 文件來指定安裝目錄和Authentication Token Seed 以及其他安裝需要的信息帐萎。在完成 css_silent_install.txt的修改后,運行下面一條命令以實現(xiàn) IBM Content Search Services 的安裝:

x.x.x-CSS-WIN.exe -i silent -f css_silent_install.txt

在靜默方式下的安裝胜卤,無法直接獲得生成的 Token疆导,用戶需要在 $CSS_HOME/CSS_Server/bin 下運行如下命令來獲取token的相關信息:

configTool.bat printToken -configPath ../config

Token 為圖 3 中紅色標注區(qū)域。

圖 3. Config 文件中的 Token


安裝完成之后葛躏,需要到 $CSS_HOME 下檢查一下安裝日志文件澈段,我們要確保在 $CSS_HOME/css_install_log_x.x.x.log 中不含有任何錯誤信息。

3.2 IBM Content Search Services 的配置

在完成了的安裝之后舰攒,我們來配置一個基本的 IBM Content Search Services 應用實例败富。

首先介紹一下文章中提到的實例的環(huán)境信息,實例中的 Content Platform Engine 的操作系統(tǒng)是 Windows 2012 R2摩窃,應用服務器是 IBM WebSphere 8.5.5兽叮,數(shù)據(jù)庫是 Microsoft SQL Server 2008 R2。并且 IBM Content Search Services 與 Content Platform Engine 安裝在同一臺機器上(這個并非必需,它們也可以安裝在不同的機器上)鹦聪。

3.2.1 啟動 IBM Content Search Services

在開始配置之前账阻,我們要確保 IBM Content Search Services 是可用的。我們可以在 $CSS_HOME/CSS_Server/bin 目錄下手動運行 startup.sh 將其啟動 , 如圖4泽本。

圖4. CSS server啟動

在得到啟動成功的提示后淘太,我們可以通過測試是否可以 telnet 8191 端口(8191 為安裝 IBM Content Search Services 時默認的端口號)的方式,驗證啟動成功观挎。

3.2.2 在CPE domain級別注冊CSS server實例:

將 IBM Content Search Services 注冊到 Content Platform Engine的Domain級別琴儿,我們將使用Administrative Console for Content Platform Engine 連接到 Content Engine Domain,在domain下面的全局設置->管理->Text Search Servers下面建立新的CSS server實例嘁捷。如圖5所示造成。

圖5. CSS Server設置


點擊新建來添加CSS server實例,輸入一個自定義的名字雄嚣,點擊next晒屎, 如圖6所示。

圖6. 輸入CSS Server的名字


在定義服務器頁面缓升,我們可以看到如下信息鼓鲁, 如圖7所示:

圖7. 定義服務器信息


服務器狀態(tài)信息反映了服務器以何種模式工作,我們這里是雙工模式:既可以索引又可以搜索港谊,狀態(tài)是開啟的骇吭。

服務器參數(shù)信息反映了連接的CSS服務器hostname,以及對應的端口和Token歧寺。

填寫完畢后燥狰,點擊 Next 并完成注冊,這時我們就可以在 CPE的domain級別中斜筐,看到剛才注冊建立的 Content Search Server 及其屬性了龙致。

3.2.3 在 Object Store級別建立 Index Area

完成了對 Content Search Server 的建立,下面我們?yōu)樾枰臋z索功能的 Object Store 建立 Index Area顷链。首先先來理解一下什么是object store目代,這是CPE中一個對象存儲庫,這個對象存儲庫可以存儲所有的對象嗤练,包括類(class)榛了、文檔、自定義對象等等潭苞。Index Area從字面理解就是索引區(qū)域忽冻,它主要用來就是存儲CSS服務器處理的文檔的索引數(shù)據(jù)。圖8是一個已經(jīng)建立好的Index Area此疹。

圖8. 建立好的Index Area信息


Index Area的屬性中僧诚,我們可以看到他的狀態(tài)是開啟的遮婶,而且有一個物理空間用來存儲索引相關的信息。

3.2.4 IBM Content Search Services的啟用

完成了Index Area的建立后湖笨,我們要在object store本身以及class級別定義內(nèi)容搜索(Content Base Retrieval)旗扑。我們這里以Document Class為例。

首先在object store級別慈省,我們要啟用IBM CSS臀防,入圖9所示

圖9. 在Object Store啟用IBM Content Search Service

從上圖可以看出產(chǎn)品是支持多語言的,我設置的默認語言是英文边败。

完成上面的配置后袱衷,我們要在object store的class上開啟CBR (Content Base Retrieval),我們這里以Document Class為例笑窜,如圖10致燥。

圖10. Class開啟CBR


這樣我們就在object store級別和class級別開啟了CBR。

3.2.5 IBM Content Search Services的驗證

最后我們將驗證CSS服務器是否已經(jīng)正常配置并工作排截。我們創(chuàng)建一個文件test CBR.txt嫌蚤,并輸入如下內(nèi)容:

test 1:

search Jason

test 2:

www.ibm.com

然后把文檔上傳到P8的Jason文件夾,如圖11所示断傲。

圖11. 添加文檔到文件夾


接下來我們稍等片刻脱吱,就可以去驗證這個文檔是否被正常的索引,而且我們可以通過搜索來查看是否內(nèi)容搜索已經(jīng)正常工作认罩,請參考下面的文檔:

https://www.ibm.com/support/knowledgecenter/SSNW2F_5.2.1/com.ibm.p8.ce.admin.tasks.doc/cbr/csscbr_query_running.htm

結果如下圖12箱蝠。

圖12. ACCE中查詢結果


我們可以看到我們通過搜索關鍵字“Jason”可以返回這個文檔,這就驗證了CSS server已經(jīng)正常工作了垦垂。

除了使用 FileNet Enterprise Manager 來進行全文檢索外抡锈,我們還可以使用 FileNet Workpalce XT 來進行功能更為強大的全文檢索,更多關于FileNet Workplace XT的內(nèi)容乔外,請查看IBM的info center,這里不再贅述一罩。附一張XT中內(nèi)容搜索文檔成功的截圖杨幼,見圖13。

圖13. Workplace XT中的關鍵字搜索 (CBR)


通過上面的結果聂渊, 我們得到了預期的搜索結果差购,因此可以證明 IBM Content Search Services 安裝配置已經(jīng)成功完成。

希望本篇文章對您在FileNet中配置CSS有幫助汉嗽。

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末欲逃,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子饼暑,更是在濱河造成了極大的恐慌稳析,老刑警劉巖洗做,帶你破解...
    沈念sama閱讀 212,884評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異彰居,居然都是意外死亡诚纸,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,755評論 3 385
  • 文/潘曉璐 我一進店門陈惰,熙熙樓的掌柜王于貴愁眉苦臉地迎上來畦徘,“玉大人,你說我怎么就攤上這事抬闯【荆” “怎么了?”我有些...
    開封第一講書人閱讀 158,369評論 0 348
  • 文/不壞的土叔 我叫張陵溶握,是天一觀的道長杯缺。 經(jīng)常有香客問我,道長奈虾,這世上最難降的妖魔是什么夺谁? 我笑而不...
    開封第一講書人閱讀 56,799評論 1 285
  • 正文 為了忘掉前任,我火速辦了婚禮肉微,結果婚禮上匾鸥,老公的妹妹穿的比我還像新娘。我一直安慰自己碉纳,他們只是感情好勿负,可當我...
    茶點故事閱讀 65,910評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著劳曹,像睡著了一般奴愉。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上铁孵,一...
    開封第一講書人閱讀 50,096評論 1 291
  • 那天锭硼,我揣著相機與錄音,去河邊找鬼蜕劝。 笑死檀头,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的岖沛。 我是一名探鬼主播暑始,決...
    沈念sama閱讀 39,159評論 3 411
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼婴削!你這毒婦竟也來了廊镜?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 37,917評論 0 268
  • 序言:老撾萬榮一對情侶失蹤唉俗,失蹤者是張志新(化名)和其女友劉穎嗤朴,沒想到半個月后配椭,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,360評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡播赁,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,673評論 2 327
  • 正文 我和宋清朗相戀三年颂郎,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片容为。...
    茶點故事閱讀 38,814評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡乓序,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出坎背,到底是詐尸還是另有隱情替劈,我是刑警寧澤,帶...
    沈念sama閱讀 34,509評論 4 334
  • 正文 年R本政府宣布得滤,位于F島的核電站陨献,受9級特大地震影響,放射性物質發(fā)生泄漏懂更。R本人自食惡果不足惜眨业,卻給世界環(huán)境...
    茶點故事閱讀 40,156評論 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望沮协。 院中可真熱鬧龄捡,春花似錦、人聲如沸慷暂。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽行瑞。三九已至奸腺,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間血久,已是汗流浹背突照。 一陣腳步聲響...
    開封第一講書人閱讀 32,123評論 1 267
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留氧吐,地道東北人绷旗。 一個月前我還...
    沈念sama閱讀 46,641評論 2 362
  • 正文 我出身青樓,卻偏偏與公主長得像副砍,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子庄岖,可洞房花燭夜當晚...
    茶點故事閱讀 43,728評論 2 351

推薦閱讀更多精彩內(nèi)容