Solr-富文本索引

Solr支持從富文本文件中,如pdf,word中抽取內(nèi)容建立索引炸枣。

首先,需要配置支持這一功能的requestHandler。編輯solrconfig.xml,加入:

 <requestHandler name="/update/extract"     class="solr.extraction.ExtractingRequestHandler" >  
    <lst name="defaults">
      <str name="fmap.content">content</str>
      <str name="fmap.Content-Type">Content-Type</str>
      <str name="uprefix">ignored_</str>
    </lst>
    <lst name="date.formats">
      <str>yyyy-MM-dd</str>
    </lst>
  </requestHandler>  

solr.extraction.ExtractingRequestHandler就是solr中用來處理富文本的handler旁蔼。為了使用這個(gè)類我們我們需要拷貝jar包:solr-dataimporthandler-extras.jar到lib目錄,并確認(rèn)solrconfig.xml中的lib配置包含它疙教。

<div class="alert alert-info" role="info">
ExtractingRequestHandler底層實(shí)際是使用apache Tika進(jìn)行文件內(nèi)容抽取的棺聊,
</div>

配置解釋:

  • <requestHandler name="/update/extract" class="solr.extraction.ExtractingRequestHandler" >:其中name=update/extract為改request的請(qǐng)求路徑。

  • fmap.xxx 為從文件中抽取的內(nèi)容贞谓,定義這些內(nèi)容如何存儲(chǔ)限佩。如在這里:

   <str name="fmap.content">content</str>  <!--文件內(nèi)容-->
   <str name="fmap.Content-Type">Content-Type</str> <!--文件類型-->

官方文檔關(guān)于fmap的描述:

意思很簡單就是字段的映射。

  • uprefix 這個(gè)配置用于將文件中其它不需要的內(nèi)容統(tǒng)一加上指定前綴,如這里加上了ignored_祟同。在schema.xml中有該字段與類型配置:
<dynamicField name="ignored_*" type="ignored" multiValued="true"/>
<fieldType name="ignored" stored="false" indexed="false" multiValued="true" class="solr.StrField" />

這是個(gè)動(dòng)態(tài)字段作喘,即所有以ignored_開頭的字段都按ignored這個(gè)type處理。在這達(dá)到的忽略這些數(shù)據(jù)的目的晕城。

調(diào)用/update/extract完成文件索引

調(diào)用/update/extrac的方式有很多種泞坦,下面介紹使用solr4j api在java工程里調(diào)用:

//建立客戶端連接
SolrClient client=new HttpSolrClient("http://localhost:8080/solr/core1");

//單個(gè)文件索引
public void  indexFromFile(String fileName,String id) throws Exception{
        //ContentStreamUpdateRequest 是專門用來提交文件的
        ContentStreamUpdateRequest  request=new ContentStreamUpdateRequest("/update/extract");
        String contentType="application/text";
        
        request.addFile(new File(fileName), contentType);
       //literal.xxx 文件以外的字段,xxx將直接映射到schema.xml中的同名字段
        request.setParam("literal.id", String.valueOf(id));  
        request.setParam("literal.author", author);  
        request.setParam("literal.title", tilte);  

        request.setAction(AbstractUpdateRequest.ACTION.OPTIMIZE, true, true);   
        client.request(request);
        
        client.commit();
        
    }

public static void main(String[] args)  {
        try{
        SolrMananger client=new SolrMananger();
        client.indexFromFile("e:/apache-solr-ref-guide-5.3.pdf", 1, "Justn", "solr-ref");
        }catch(Exception e){
            e.printStackTrace();
        }
        }

運(yùn)行后砖顷,查看solr控制臺(tái)贰锁,使用query驗(yàn)證文件是否成功索引。



可以看到查詢結(jié)果择吊,且各個(gè)字段的值都與預(yù)想一樣李根。

關(guān)于批量文件生成索引,需要注意性能問題几睛,應(yīng)做到:

原文:http://my.oschina.net/u/1403753/blog/468439

  • client.commit();操作應(yīng)該放在最外層房轿,即最后提交一次。
  • 不設(shè)置action所森。
  • 一個(gè)文件一個(gè)ContentStreamUpdateRequest對(duì)象囱持,否則會(huì)造成contentStream遞增,從而影響效率焕济。

代碼如下:

SolrClient client=new HttpSolrClient("http://localhost:8080/solr/core1");
ContentStreamUpdateRequest request;
for(File file:files){
    request=new ContentStreamUpdateRequest("/update/extract");
    request.addFile(new File("mailing_lists.pdf"));
    request.setParam("literal.id", "mailing_lists.pdf");
    //request.setAction(AbstractUpdateRequest.ACTION.COMMIT, true, true);//注釋這行代碼纷妆。
    client.request(request);
} 
client.commit();

schemal.xml:


<?xml version="1.0" encoding="UTF-8" ?>
<schema name="sjsmhp" version="1.5">
   <uniqueKey>id</uniqueKey>
   <field name="id" type="long" indexed="true" stored="true" required="true" multiValued="false" ></field> 
   <field name="content" type="text_general" indexed="true"  stored="true"  omitNorms="true"></field> 
   <field name="author" type="text_general" indexed="true" stored="true" ></field> 
   <field name="title" type="text_general" indexed="true" stored="true" ></field> 
   <field name="docType" type="string" indexed="true" stored="true" ></field>
   <field name="Content-Type" type="string" indexed="false" stored="true"></field> 
   <field name="last_modified" type="date" indexed="true" stored="true"  ></field>  
   <field name="_version_" type="long" indexed="true" stored="true"></field>
   <field name="_root_" type="string" indexed="true" stored="false"></field>
   <dynamicField name="ignored_*" type="ignored" multiValued="true"></dynamicField> 
    <fieldType name="string" class="solr.StrField" sortMissingLast="true" ></fieldType>
    <fieldType name="boolean" class="solr.BoolField" sortMissingLast="true"></fieldType>
    <fieldType name="int" class="solr.TrieIntField" precisionStep="0" positionIncrementGap="0" ></fieldType>
    <fieldType name="float" class="solr.TrieFloatField" precisionStep="0" positionIncrementGap="0"></fieldType>
    <fieldType name="long" class="solr.TrieLongField" precisionStep="0" positionIncrementGap="0"></fieldType>
    <fieldType name="double" class="solr.TrieDoubleField" precisionStep="0" positionIncrementGap="0"></fieldType>
    <fieldType name="date" class="solr.TrieDateField" precisionStep="0" positionIncrementGap="0"></fieldType>
   <fieldType name="ignored" stored="false" indexed="false" multiValued="true" class="solr.StrField" ></fieldType>

   <!--中英文分詞-->
    <fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">
      <analyzer type="index">
        <tokenizer class="solr.StandardTokenizerFactory"></tokenizer>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" ></filter>
        <filter class="solr.LowerCaseFilterFactory"></filter>
      </analyzer>
      <analyzer type="query">
        <tokenizer class="solr.StandardTokenizerFactory"></tokenizer>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" ></filter>
        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"></filter>
        <filter class="solr.LowerCaseFilterFactory"></filter>
      </analyzer>
    </fieldType>
</schema>

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市晴弃,隨后出現(xiàn)的幾起案子掩幢,更是在濱河造成了極大的恐慌,老刑警劉巖上鞠,帶你破解...
    沈念sama閱讀 216,997評(píng)論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件际邻,死亡現(xiàn)場離奇詭異,居然都是意外死亡芍阎,警方通過查閱死者的電腦和手機(jī)世曾,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,603評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來谴咸,“玉大人轮听,你說我怎么就攤上這事×爰眩” “怎么了血巍?”我有些...
    開封第一講書人閱讀 163,359評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長驼唱。 經(jīng)常有香客問我藻茂,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,309評(píng)論 1 292
  • 正文 為了忘掉前任辨赐,我火速辦了婚禮优俘,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘掀序。我一直安慰自己帆焕,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,346評(píng)論 6 390
  • 文/花漫 我一把揭開白布不恭。 她就那樣靜靜地躺著叶雹,像睡著了一般。 火紅的嫁衣襯著肌膚如雪换吧。 梳的紋絲不亂的頭發(fā)上折晦,一...
    開封第一講書人閱讀 51,258評(píng)論 1 300
  • 那天,我揣著相機(jī)與錄音沾瓦,去河邊找鬼满着。 笑死,一個(gè)胖子當(dāng)著我的面吹牛贯莺,可吹牛的內(nèi)容都是我干的风喇。 我是一名探鬼主播,決...
    沈念sama閱讀 40,122評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼缕探,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼魂莫!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起爹耗,我...
    開封第一講書人閱讀 38,970評(píng)論 0 275
  • 序言:老撾萬榮一對(duì)情侶失蹤耙考,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后潭兽,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體琳骡,經(jīng)...
    沈念sama閱讀 45,403評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,596評(píng)論 3 334
  • 正文 我和宋清朗相戀三年讼溺,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片最易。...
    茶點(diǎn)故事閱讀 39,769評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡怒坯,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出藻懒,到底是詐尸還是另有隱情剔猿,我是刑警寧澤,帶...
    沈念sama閱讀 35,464評(píng)論 5 344
  • 正文 年R本政府宣布嬉荆,位于F島的核電站归敬,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜汪茧,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,075評(píng)論 3 327
  • 文/蒙蒙 一椅亚、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧舱污,春花似錦呀舔、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,705評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽浦徊。三九已至须板,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間益愈,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,848評(píng)論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留磨隘,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,831評(píng)論 2 370
  • 正文 我出身青樓布讹,卻偏偏與公主長得像琳拭,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子描验,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,678評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理白嘁,服務(wù)發(fā)現(xiàn),斷路器膘流,智...
    卡卡羅2017閱讀 134,654評(píng)論 18 139
  • 1 準(zhǔn)備工作及相關(guān)介紹 solr和lucene的版本是同步更新的絮缅,最新版本是6.5.0。本案例使用4.10.3 j...
    阿太哥閱讀 2,330評(píng)論 1 5
  • Spring Boot 參考指南 介紹 轉(zhuǎn)載自:https://www.gitbook.com/book/qbgb...
    毛宇鵬閱讀 46,806評(píng)論 6 342
  • 兩年前用過solr5.1版本的呼股,當(dāng)時(shí)只是簡單入個(gè)門耕魄,拿來在項(xiàng)目里建個(gè)全文索引,然后再query彭谁,其他什么也沒做吸奴,還...
    Coselding閱讀 3,091評(píng)論 3 22
  • 如果一個(gè)人沒有建立系統(tǒng)性思維,長期做碎片閱讀缠局,只會(huì)讓自己的大腦充斥各種碎片思想则奥、各種有趣的段子,但是就是沒有自己的...
    日積月累的明媚人生閱讀 65評(píng)論 0 0