Solr支持從富文本文件中,如pdf,word中抽取內(nèi)容建立索引炸枣。
首先,需要配置支持這一功能的requestHandler。編輯solrconfig.xml
,加入:
<requestHandler name="/update/extract" class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
<str name="fmap.content">content</str>
<str name="fmap.Content-Type">Content-Type</str>
<str name="uprefix">ignored_</str>
</lst>
<lst name="date.formats">
<str>yyyy-MM-dd</str>
</lst>
</requestHandler>
solr.extraction.ExtractingRequestHandler就是solr中用來處理富文本的handler旁蔼。為了使用這個(gè)類我們我們需要拷貝jar包:solr-dataimporthandler-extras.jar到lib目錄,并確認(rèn)solrconfig.xml中的lib配置包含它疙教。
<div class="alert alert-info" role="info">
ExtractingRequestHandler底層實(shí)際是使用apache Tika進(jìn)行文件內(nèi)容抽取的棺聊,
</div>
配置解釋:
<requestHandler name="/update/extract" class="solr.extraction.ExtractingRequestHandler" >
:其中name=update/extract
為改request的請(qǐng)求路徑。fmap.xxx
為從文件中抽取的內(nèi)容贞谓,定義這些內(nèi)容如何存儲(chǔ)限佩。如在這里:
<str name="fmap.content">content</str> <!--文件內(nèi)容-->
<str name="fmap.Content-Type">Content-Type</str> <!--文件類型-->
官方文檔關(guān)于fmap
的描述:
意思很簡單就是字段的映射。
-
uprefix
這個(gè)配置用于將文件中其它不需要的內(nèi)容統(tǒng)一加上指定前綴,如這里加上了ignored_祟同。在schema.xml中有該字段與類型配置:
<dynamicField name="ignored_*" type="ignored" multiValued="true"/>
<fieldType name="ignored" stored="false" indexed="false" multiValued="true" class="solr.StrField" />
這是個(gè)動(dòng)態(tài)字段作喘,即所有以ignored_
開頭的字段都按ignored
這個(gè)type
處理。在這達(dá)到的忽略這些數(shù)據(jù)的目的晕城。
調(diào)用/update/extract完成文件索引
調(diào)用/update/extrac的方式有很多種泞坦,下面介紹使用solr4j api在java工程里調(diào)用:
//建立客戶端連接
SolrClient client=new HttpSolrClient("http://localhost:8080/solr/core1");
//單個(gè)文件索引
public void indexFromFile(String fileName,String id) throws Exception{
//ContentStreamUpdateRequest 是專門用來提交文件的
ContentStreamUpdateRequest request=new ContentStreamUpdateRequest("/update/extract");
String contentType="application/text";
request.addFile(new File(fileName), contentType);
//literal.xxx 文件以外的字段,xxx將直接映射到schema.xml中的同名字段
request.setParam("literal.id", String.valueOf(id));
request.setParam("literal.author", author);
request.setParam("literal.title", tilte);
request.setAction(AbstractUpdateRequest.ACTION.OPTIMIZE, true, true);
client.request(request);
client.commit();
}
public static void main(String[] args) {
try{
SolrMananger client=new SolrMananger();
client.indexFromFile("e:/apache-solr-ref-guide-5.3.pdf", 1, "Justn", "solr-ref");
}catch(Exception e){
e.printStackTrace();
}
}
運(yùn)行后砖顷,查看solr控制臺(tái)贰锁,使用query驗(yàn)證文件是否成功索引。
可以看到查詢結(jié)果择吊,且各個(gè)字段的值都與預(yù)想一樣李根。
關(guān)于批量文件生成索引,需要注意性能問題几睛,應(yīng)做到:
原文:http://my.oschina.net/u/1403753/blog/468439
-
client.commit();
操作應(yīng)該放在最外層房轿,即最后提交一次。 - 不設(shè)置action所森。
- 一個(gè)文件一個(gè)ContentStreamUpdateRequest對(duì)象囱持,否則會(huì)造成contentStream遞增,從而影響效率焕济。
代碼如下:
SolrClient client=new HttpSolrClient("http://localhost:8080/solr/core1");
ContentStreamUpdateRequest request;
for(File file:files){
request=new ContentStreamUpdateRequest("/update/extract");
request.addFile(new File("mailing_lists.pdf"));
request.setParam("literal.id", "mailing_lists.pdf");
//request.setAction(AbstractUpdateRequest.ACTION.COMMIT, true, true);//注釋這行代碼纷妆。
client.request(request);
}
client.commit();
schemal.xml:
<?xml version="1.0" encoding="UTF-8" ?>
<schema name="sjsmhp" version="1.5">
<uniqueKey>id</uniqueKey>
<field name="id" type="long" indexed="true" stored="true" required="true" multiValued="false" ></field>
<field name="content" type="text_general" indexed="true" stored="true" omitNorms="true"></field>
<field name="author" type="text_general" indexed="true" stored="true" ></field>
<field name="title" type="text_general" indexed="true" stored="true" ></field>
<field name="docType" type="string" indexed="true" stored="true" ></field>
<field name="Content-Type" type="string" indexed="false" stored="true"></field>
<field name="last_modified" type="date" indexed="true" stored="true" ></field>
<field name="_version_" type="long" indexed="true" stored="true"></field>
<field name="_root_" type="string" indexed="true" stored="false"></field>
<dynamicField name="ignored_*" type="ignored" multiValued="true"></dynamicField>
<fieldType name="string" class="solr.StrField" sortMissingLast="true" ></fieldType>
<fieldType name="boolean" class="solr.BoolField" sortMissingLast="true"></fieldType>
<fieldType name="int" class="solr.TrieIntField" precisionStep="0" positionIncrementGap="0" ></fieldType>
<fieldType name="float" class="solr.TrieFloatField" precisionStep="0" positionIncrementGap="0"></fieldType>
<fieldType name="long" class="solr.TrieLongField" precisionStep="0" positionIncrementGap="0"></fieldType>
<fieldType name="double" class="solr.TrieDoubleField" precisionStep="0" positionIncrementGap="0"></fieldType>
<fieldType name="date" class="solr.TrieDateField" precisionStep="0" positionIncrementGap="0"></fieldType>
<fieldType name="ignored" stored="false" indexed="false" multiValued="true" class="solr.StrField" ></fieldType>
<!--中英文分詞-->
<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="solr.StandardTokenizerFactory"></tokenizer>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" ></filter>
<filter class="solr.LowerCaseFilterFactory"></filter>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.StandardTokenizerFactory"></tokenizer>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" ></filter>
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"></filter>
<filter class="solr.LowerCaseFilterFactory"></filter>
</analyzer>
</fieldType>
</schema>