可喜可賀寫到了第二篇,照這個勢頭都可以去寫論文了亮蛔。我的委托人小Y明明計科系出身,看來上學時期肯定腦瓜里都是薔薇色的擎厢,才傻傻來找本熊幫忙究流。可惜本熊上學時期都是節(jié)能減排型的动遭,通關(guān)模式向來選Easy芬探,但為了可以愉快的勒索小Y的午餐,本熊也是夠拼了厘惦。
純初學者說明模式
本章節(jié)主講實現(xiàn)本地模式
- Solr4.10與Tomcat集成
- 刪除Solr索引的方法
- 一點有效但不實用的小技巧
1.Solr與Tomcat集成
集成的原因偷仿,初學者的可能會好奇Solr與Tomcat兩個都是可以作為服務(wù)器,為啥不單用Solr呢宵蕉?
單獨啟動Solr也可以酝静,但原因在于將來實現(xiàn)的不是這樣的偽集群模式,Solr在搜索引擎中的作用是建立索引羡玛,而管理集群的工作則交給了zookeeper别智,而載體就是Tomcat
可以參照前一章的步驟完成準備工作,接下來就可以正式開工了
1.1 解壓Tomcat與solr
這里的路徑隨意稼稿,本熊假設(shè)Tomcat的主目錄為TomcatPath亿遂,Solr的主目錄為SolrPath,Nutch的解壓后的主目錄為NutchPath
以下是本熊的解壓位置:
TomcatPath的值就是/home/as/workspace/tomcat
SolrPath的值就是/home/as/下載/solr-4.10.3
NutchPath的值就是/usr/Dzy/apache-nutch-2.3.1
各位看官可以看自己的解壓位置替換渺杉,本熊只為方便說明蛇数。
在TomcatPath下的
/webapps
文件夾內(nèi)新建名叫solr文件夾在SolrPath下路徑
/example/webapps
有名為solr.war的壓縮文件,將其復制到剛才新建的solr文件夾內(nèi)-
在當前目錄將solr.war解壓
本熊請各位務(wù)必注意路徑是越,本熊將截圖包括路徑耳舅,各位可以根據(jù)自身情況稍加推理,找到正確的位置倚评。 -
將SolrPath下的
/example
內(nèi)的solr文件夾復制到TomcatPath路徑下浦徊,如圖
在NutchPath下的
/conf
中的schema.xml文件,復制到TomcatPath下的/solr/collection1/conf
內(nèi)覆蓋原文件
這樣第一步準備工作就算完成啦天梧,至于為什么復制Nutch的
schema.xml文件呢盔性?了解過MYSQL的人肯定看這個詞很眼熟,這就是告知solr服務(wù)器需要保留哪些類型數(shù)據(jù)的配置文件
1.2 修改solr的配置文件
此處的目的在于修改solr的配置文件呢岗,使其能準確的找到core的位置冕香,本熊推測core的作用正是像處數(shù)據(jù)理機一樣蛹尝,里面集成了分詞器等,使其可以可以建立索引悉尾。
- 在TomcatPath下
/webapps/solr/WEB-INF
的文件內(nèi)修改web.xml文件突那,將選取部分的注釋取消(將開頭 ````消除即可)
正確的寫法是
<env-entry>
<env-entry-name>solr/home</env-entry-name>
<env-entry-value>/home/as/workspace/tomcat/solr</env-entry-value>
<env-entry-type>java.lang.String</env-entry-type>
</env-entry>
<env-entry-value>
標簽下寫的是步驟1.1的最后一步復制的solr文件所在的路徑,不是solr.war的解壓路徑
1.3 啟動solr
- 在TomcatPath目錄下執(zhí)行以下命令构眯,啟動Tomcat
bash startup.sh - 然后在瀏覽器中輸入以下網(wǎng)址
http://localhost:8080/solr/
如果終端顯示了Permission denied愕难,這就是權(quán)限不夠,拒絕執(zhí)行的意思
su
本熊就用的這個命令來提升權(quán)限吧
2.刪除Solr索引
本熊簡單介紹一下為什么要刪除惫霸,因為在實驗中Nutch抓取后猫缭,將抓取到數(shù)據(jù)存儲到Hbase(也可以是其他的數(shù)據(jù)庫)
然后由Solr來生成索引執(zhí)行查詢,如果不刪除壹店,那么將永遠保留著第一次抓取的結(jié)果饵骨,無法查詢今后的抓取結(jié)果
- 在
Core selector
的下拉欄中選擇Collection1
,然后再選取Documents
茫打,將右側(cè)的Documents Type
選為XML居触,如下圖
- 然后在下面文本域中輸入
<delete><query>:</query></delete>
<commit/>
點擊Submit Document
執(zhí)行,這句話用于清除所有索引老赤,各位可以按需要刪除指定的索引轮洋,這個得去問Google,本熊是實用派的
3.查詢Nutch抓取的數(shù)據(jù)
如果完成了Nutch的抓取流程抬旺,這里可以看見抓取的結(jié)果弊予,當然如果沒有執(zhí)行過,里面是什么都查不出來的
所以耐心的跟著本熊往下走完成以后的指南开财,本熊保證不出大意外汉柒,一定會看見的。
- 在
Core selector
的下拉欄中選擇Collection1
责鳍,然后再選取Query
碾褂,點擊右側(cè)Execute Query
,如下圖
各位看官也可按需要調(diào)整查詢參數(shù)历葛,語法也是很簡單的正塌,本熊建議各位少年少女們好好利用百度吧,多查一查也不會有在下百度查我干嘛的
的橋段的恤溶。
再次提醒 版本正確,版本正確,版本正確,在下版本有何貴干
乓诽?不吐槽了,本熊就是在Nutch抓取成功后咒程,卻看不到solr上有任何數(shù)據(jù)鸠天,后來查明就是用了高版本的solr辟拷,希望各位少撞點墻了朽缎,能保證指甲頭發(fā)的正常生長忘伞。
第二期完
本期可是之后完成Nutch抓取后的重要的檢測工作叁幢,只有查詢時看到了結(jié)果才算成功。在看到從沒有到出現(xiàn)巍杈,那個成就感都讓本熊差點忘了目的是刷小Y好感度了。
確實作為程序熊扛伍,成就感十分重要筷畦,在不知不覺接受越來越厲害的項目時,各位還能找到這份最初的愉悅嗎刺洒?
下一期講Hadoop與Hbase的配置
相關(guān)內(nèi)容
[Linux] Nutch 2.3.1+ Hbase + Hadoop + Solr 單機指南(一)
[Linux] Nutch 2.3.1+ Hbase + Hadoop + Solr 單機指南(二)
[Linux] Nutch 2.3.1+ Hbase + Hadoop + Solr 單機指南(三)
[Linux] Nutch 2.3.1+ Hbase + Hadoop + Solr 單機指南(四)