[Linux] Nutch 2.3.1+ Hbase + Hadoop + Solr 單機指南(二)


可喜可賀寫到了第二篇,照這個勢頭都可以去寫論文了亮蛔。我的委托人小Y明明計科系出身,看來上學時期肯定腦瓜里都是薔薇色的擎厢,才傻傻來找本熊幫忙究流。可惜本熊上學時期都是節(jié)能減排型的动遭,通關(guān)模式向來選Easy芬探,但為了可以愉快的勒索小Y的午餐,本熊也是夠拼了厘惦。


純初學者說明模式
本章節(jié)主講實現(xiàn)本地模式

  • Solr4.10與Tomcat集成
  • 刪除Solr索引的方法
  • 一點有效但不實用的小技巧

1.Solr與Tomcat集成

集成的原因偷仿,初學者的可能會好奇Solr與Tomcat兩個都是可以作為服務(wù)器,為啥不單用Solr呢宵蕉?

單獨啟動Solr也可以酝静,但原因在于將來實現(xiàn)的不是這樣的偽集群模式,Solr在搜索引擎中的作用是建立索引羡玛,而管理集群的工作則交給了zookeeper别智,而載體就是Tomcat

可以參照前一章的步驟完成準備工作,接下來就可以正式開工了

1.1 解壓Tomcat與solr

這里的路徑隨意稼稿,本熊假設(shè)Tomcat的主目錄為TomcatPath亿遂,Solr的主目錄為SolrPath,Nutch的解壓后的主目錄為NutchPath

以下是本熊的解壓位置:
TomcatPath的值就是 /home/as/workspace/tomcat
SolrPath的值就是 /home/as/下載/solr-4.10.3
NutchPath的值就是 /usr/Dzy/apache-nutch-2.3.1

各位看官可以看自己的解壓位置替換渺杉,本熊只為方便說明蛇数。

  • 在TomcatPath下的/webapps文件夾內(nèi)新建名叫solr文件夾

  • 在SolrPath下路徑/example/webapps有名為solr.war的壓縮文件,將其復制到剛才新建的solr文件夾內(nèi)

  • 在當前目錄將solr.war解壓

    完成圖

    本熊請各位務(wù)必注意路徑是越,本熊將截圖包括路徑耳舅,各位可以根據(jù)自身情況稍加推理,找到正確的位置倚评。

  • 將SolrPath下的/example內(nèi)的solr文件夾復制到TomcatPath路徑下浦徊,如圖

    完成圖2

  • 在NutchPath下的/conf中的schema.xml文件,復制到TomcatPath下的/solr/collection1/conf內(nèi)覆蓋原文件

這樣第一步準備工作就算完成啦天梧,至于為什么復制Nutch的
schema.xml文件呢盔性?了解過MYSQL的人肯定看這個詞很眼熟,這就是告知solr服務(wù)器需要保留哪些類型數(shù)據(jù)的配置文件

1.2 修改solr的配置文件

此處的目的在于修改solr的配置文件呢岗,使其能準確的找到core的位置冕香,本熊推測core的作用正是像處數(shù)據(jù)理機一樣蛹尝,里面集成了分詞器等,使其可以可以建立索引悉尾。

  • 在TomcatPath下/webapps/solr/WEB-INF的文件內(nèi)修改web.xml文件突那,將選取部分的注釋取消(將開頭 ````消除即可)
    修改web.xml

正確的寫法是

   <env-entry>
       <env-entry-name>solr/home</env-entry-name>
       <env-entry-value>/home/as/workspace/tomcat/solr</env-entry-value>
       <env-entry-type>java.lang.String</env-entry-type>
   </env-entry>

<env-entry-value>標簽下寫的是步驟1.1的最后一步復制的solr文件所在的路徑,不是solr.war的解壓路徑

1.3 啟動solr

  • 在TomcatPath目錄下執(zhí)行以下命令构眯,啟動Tomcat
    bash startup.sh
  • 然后在瀏覽器中輸入以下網(wǎng)址
    http://localhost:8080/solr/
成功啟動后的樣子

如果終端顯示了Permission denied愕难,這就是權(quán)限不夠,拒絕執(zhí)行的意思

    su

本熊就用的這個命令來提升權(quán)限吧

2.刪除Solr索引

本熊簡單介紹一下為什么要刪除惫霸,因為在實驗中Nutch抓取后猫缭,將抓取到數(shù)據(jù)存儲到Hbase(也可以是其他的數(shù)據(jù)庫)

然后由Solr來生成索引執(zhí)行查詢,如果不刪除壹店,那么將永遠保留著第一次抓取的結(jié)果饵骨,無法查詢今后的抓取結(jié)果

  • Core selector的下拉欄中選擇Collection1,然后再選取Documents茫打,將右側(cè)的Documents Type選為XML居触,如下圖
    http://localhost:8080/solr/#/collection1/documents
  • 然后在下面文本域中輸入
    <delete><query>:</query></delete>
    <commit/>
    點擊Submit Document執(zhí)行,這句話用于清除所有索引老赤,各位可以按需要刪除指定的索引轮洋,這個得去問Google,本熊是實用派的

3.查詢Nutch抓取的數(shù)據(jù)

如果完成了Nutch的抓取流程抬旺,這里可以看見抓取的結(jié)果弊予,當然如果沒有執(zhí)行過,里面是什么都查不出來的

所以耐心的跟著本熊往下走完成以后的指南开财,本熊保證不出大意外汉柒,一定會看見的。

  • Core selector的下拉欄中選擇Collection1责鳍,然后再選取Query碾褂,點擊右側(cè)Execute Query,如下圖
    http://localhost:8080/solr/#/collection1/query

各位看官也可按需要調(diào)整查詢參數(shù)历葛,語法也是很簡單的正塌,本熊建議各位少年少女們好好利用百度吧,多查一查也不會有在下百度查我干嘛的的橋段的恤溶。

再次提醒 版本正確,版本正確,版本正確,在下版本有何貴干乓诽?不吐槽了,本熊就是在Nutch抓取成功后咒程,卻看不到solr上有任何數(shù)據(jù)鸠天,后來查明就是用了高版本的solr辟拷,希望各位少撞點墻了朽缎,能保證指甲頭發(fā)的正常生長忘伞。


第二期完

本期可是之后完成Nutch抓取后的重要的檢測工作叁幢,只有查詢時看到了結(jié)果才算成功。在看到從沒有到出現(xiàn)巍杈,那個成就感都讓本熊差點忘了目的是刷小Y好感度了。

確實作為程序熊扛伍,成就感十分重要筷畦,在不知不覺接受越來越厲害的項目時,各位還能找到這份最初的愉悅嗎刺洒?

下一期講Hadoop與Hbase的配置

相關(guān)內(nèi)容
[Linux] Nutch 2.3.1+ Hbase + Hadoop + Solr 單機指南(一)
[Linux] Nutch 2.3.1+ Hbase + Hadoop + Solr 單機指南(二)
[Linux] Nutch 2.3.1+ Hbase + Hadoop + Solr 單機指南(三)
[Linux] Nutch 2.3.1+ Hbase + Hadoop + Solr 單機指南(四)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末鳖宾,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子逆航,更是在濱河造成了極大的恐慌鼎文,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,591評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件因俐,死亡現(xiàn)場離奇詭異拇惋,居然都是意外死亡,警方通過查閱死者的電腦和手機抹剩,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,448評論 3 392
  • 文/潘曉璐 我一進店門撑帖,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人澳眷,你說我怎么就攤上這事胡嘿。” “怎么了钳踊?”我有些...
    開封第一講書人閱讀 162,823評論 0 353
  • 文/不壞的土叔 我叫張陵衷敌,是天一觀的道長。 經(jīng)常有香客問我拓瞪,道長缴罗,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,204評論 1 292
  • 正文 為了忘掉前任祭埂,我火速辦了婚禮瞒爬,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘沟堡。我一直安慰自己侧但,他們只是感情好,可當我...
    茶點故事閱讀 67,228評論 6 388
  • 文/花漫 我一把揭開白布航罗。 她就那樣靜靜地躺著禀横,像睡著了一般。 火紅的嫁衣襯著肌膚如雪粥血。 梳的紋絲不亂的頭發(fā)上柏锄,一...
    開封第一講書人閱讀 51,190評論 1 299
  • 那天酿箭,我揣著相機與錄音,去河邊找鬼趾娃。 笑死缭嫡,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的抬闷。 我是一名探鬼主播妇蛀,決...
    沈念sama閱讀 40,078評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼笤成!你這毒婦竟也來了评架?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,923評論 0 274
  • 序言:老撾萬榮一對情侶失蹤炕泳,失蹤者是張志新(化名)和其女友劉穎纵诞,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體培遵,經(jīng)...
    沈念sama閱讀 45,334評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡浙芙,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,550評論 2 333
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了籽腕。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片茁裙。...
    茶點故事閱讀 39,727評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖节仿,靈堂內(nèi)的尸體忽然破棺而出晤锥,到底是詐尸還是另有隱情,我是刑警寧澤廊宪,帶...
    沈念sama閱讀 35,428評論 5 343
  • 正文 年R本政府宣布矾瘾,位于F島的核電站,受9級特大地震影響箭启,放射性物質(zhì)發(fā)生泄漏壕翩。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,022評論 3 326
  • 文/蒙蒙 一傅寡、第九天 我趴在偏房一處隱蔽的房頂上張望放妈。 院中可真熱鬧,春花似錦荐操、人聲如沸芜抒。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,672評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽宅倒。三九已至,卻和暖如春屯耸,著一層夾襖步出監(jiān)牢的瞬間拐迁,已是汗流浹背蹭劈。 一陣腳步聲響...
    開封第一講書人閱讀 32,826評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留线召,地道東北人铺韧。 一個月前我還...
    沈念sama閱讀 47,734評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像缓淹,于是被迫代替她去往敵國和親哈打。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,619評論 2 354

推薦閱讀更多精彩內(nèi)容