[Linux] Nutch 2.3.1+ Hbase + Hadoop + Solr 單機指南（二）

可喜可賀寫到了第二篇，照這個勢頭都可以去寫論文了亮蛔。我的委托人小Y明明計科系出身，看來上學時期肯定腦瓜里都是薔薇色的擎厢，才傻傻來找本熊幫忙究流。可惜本熊上學時期都是節(jié)能減排型的动遭，通關(guān)模式向來選Easy芬探，但為了可以愉快的勒索小Y的午餐，本熊也是夠拼了厘惦。

純初學者說明模式
本章節(jié)主講實現(xiàn)本地模式

Solr4.10與Tomcat集成
刪除Solr索引的方法
一點有效但不實用的小技巧

1.Solr與Tomcat集成

集成的原因偷仿，初學者的可能會好奇Solr與Tomcat兩個都是可以作為服務(wù)器，為啥不單用Solr呢宵蕉？

單獨啟動Solr也可以酝静，但原因在于將來實現(xiàn)的不是這樣的偽集群模式，Solr在搜索引擎中的作用是建立索引羡玛，而管理集群的工作則交給了zookeeper别智，而載體就是Tomcat

可以參照前一章的步驟完成準備工作，接下來就可以正式開工了

1.1 解壓Tomcat與solr

這里的路徑隨意稼稿，本熊假設(shè)Tomcat的主目錄為TomcatPath亿遂，Solr的主目錄為SolrPath，Nutch的解壓后的主目錄為NutchPath

以下是本熊的解壓位置：
TomcatPath的值就是 /home/as/workspace/tomcat
SolrPath的值就是 /home/as/下載/solr-4.10.3
NutchPath的值就是 /usr/Dzy/apache-nutch-2.3.1

各位看官可以看自己的解壓位置替換渺杉，本熊只為方便說明蛇数。

在TomcatPath下的/webapps文件夾內(nèi)新建名叫solr文件夾
在SolrPath下路徑/example/webapps有名為solr.war的壓縮文件，將其復制到剛才新建的solr文件夾內(nèi)
在當前目錄將solr.war解壓

完成圖

本熊請各位務(wù)必注意路徑是越，本熊將截圖包括路徑耳舅，各位可以根據(jù)自身情況稍加推理，找到正確的位置倚评。
將SolrPath下的/example內(nèi)的solr文件夾復制到TomcatPath路徑下浦徊，如圖

完成圖2
在NutchPath下的/conf中的schema.xml文件，復制到TomcatPath下的/solr/collection1/conf內(nèi)覆蓋原文件

這樣第一步準備工作就算完成啦天梧，至于為什么復制Nutch的
schema.xml文件呢盔性？了解過MYSQL的人肯定看這個詞很眼熟，這就是告知solr服務(wù)器需要保留哪些類型數(shù)據(jù)的配置文件

1.2 修改solr的配置文件

此處的目的在于修改solr的配置文件呢岗，使其能準確的找到core的位置冕香，本熊推測core的作用正是像處數(shù)據(jù)理機一樣蛹尝，里面集成了分詞器等，使其可以可以建立索引悉尾。

在TomcatPath下/webapps/solr/WEB-INF的文件內(nèi)修改web.xml文件突那，將選取部分的注釋取消（將開頭 ````消除即可）

修改web.xml

正確的寫法是

   <env-entry>
       <env-entry-name>solr/home</env-entry-name>
       <env-entry-value>/home/as/workspace/tomcat/solr</env-entry-value>
       <env-entry-type>java.lang.String</env-entry-type>
   </env-entry>

<env-entry-value>標簽下寫的是步驟1.1的最后一步復制的solr文件所在的路徑，不是solr.war的解壓路徑

1.3 啟動solr

在TomcatPath目錄下執(zhí)行以下命令构眯，啟動Tomcat
bash startup.sh
然后在瀏覽器中輸入以下網(wǎng)址
http://localhost:8080/solr/

成功啟動后的樣子

如果終端顯示了Permission denied愕难，這就是權(quán)限不夠，拒絕執(zhí)行的意思

su

本熊就用的這個命令來提升權(quán)限吧

2.刪除Solr索引

本熊簡單介紹一下為什么要刪除惫霸，因為在實驗中Nutch抓取后猫缭，將抓取到數(shù)據(jù)存儲到Hbase（也可以是其他的數(shù)據(jù)庫）

然后由Solr來生成索引執(zhí)行查詢，如果不刪除壹店，那么將永遠保留著第一次抓取的結(jié)果饵骨，無法查詢今后的抓取結(jié)果

在Core selector的下拉欄中選擇Collection1，然后再選取Documents茫打，將右側(cè)的Documents Type選為XML居触，如下圖

http://localhost:8080/solr/#/collection1/documents
然后在下面文本域中輸入
<delete><query>:</query></delete>
<commit/>
點擊Submit Document執(zhí)行，這句話用于清除所有索引老赤，各位可以按需要刪除指定的索引轮洋，這個得去問Google，本熊是實用派的

3.查詢Nutch抓取的數(shù)據(jù)

如果完成了Nutch的抓取流程抬旺，這里可以看見抓取的結(jié)果弊予，當然如果沒有執(zhí)行過，里面是什么都查不出來的

所以耐心的跟著本熊往下走完成以后的指南开财，本熊保證不出大意外汉柒，一定會看見的。

在Core selector的下拉欄中選擇Collection1责鳍，然后再選取Query碾褂，點擊右側(cè)Execute Query，如下圖

http://localhost:8080/solr/#/collection1/query

各位看官也可按需要調(diào)整查詢參數(shù)历葛，語法也是很簡單的正塌，本熊建議各位少年少女們好好利用百度吧，多查一查也不會有在下百度查我干嘛的的橋段的恤溶。

再次提醒 版本正確,版本正確,版本正確,在下版本有何貴干乓诽？不吐槽了，本熊就是在Nutch抓取成功后咒程，卻看不到solr上有任何數(shù)據(jù)鸠天，后來查明就是用了高版本的solr辟拷，希望各位少撞點墻了朽缎，能保證指甲頭發(fā)的正常生長忘伞。

第二期完

本期可是之后完成Nutch抓取后的重要的檢測工作叁幢，只有查詢時看到了結(jié)果才算成功。在看到從沒有到出現(xiàn)巍杈，那個成就感都讓本熊差點忘了目的是刷小Y好感度了。

確實作為程序熊扛伍，成就感十分重要筷畦，在不知不覺接受越來越厲害的項目時，各位還能找到這份最初的愉悅嗎刺洒？

下一期講Hadoop與Hbase的配置

最后編輯于：2017.12.03 05:47:32

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末鳖宾，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子逆航，更是在濱河造成了極大的恐慌鼎文，老刑警劉巖，帶你破解...
沈念sama閱讀 216,591評論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件因俐，死亡現(xiàn)場離奇詭異拇惋，居然都是意外死亡，警方通過查閱死者的電腦和手機抹剩，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,448評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門撑帖，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人澳眷，你說我怎么就攤上這事胡嘿。” “怎么了钳踊？”我有些...
開封第一講書人閱讀 162,823評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵衷敌，是天一觀的道長。經(jīng)常有香客問我拓瞪，道長缴罗，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,204評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任祭埂，我火速辦了婚禮瞒爬，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘沟堡。我一直安慰自己侧但，他們只是感情好，可當我...
茶點故事閱讀 67,228評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布航罗。她就那樣靜靜地躺著禀横，像睡著了一般。火紅的嫁衣襯著肌膚如雪粥血。梳的紋絲不亂的頭發(fā)上柏锄，一...
開封第一講書人閱讀 51,190評論 1贊 299
城市分裂傳說
那天酿箭，我揣著相機與錄音，去河邊找鬼趾娃。笑死缭嫡，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的抬闷。我是一名探鬼主播妇蛀，決...
沈念sama閱讀 40,078評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼笤成！你這毒婦竟也來了评架？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 38,923評論 0贊 274
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤炕泳，失蹤者是張志新（化名）和其女友劉穎纵诞，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體培遵，經(jīng)...
沈念sama閱讀 45,334評論 1贊 310
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡浙芙，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,550評論 2贊 333
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了籽腕。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片茁裙。...
茶點故事閱讀 39,727評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖节仿，靈堂內(nèi)的尸體忽然破棺而出晤锥，到底是詐尸還是另有隱情，我是刑警寧澤廊宪，帶...
沈念sama閱讀 35,428評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布矾瘾，位于F島的核電站，受9級特大地震影響箭启，放射性物質(zhì)發(fā)生泄漏壕翩。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,022評論 3贊 326
男人毒藥：我在死后第九天來索命
文/蒙蒙一傅寡、第九天我趴在偏房一處隱蔽的房頂上張望放妈。院中可真熱鬧，春花似錦荐操、人聲如沸芜抒。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,672評論 0贊 22
一樁弒父案托启，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽宅倒。三九已至，卻和暖如春屯耸，著一層夾襖步出監(jiān)牢的瞬間拐迁，已是汗流浹背蹭劈。一陣腳步聲響...
開封第一講書人閱讀 32,826評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留线召，地道東北人铺韧。一個月前我還...
沈念sama閱讀 47,734評論 2贊 368
代替公主和親
正文我出身青樓，卻偏偏與公主長得像缓淹，于是被迫代替她去往敵國和親哈打。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 44,619評論 2贊 354