Ubuntu安裝配置Nutch2.3.1+Solr4.10.3+habse

一魔策、java安裝與環(huán)境變量設置

1. 源碼包準備

首先到官網下載jdk咆疗，http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html，我下載的是 jdk-8u121-linux-x64.tar.gz
注意判斷自己的虛擬機是32位or64位赶掖，以免做無用功。

2. 解壓源碼包

通過終端在/usr/local目錄下新建jdk文件夾，
mkdir /usr/local/jdk
然后將下載到壓縮包拷貝到java文件夾中盾致，
cp jdk-8u25-linux-x64.tar.gz /usr/local/jdk
然后進入java目錄，
cd /usr/local/jdk
解壓壓縮包荣暮，
tar xvf jdk-8u25-linux-x64.tar.gz
然后可以把壓縮包刪除庭惜，
rm jdk-8u25-linux-x64.tar.gz

3. 設置jdk環(huán)境變量

這里采用全局設置方法，它是是所有用戶的共用的環(huán)境變量
gedit ~/.bashrc 打開之后在末尾添加

export JAVA_HOME=/usr/local/jdk/jdk1.8.0_121
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

source ~/.bashrc使設置生效

4. 檢驗是否安裝成功

在終端輸入如下命令
java -version
看看是否安裝成功

二穗酥、hbase安裝與配置

1. 源碼包準備：

首先到官網下載 http://archive.apache.org/dist/hbase/hbase-0.98.8/hbase-0.98.8-hadoop2-bin.tar.gz 护赊，我下載的是 hbase-0.98.8-hadoop2-bin.tar.gz

2. 解壓源碼包

tar -zxf hbase-0.98.8-hadoop2-bin.tar.gz

3. 設置hbase環(huán)境變量

gedit /etc/profile 打開之后在文件末尾添加

    export HBASE_HOME=/home/leo//weblab/hbase-0.98-8-hadoop2
    export PATH=$PATH:$HBASE_HOME/bin

保存修改之后
source /etc/profile
使得設置生效
配置完環(huán)境變量后可輸入命令hbase version來驗證hbase是否安裝成功

4. 配置hbase-site.xml文件

gedit conf/hbase-site.xml
打開文件之后在<congiguration></configuration>之間添加

<property>
     <name>hbase:rootdir</name>
     <value>file://home/leo/weblab/hbase-0.98.8-hadoop2/data/hbase</value>
</property>
<property>
     <name>hbase.zookeeper.property.dataDir</name>
     <value>/home/leo//weblab/hbase-0.98.8-hadoop2/data/zookeeper</value>
</property>

5. 啟動hbase

cd /weblab/hbase-0.98-8-hadoop2/bin
./start-hbase.sh

三惠遏、Nutch安裝與配置

1. 下載、解壓源碼包

tar -zxf apache-nutch-2.3.1-src.tar.gz

2. 進入Nutch 目錄骏啰，修改`/ivy`文件夾中的`ivy.xml`文件

gedit ivy/ivy.xml节吮，將以下內容的注釋取消（將包含此代碼段開頭消除即可）

<dependency org="apache.org.gora" name="gora.hbase" rev=0.6.1 conf="*->default"/>

這是將Nutch的默認的結果存儲方式變更為Hbase，并添加以下代碼確保nutch包含hbase相關的jar包

<dependency org="org.apache.hbase" name="hbase-common“ rev="0.98.8-hadoop2" conf="*->default" />

3. 修改`/conf`文件夾中的`nutch-site.xml`文件

gedit conf/nutch-site.xml在<configuration></configuration>標簽中添加以下設置

<property>  
          <name>storage.data.store.class</name>  
          <value>org.apache.gora.hbase.store.HBaseStore</value>  
          <description>Default class for storing data</description>  
</property>  
<property>  
          <name>http.agent.name</name>  
          <value>My Nutch Spider</value>  
</property>  
<property>
<name>plugin.includes</name>
<value>protocol-httpclient|urlfilter-regex|index-(basic|more)|query-(basic|site|url|lang)|indexer-solr|nutch-extensionpoints|protocol-httpclient|urlfilter-regex|parse-(text|html|msexcel|msword|mspowerpoint|pdf)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)protocol-http|urlfilter-regex|parse-(html|tika|metatags)|index-(basic|anchor|more|metadata)</value>
</property>

這三個property分別指的是Nutch的默認存儲類型判耕，爬蟲的名字透绩，和插件庫的位置，如果錯誤中出現job-XXXXX的情況壁熄，那就是沒有配置好插件庫property

4. 修改`/conf`文件夾中的`regex-urlfilter.txt`文件

gedit conf/regex-urlfilter.txt 將最后部分修改為

 # accept anything else
  #+.
  +^http://([a-z0-9]*\.)*nutch.apache.org/

這里寫的是抓取過濾的正則表達式帚豪，表示除了抓取這個url指向的頁面，其他頁面不抓取草丧，可按照自己的需求更改狸臣。

nutch的正則過濾時，采用的匹配函數式Patterm.matcher昌执，而不是Patterm.matches烛亦。
Patterm.mather在匹配時，只要找到待爬取網頁的url的子串和正則匹配懂拾，就通過麦备。
Patterm.matcher要求待爬取網頁的url和regex完全匹配灾而。例如:
    待爬取網頁的網址是  http://www.xinhuanet.com/index.html
    正則是^http://([a-z0-9]*\.)*xinhuanet.com
這個正則用Patterm.matcher和網頁url可以匹配元莫。因為網頁url的字串http://www.xinhuanet.com和正則能匹配蓄愁。
但是用Patterm.matches就不能匹配。正則需要改成^http://([a-z0-9]*\.)*xinhuanet.com.*才可以和網頁的URL匹配贾节。
也就是說nutch的正則其實是和找url中是否有字串符合正則汁汗。所以做nutch的正則配置文件時，要在http前加入^符號栗涂，如果正則沒有加^符號知牌，
例如+http://www.xinhuanet.com ,下面網址也是可以匹配的:
http://www.abc.com/index.[PHP](http://lib.csdn.net/base/php)?name=http://www.xinhuanet.com

5. 修改`/conf`文件夾中的`gora.properties`文件，添加以下配置斤程，確保存儲在Hbase上

 gora.datastore.default=org.apache.gora.hbase.store.HBaseStore

6.在Nuctch目錄下角寸，開始ant編譯

ant runtime 第一次編譯因為要從maven網站下載文件，時間耗費較長忿墅，而且可能出現部分jar包不能下載的情況扁藕，要修改ivy/ivysettings.xml文件

<property name="repository.apache.org" value="http://maven.restlet.org/" override="false"/>

可能出現的情況

NUTCH You probably access the destination server through a proxy server that is not well configured

沒別的意思，網不好疚脐，PING一下外網試試

[ivy:resolve] :: loading settings :: file = /home/appmon/release-2.2.1/ivy/ivysettings.xml

停在這里不表示出錯亿柑，而是在聯網監(jiān)測，可能要好幾分鐘棍弄，耐心等待
編譯完成后望薄，在Nutch目錄下會生成一個runtime文件夾

7. 在Nutch目錄下疟游，在`/runtime/local`文件下創(chuàng)建`url`文件夾，并在該文件夾下創(chuàng)建`seed.txt

mkdir url
cd url
touch seed.txt

在其中輸入你要抓取頁面的url

http://nutch.apache.org/

四痕支、Solr安裝與配置

1.下載颁虐、解壓源碼包

http://archive.apache.org/dist/lucene/solr/4.10.3
根據前人無數次的嘗試，發(fā)現還是4.10.3版本能與以上版本的軟件很好兼容卧须，如果想驗證下兼容性另绩，可以試試其他版本。故慈。。
tar -zxf solr-4.10.3.tgz

2.進入example子目錄下運行

cd solr-4.10.3/example/
java –jar start.jar

3.結合Nutch

復制nutch/runtime/local/conf目錄下的schema.xml到solr/example/solr/collection1/conf目錄下框全，替換solr原來的文件
重啟solr Ctrl+C

五察绷、開始使用

1.進入Hbase安裝目錄的`/bin/`子目錄下，啟動HBase:

./start-hbase.sh

2.進入Solr安裝目錄的`/example/`子目錄下津辩，啟動Solr:

java -jar start.jar

3.進入Nutch安裝目錄的`/runtime/local/`子目錄下拆撼，啟動Nutch:

./bin/crawl ./url/seed.txt mycrawl http://localhost:8983/solr 2
參數理解：
seed.txt 之前創(chuàng)建的url種子文件夾，是爬取網頁的起點喘沿，mycrawl 爬蟲ID闸度，http://localhost:8983/solr 在瀏覽器中打開Solr頁面，‘2’ 爬取深度

4.可能出現的情況

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/conf/configuration

缺少java包

把hbase目錄下/lib/里有關hbase的jar文件復制到Nutch目錄下/runtime/local/lib/里蚜印，這里可能存在操作權限的問題莺禁，可用chmod 777命令修改權限。
SolrIndexerJob: java.lang.RuntimeException: job failed:
這里可能是找不到插件的原因窄赋，編輯nutch/runtime/conf/目錄下的nutch-site.xml文件哟冬，加上

<property>
      <name>plugin.folders</name>
     <value>plugins</value>
 </property>

最后編輯于：2017.12.06 20:57:55

?著作權歸作者所有,轉載或內容合作請聯系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市忆绰，隨后出現的幾起案子浩峡，更是在濱河造成了極大的恐慌，老刑警劉巖错敢，帶你破解...
沈念sama閱讀 217,509評論 6贊 504
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件翰灾，死亡現場離奇詭異，居然都是意外死亡稚茅，警方通過查閱死者的電腦和手機纸淮，發(fā)現死者居然都...
沈念sama閱讀 92,806評論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來亚享，“玉大人萎馅，你說我怎么就攤上這事『缃” “怎么了糜芳？”我有些...
開封第一講書人閱讀 163,875評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵飒货，是天一觀的道長。經常有香客問我峭竣，道長塘辅，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,441評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任皆撩，我火速辦了婚禮扣墩，結果婚禮上，老公的妹妹穿的比我還像新娘扛吞。我一直安慰自己呻惕，他們只是感情好，可當我...
茶點故事閱讀 67,488評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布滥比。她就那樣靜靜地躺著亚脆，像睡著了一般。火紅的嫁衣襯著肌膚如雪盲泛。梳的紋絲不亂的頭發(fā)上濒持，一...
開封第一講書人閱讀 51,365評論 1贊 302
城市分裂傳說
那天，我揣著相機與錄音寺滚，去河邊找鬼柑营。笑死，一個胖子當著我的面吹牛村视，可吹牛的內容都是我干的官套。我是一名探鬼主播，決...
沈念sama閱讀 40,190評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼蚁孔，長吁一口氣：“原來是場噩夢啊……” “哼虏杰！你這毒婦竟也來了？” 一聲冷哼從身側響起勒虾，我...
開封第一講書人閱讀 39,062評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤纺阔，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后修然，有當地人在樹林里發(fā)現了一具尸體笛钝，經...
沈念sama閱讀 45,500評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 37,706評論 3贊 335
?白月光啟示錄
正文我和宋清朗相戀三年愕宋，在試婚紗的時候發(fā)現自己被綠了玻靡。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 39,834評論 1贊 347
活死人
序言：一個原本活蹦亂跳的男人離奇死亡中贝，死狀恐怖囤捻，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情邻寿，我是刑警寧澤蝎土，帶...
沈念sama閱讀 35,559評論 5贊 345
?日本核電站爆炸內幕
正文年R本政府宣布视哑，位于F島的核電站，受9級特大地震影響誊涯，放射性物質發(fā)生泄漏挡毅。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,167評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一暴构、第九天我趴在偏房一處隱蔽的房頂上張望跪呈。院中可真熱鬧，春花似錦取逾、人聲如沸耗绿。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,779評論 0贊 22
一樁弒父案砾隅，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽误阻。三九已至，卻和暖如春琉用，著一層夾襖步出監(jiān)牢的瞬間堕绩，已是汗流浹背策幼。一陣腳步聲響...
開封第一講書人閱讀 32,912評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工邑时，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人特姐。一個月前我還...
沈念sama閱讀 47,958評論 2贊 370
代替公主和親
正文我出身青樓晶丘，卻偏偏與公主長得像，于是被迫代替她去往敵國和親唐含。傳聞我的和親對象是個殘疾皇子浅浮，可洞房花燭夜當晚...
茶點故事閱讀 44,779評論 2贊 354

Ubuntu安裝配置Nutch2.3.1+Solr4.10.3+habse

一魔策、java安裝與環(huán)境變量設置

1. 源碼包準備

2. 解壓源碼包

3. 設置jdk環(huán)境變量

4. 檢驗是否安裝成功

二穗酥、hbase安裝與配置

1. 源碼包準備：

2. 解壓源碼包

3. 設置hbase環(huán)境變量

4. 配置hbase-site.xml文件

5. 啟動hbase

三惠遏、Nutch安裝與配置

1. 下載、解壓源碼包

2. 進入Nutch 目錄骏啰，修改/ivy文件夾中的ivy.xml文件

3. 修改/conf文件夾中的nutch-site.xml文件

4. 修改/conf文件夾中的regex-urlfilter.txt文件

5. 修改/conf文件夾中的gora.properties文件，添加以下配置斤程，確保存儲在Hbase上

6.在Nuctch目錄下角寸，開始ant編譯

7. 在Nutch目錄下疟游，在/runtime/local文件下創(chuàng)建url文件夾，并在該文件夾下創(chuàng)建`seed.txt

四痕支、Solr安裝與配置

1.下載颁虐、解壓源碼包

2.進入example子目錄下運行

3.結合Nutch

五察绷、開始使用

1.進入Hbase安裝目錄的/bin/子目錄下，啟動HBase:

2.進入Solr安裝目錄的/example/子目錄下津辩，啟動Solr:

3.進入Nutch安裝目錄的/runtime/local/子目錄下拆撼，啟動Nutch:

4.可能出現的情況

推薦閱讀更多精彩內容

2. 進入Nutch 目錄骏啰，修改`/ivy`文件夾中的`ivy.xml`文件

3. 修改`/conf`文件夾中的`nutch-site.xml`文件

4. 修改`/conf`文件夾中的`regex-urlfilter.txt`文件

5. 修改`/conf`文件夾中的`gora.properties`文件，添加以下配置斤程，確保存儲在Hbase上

7. 在Nutch目錄下疟游，在`/runtime/local`文件下創(chuàng)建`url`文件夾，并在該文件夾下創(chuàng)建`seed.txt

1.進入Hbase安裝目錄的`/bin/`子目錄下，啟動HBase:

2.進入Solr安裝目錄的`/example/`子目錄下津辩，啟動Solr:

3.進入Nutch安裝目錄的`/runtime/local/`子目錄下拆撼，啟動Nutch: