Ubuntu安裝配置Nutch2.3.1+Solr4.10.3+habse

一魔策、java安裝與環(huán)境變量設置

1. 源碼包準備

首先到官網下載jdk咆疗,http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html,我下載的是 jdk-8u121-linux-x64.tar.gz
注意判斷自己的虛擬機是32位or64位赶掖,以免做無用功。

2. 解壓源碼包

通過終端在/usr/local目錄下新建jdk文件夾,
mkdir /usr/local/jdk
然后將下載到壓縮包拷貝到java文件夾中盾致,
cp jdk-8u25-linux-x64.tar.gz /usr/local/jdk
然后進入java目錄,
cd /usr/local/jdk
解壓壓縮包荣暮,
tar xvf jdk-8u25-linux-x64.tar.gz
然后可以把壓縮包刪除庭惜,
rm jdk-8u25-linux-x64.tar.gz

3. 設置jdk環(huán)境變量

這里采用全局設置方法,它是是所有用戶的共用的環(huán)境變量
gedit ~/.bashrc 打開之后在末尾添加

export JAVA_HOME=/usr/local/jdk/jdk1.8.0_121
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

source ~/.bashrc使設置生效

4. 檢驗是否安裝成功

在終端輸入如下命令
java -version
看看是否安裝成功

二穗酥、hbase安裝與配置

1. 源碼包準備:

首先到官網下載 http://archive.apache.org/dist/hbase/hbase-0.98.8/hbase-0.98.8-hadoop2-bin.tar.gz护赊,我下載的是 hbase-0.98.8-hadoop2-bin.tar.gz

2. 解壓源碼包

tar -zxf hbase-0.98.8-hadoop2-bin.tar.gz

3. 設置hbase環(huán)境變量

gedit /etc/profile 打開之后在文件末尾添加

    export HBASE_HOME=/home/leo//weblab/hbase-0.98-8-hadoop2
    export PATH=$PATH:$HBASE_HOME/bin

保存修改之后
source /etc/profile
使得設置生效
配置完環(huán)境變量后可輸入命令hbase version來驗證hbase是否安裝成功

4. 配置hbase-site.xml文件

gedit conf/hbase-site.xml
打開文件之后在<congiguration></configuration>之間添加

<property>
     <name>hbase:rootdir</name>
     <value>file://home/leo/weblab/hbase-0.98.8-hadoop2/data/hbase</value>
</property>
<property>
     <name>hbase.zookeeper.property.dataDir</name>
     <value>/home/leo//weblab/hbase-0.98.8-hadoop2/data/zookeeper</value>
</property>
5. 啟動hbase
cd /weblab/hbase-0.98-8-hadoop2/bin
./start-hbase.sh

三惠遏、Nutch安裝與配置

1. 下載、解壓源碼包

tar -zxf apache-nutch-2.3.1-src.tar.gz

2. 進入Nutch 目錄骏啰,修改/ivy文件夾中的ivy.xml文件

gedit ivy/ivy.xml节吮,將以下內容的注釋取消(將包含此代碼段開頭消除即可)

<dependency org="apache.org.gora" name="gora.hbase" rev=0.6.1 conf="*->default"/>

這是將Nutch的默認的結果存儲方式變更為Hbase,并添加以下代碼確保nutch包含hbase相關的jar包

<dependency org="org.apache.hbase" name="hbase-common“ rev="0.98.8-hadoop2" conf="*->default" />
3. 修改/conf文件夾中的nutch-site.xml文件

gedit conf/nutch-site.xml<configuration></configuration>標簽中添加以下設置

<property>  
          <name>storage.data.store.class</name>  
          <value>org.apache.gora.hbase.store.HBaseStore</value>  
          <description>Default class for storing data</description>  
</property>  
<property>  
          <name>http.agent.name</name>  
          <value>My Nutch Spider</value>  
</property>  
<property>
<name>plugin.includes</name>
<value>protocol-httpclient|urlfilter-regex|index-(basic|more)|query-(basic|site|url|lang)|indexer-solr|nutch-extensionpoints|protocol-httpclient|urlfilter-regex|parse-(text|html|msexcel|msword|mspowerpoint|pdf)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)protocol-http|urlfilter-regex|parse-(html|tika|metatags)|index-(basic|anchor|more|metadata)</value>
</property>

這三個property分別指的是Nutch的默認存儲類型判耕,爬蟲的名字透绩,和插件庫的位置,如果錯誤中出現job-XXXXX的情況壁熄,那就是沒有配置好插件庫property

4. 修改/conf文件夾中的regex-urlfilter.txt文件

gedit conf/regex-urlfilter.txt 將最后部分修改為

 # accept anything else
  #+.
  +^http://([a-z0-9]*\.)*nutch.apache.org/

這里寫的是抓取過濾的正則表達式帚豪,表示除了抓取這個url指向的頁面,其他頁面不抓取草丧,可按照自己的需求更改狸臣。

nutch的正則過濾時,采用的匹配函數式Patterm.matcher昌执,而不是Patterm.matches烛亦。
Patterm.mather在匹配時,只要找到待爬取網頁的url的子串和正則匹配懂拾,就通過麦备。
Patterm.matcher要求待爬取網頁的url和regex完全匹配灾而。例如:
    待爬取網頁的網址是  http://www.xinhuanet.com/index.html
    正則是^http://([a-z0-9]*\.)*xinhuanet.com
這個正則用Patterm.matcher和網頁url可以匹配元莫。因為網頁url的字串http://www.xinhuanet.com和正則能匹配蓄愁。
但是用Patterm.matches就不能匹配。正則需要改成^http://([a-z0-9]*\.)*xinhuanet.com.*才可以和網頁的URL匹配贾节。
也就是說nutch的正則其實是和找url中是否有字串符合正則汁汗。所以做nutch的正則配置文件時,要在http前加入^符號栗涂,如果正則沒有加^符號知牌,
例如+http://www.xinhuanet.com ,下面網址也是可以匹配的:
http://www.abc.com/index.[PHP](http://lib.csdn.net/base/php)?name=http://www.xinhuanet.com
5. 修改/conf文件夾中的gora.properties文件,添加以下配置斤程,確保存儲在Hbase上
 gora.datastore.default=org.apache.gora.hbase.store.HBaseStore
6.在Nuctch目錄下角寸,開始ant編譯

ant runtime 第一次編譯因為要從maven網站下載文件,時間耗費較長忿墅,而且可能出現部分jar包不能下載的情況扁藕,要修改ivy/ivysettings.xml文件

<property name="repository.apache.org" value="http://maven.restlet.org/" override="false"/>

可能出現的情況

NUTCH You probably access the destination server through a proxy server that is not well configured

沒別的意思,網不好疚脐,PING一下外網試試

[ivy:resolve] :: loading settings :: file = /home/appmon/release-2.2.1/ivy/ivysettings.xml

停在這里不表示出錯亿柑,而是在聯網監(jiān)測,可能要好幾分鐘棍弄,耐心等待
編譯完成后望薄,在Nutch目錄下會生成一個runtime文件夾

7. 在Nutch目錄下疟游,在/runtime/local文件下創(chuàng)建url文件夾,并在該文件夾下創(chuàng)建`seed.txt
mkdir url
cd url
touch seed.txt

在其中輸入你要抓取頁面的url

http://nutch.apache.org/

四痕支、Solr安裝與配置

1.下載颁虐、解壓源碼包

http://archive.apache.org/dist/lucene/solr/4.10.3
根據前人無數次的嘗試,發(fā)現還是4.10.3版本能與以上版本的軟件很好兼容卧须,如果想驗證下兼容性另绩,可以試試其他版本。故慈。。
tar -zxf solr-4.10.3.tgz

2.進入example子目錄下運行

cd solr-4.10.3/example/
java –jar start.jar

3.結合Nutch

復制nutch/runtime/local/conf目錄下的schema.xml到solr/example/solr/collection1/conf目錄下框全,替換solr原來的文件
重啟solr Ctrl+C

五察绷、開始使用

1.進入Hbase安裝目錄的/bin/子目錄下,啟動HBase:

./start-hbase.sh

2.進入Solr安裝目錄的/example/子目錄下津辩,啟動Solr:

java -jar start.jar

3.進入Nutch安裝目錄的/runtime/local/子目錄下拆撼,啟動Nutch:

./bin/crawl ./url/seed.txt mycrawl http://localhost:8983/solr 2
參數理解:
seed.txt 之前創(chuàng)建的url種子文件夾,是爬取網頁的起點喘沿,mycrawl 爬蟲ID闸度,http://localhost:8983/solr 在瀏覽器中打開Solr頁面,‘2’ 爬取深度

4.可能出現的情況

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/conf/configuration

缺少java包

把hbase目錄下/lib/里有關hbase的jar文件復制到Nutch目錄下/runtime/local/lib/里蚜印,這里可能存在操作權限的問題莺禁,可用chmod 777命令修改權限。
SolrIndexerJob: java.lang.RuntimeException: job failed:
這里可能是找不到插件的原因窄赋,編輯nutch/runtime/conf/目錄下的nutch-site.xml文件哟冬,加上

<property>
      <name>plugin.folders</name>
     <value>plugins</value>
 </property>
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市忆绰,隨后出現的幾起案子浩峡,更是在濱河造成了極大的恐慌,老刑警劉巖错敢,帶你破解...
    沈念sama閱讀 217,509評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件翰灾,死亡現場離奇詭異,居然都是意外死亡稚茅,警方通過查閱死者的電腦和手機纸淮,發(fā)現死者居然都...
    沈念sama閱讀 92,806評論 3 394
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來亚享,“玉大人萎馅,你說我怎么就攤上這事『缃” “怎么了糜芳?”我有些...
    開封第一講書人閱讀 163,875評論 0 354
  • 文/不壞的土叔 我叫張陵飒货,是天一觀的道長。 經常有香客問我峭竣,道長塘辅,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,441評論 1 293
  • 正文 為了忘掉前任皆撩,我火速辦了婚禮扣墩,結果婚禮上,老公的妹妹穿的比我還像新娘扛吞。我一直安慰自己呻惕,他們只是感情好,可當我...
    茶點故事閱讀 67,488評論 6 392
  • 文/花漫 我一把揭開白布滥比。 她就那樣靜靜地躺著亚脆,像睡著了一般。 火紅的嫁衣襯著肌膚如雪盲泛。 梳的紋絲不亂的頭發(fā)上濒持,一...
    開封第一講書人閱讀 51,365評論 1 302
  • 那天,我揣著相機與錄音寺滚,去河邊找鬼柑营。 笑死,一個胖子當著我的面吹牛村视,可吹牛的內容都是我干的官套。 我是一名探鬼主播,決...
    沈念sama閱讀 40,190評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼蚁孔,長吁一口氣:“原來是場噩夢啊……” “哼虏杰!你這毒婦竟也來了?” 一聲冷哼從身側響起勒虾,我...
    開封第一講書人閱讀 39,062評論 0 276
  • 序言:老撾萬榮一對情侶失蹤纺阔,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后修然,有當地人在樹林里發(fā)現了一具尸體笛钝,經...
    沈念sama閱讀 45,500評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,706評論 3 335
  • 正文 我和宋清朗相戀三年愕宋,在試婚紗的時候發(fā)現自己被綠了玻靡。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,834評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡中贝,死狀恐怖囤捻,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情邻寿,我是刑警寧澤蝎土,帶...
    沈念sama閱讀 35,559評論 5 345
  • 正文 年R本政府宣布视哑,位于F島的核電站,受9級特大地震影響誊涯,放射性物質發(fā)生泄漏挡毅。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,167評論 3 328
  • 文/蒙蒙 一暴构、第九天 我趴在偏房一處隱蔽的房頂上張望跪呈。 院中可真熱鬧,春花似錦取逾、人聲如沸耗绿。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,779評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽误阻。三九已至,卻和暖如春琉用,著一層夾襖步出監(jiān)牢的瞬間堕绩,已是汗流浹背策幼。 一陣腳步聲響...
    開封第一講書人閱讀 32,912評論 1 269
  • 我被黑心中介騙來泰國打工邑时, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人特姐。 一個月前我還...
    沈念sama閱讀 47,958評論 2 370
  • 正文 我出身青樓晶丘,卻偏偏與公主長得像,于是被迫代替她去往敵國和親唐含。 傳聞我的和親對象是個殘疾皇子浅浮,可洞房花燭夜當晚...
    茶點故事閱讀 44,779評論 2 354

推薦閱讀更多精彩內容