這是本熊轉(zhuǎn)業(yè)的第一篇商模,本來從事繪畫的工作的本熊為什么來搞搜索引擎呢奠旺。這要說起前些日子小Y的委托,靠臉吃飯能餓死自己幾輩子的本熊施流。出于這是單身熊的寂寞 响疚,哪能錯(cuò)過這個(gè)刷刷小Y的好感度的機(jī)會(huì),于是跳了這個(gè)大坑里瞪醋。
注:本熊搜索引擎新手一枚忿晕,本著連初學(xué)者都能看懂的想法寫的本文,對(duì)專業(yè)的描述可能還不充分银受,還請(qǐng)多多指教
純初學(xué)者說明模式
本章節(jié)主講實(shí)現(xiàn)本地模式
- 最低需要哪些軟件
- 版本問題
- 目錄規(guī)劃
- Mint下環(huán)境變量異常解決法
1.基礎(chǔ)配置
從最初的開始講起践盼,本熊采用的Linux是Mint版本的,其實(shí)和ubuntu差不多宾巍,本著追時(shí)髦的態(tài)度選了這個(gè)OS宏侍,結(jié)果成了噩夢(mèng)的開端,這是后話啦蜀漆。
開始的準(zhǔn)備工作話谅河,少年少女們快去安裝java吧
安裝配置Linux版本的JDK
(極其重要,必須安裝)
網(wǎng)上有許多相關(guān)的配置,不勞本熊說明嘛绷耍,各位聰明的看官懂得起吐限。
接下來說到Nutch 2.3.1的話,它是基于Gora 0.6.1的褂始,所以版本必須和Gora的版本一致诸典,Apache Gora 官網(wǎng)上是這么描述的
經(jīng)過本熊研究,但其實(shí)我們并不需要這么多就可以完成本地模式抓取的搭建崎苗。
最低只需要以下軟件:
- Apache Hadoop 1.2.1 and 2.5.2
- Apache HBase 0.98.8-hadoop2 (although also tested with 1.X)
- Apache Solr 4.10.3
- Apache Tomcat(可選狐粱,版本隨意,用于集成solr)
對(duì)你沒看沒錯(cuò)就這四個(gè)就夠了胆数,這些都可以在Apache的官網(wǎng)Download肌蜻,但有一點(diǎn)一定要注意 版本一定要對(duì)! 版本一定要對(duì)必尼! 版本一定要對(duì)蒋搜! 本熊都說三遍了,這個(gè)重要 性各位看官懂得判莉。
舉個(gè)例子來說豆挽,如果Hbase的版本不對(duì)將導(dǎo)致Nutch抓取過程中InjectorJob的時(shí)間變得很長(zhǎng)極長(zhǎng)超級(jí)長(zhǎng)。在這個(gè)位置上:
本熊是如何知道的呢券盅?本熊從深夜等到黎明帮哈,才進(jìn)如GeneratorJob進(jìn)程,最后成功抓取后立刻屁顛屁顛的告訴小Y的時(shí)候锰镀,小Y已經(jīng)睡夠10的小時(shí)了但汞。
總之版本要對(duì),不要追新的互站,要考慮兼容性,當(dāng)時(shí)本熊的配置是solr6.0僵缺,hadoop2.8胡桃,Hbase1.0.6,那問題出的千奇百怪磕潮,要是當(dāng)時(shí)把版本選對(duì)翠胰,本熊就可以少數(shù)幾個(gè)晚上的星星了。
下載完是這樣的
軟件下載完成后:
請(qǐng)拿去解壓吧
簡(jiǎn)單來說隨便你們解壓到哪里自脯,至于沒有圖形界面的看官們之景,那本熊只能推薦一下tar指令,去問可愛仁愛的百度吧膏潮。
主目錄(/home)容量在10G左右的用戶推薦放到容量大的掛載點(diǎn)下锻狗,因?yàn)楹竺婢幾g后會(huì)很占空間的。
本熊解壓在了/usr/Dzy下,這個(gè)目錄代表著我存放這些軟件的地方轻纪,今后文中代碼中看見了這個(gè)路徑請(qǐng)自動(dòng)轉(zhuǎn)換成你解壓的位置油额。
2.環(huán)境變量
這個(gè)是基礎(chǔ)中的基礎(chǔ),不是指難度刻帚,是重要度潦嘶。網(wǎng)上有許多的參考,這個(gè)還請(qǐng)各位自行百度崇众,關(guān)于如何配置JAVA環(huán)境變量掂僵,本熊就不做贅述了。
環(huán)境變量的配置文件在/etc的目錄下顷歌,一個(gè)叫profile的文件里
凡是看見報(bào)錯(cuò)里出現(xiàn)了 JAVA_HOME 這個(gè)詞的時(shí)候锰蓬,百分之八九十就是環(huán)境變量的配置問題,請(qǐng)好好檢查哦
注:Error衙吩,false互妓,not set,cannot reading坤塞,don't exist 輸出里出現(xiàn)這些詞都要注意啦冯勉,就代表有可能出現(xiàn)錯(cuò)誤
還有一種狀況是source ./profile 也執(zhí)行了,環(huán)境變量始終沒有生效摹芙,方法試遍了都不行灼狰,而且主目錄下沒有.bashrc的文件,想砸電腦了有沒有浮禾?
那恭喜你交胚,本熊的Linux Mint上也遇到了,解決辦法就是這個(gè)
cd /bin/
ls -l /bin/sh
ln -sf bash /bin/sh
ls -l /bin/sh
copy and past盈电,復(fù)制黏貼到終端里執(zhí)行在重啟就好啦蝴簇,原因在于Bash的新舊問題,不精通linux的本熊不好說明緣由匆帚,如果有懂的大神可以告訴本熊
要是還不行熬词,那就上絕招了,在每次開機(jī)后吸重,在終端里輸入以下命令互拾,要替換命令里面的內(nèi)容
set JAVA_HOME=“這里寫的是你的jdk的存放路徑”
export JAVA_HOME
還可以配置Hadoop,Hbase的環(huán)境變量嚎幸,但本熊出于保險(xiǎn)起見颜矿,在之后的命令中都采取了絕對(duì)路徑
第一期完
各位看官有沒有覺得別人的電腦和自己的電腦真不一樣。為什么別人貌似一帆風(fēng)順的就完成了嫉晶,自己的就這錯(cuò)那錯(cuò)的骑疆。
其實(shí)可以不用羨慕他們的田篇,因?yàn)檫@些錯(cuò)誤遇得見,那它們就一定存在封断,如果得以解決斯辰,這份經(jīng)驗(yàn)足以使你在某個(gè)機(jī)遇中得到提示。感覺說這對(duì)本熊刷小Y的好感度完全沒有幫助啊坡疼,苦逼的熊一只
第二期講solr與Tomcat的集成與solrcloud的搭建
相關(guān)內(nèi)容
[Linux] Nutch 2.3.1+ Hbase + Hadoop + Solr 單機(jī)指南(一)
[Linux] Nutch 2.3.1+ Hbase + Hadoop + Solr 單機(jī)指南(二)
[Linux] Nutch 2.3.1+ Hbase + Hadoop + Solr 單機(jī)指南(三)
[Linux] Nutch 2.3.1+ Hbase + Hadoop + Solr 單機(jī)指南(四)