[Linux] Nutch 2.3.1+ Hbase + Hadoop + Solr 單機(jī)指南(一)


這是本熊轉(zhuǎn)業(yè)的第一篇商模,本來從事繪畫的工作的本熊為什么來搞搜索引擎呢奠旺。這要說起前些日子小Y的委托,靠臉吃飯能餓死自己幾輩子的本熊施流。出于這是單身熊的寂寞 响疚,哪能錯(cuò)過這個(gè)刷刷小Y的好感度的機(jī)會(huì),于是跳了這個(gè)大坑里瞪醋。

注:本熊搜索引擎新手一枚忿晕,本著連初學(xué)者都能看懂的想法寫的本文,對(duì)專業(yè)的描述可能還不充分银受,還請(qǐng)多多指教


純初學(xué)者說明模式
本章節(jié)主講實(shí)現(xiàn)本地模式

  • 最低需要哪些軟件
  • 版本問題
  • 目錄規(guī)劃
  • Mint下環(huán)境變量異常解決法

1.基礎(chǔ)配置

從最初的開始講起践盼,本熊采用的Linux是Mint版本的,其實(shí)和ubuntu差不多宾巍,本著追時(shí)髦的態(tài)度選了這個(gè)OS宏侍,結(jié)果成了噩夢(mèng)的開端,這是后話啦蜀漆。

開始的準(zhǔn)備工作話谅河,少年少女們快去安裝java吧
安裝配置Linux版本的JDK
(極其重要,必須安裝)
網(wǎng)上有許多相關(guān)的配置,不勞本熊說明嘛绷耍,各位聰明的看官懂得起吐限。

接下來說到Nutch 2.3.1的話,它是基于Gora 0.6.1的褂始,所以版本必須和Gora的版本一致诸典,Apache Gora 官網(wǎng)上是這么描述的

Gora 官方描述

經(jīng)過本熊研究,但其實(shí)我們并不需要這么多就可以完成本地模式抓取的搭建崎苗。

最低只需要以下軟件:
  • Apache Hadoop 1.2.1 and 2.5.2
  • Apache HBase 0.98.8-hadoop2 (although also tested with 1.X)
  • Apache Solr 4.10.3
  • Apache Tomcat(可選狐粱,版本隨意,用于集成solr)

對(duì)你沒看沒錯(cuò)就這四個(gè)就夠了胆数,這些都可以在Apache的官網(wǎng)Download肌蜻,但有一點(diǎn)一定要注意 版本一定要對(duì)! 版本一定要對(duì)必尼! 版本一定要對(duì)蒋搜! 本熊都說三遍了,這個(gè)重要 性各位看官懂得判莉。

舉個(gè)例子來說豆挽,如果Hbase的版本不對(duì)將導(dǎo)致Nutch抓取過程中InjectorJob的時(shí)間變得很長(zhǎng)極長(zhǎng)超級(jí)長(zhǎng)。在這個(gè)位置上:

Hbase版本錯(cuò)誤的結(jié)果

本熊是如何知道的呢券盅?本熊從深夜等到黎明帮哈,才進(jìn)如GeneratorJob進(jìn)程,最后成功抓取后立刻屁顛屁顛的告訴小Y的時(shí)候锰镀,小Y已經(jīng)睡夠10的小時(shí)了但汞。

總之版本要對(duì),不要追新的互站,要考慮兼容性,當(dāng)時(shí)本熊的配置是solr6.0僵缺,hadoop2.8胡桃,Hbase1.0.6,那問題出的千奇百怪磕潮,要是當(dāng)時(shí)把版本選對(duì)翠胰,本熊就可以少數(shù)幾個(gè)晚上的星星了。

下載完是這樣的

下載完成后
軟件下載完成后:

請(qǐng)拿去解壓吧
簡(jiǎn)單來說隨便你們解壓到哪里自脯,至于沒有圖形界面的看官們之景,那本熊只能推薦一下tar指令,去問可愛仁愛的百度吧膏潮。

主目錄(/home)容量在10G左右的用戶推薦放到容量大的掛載點(diǎn)下锻狗,因?yàn)楹竺婢幾g后會(huì)很占空間的。

本熊解壓在了/usr/Dzy下,這個(gè)目錄代表著我存放這些軟件的地方轻纪,今后文中代碼中看見了這個(gè)路徑請(qǐng)自動(dòng)轉(zhuǎn)換成你解壓的位置油额。

左上角是路徑

2.環(huán)境變量

這個(gè)是基礎(chǔ)中的基礎(chǔ),不是指難度刻帚,是重要度潦嘶。網(wǎng)上有許多的參考,這個(gè)還請(qǐng)各位自行百度崇众,關(guān)于如何配置JAVA環(huán)境變量掂僵,本熊就不做贅述了。

環(huán)境變量的配置文件在/etc的目錄下顷歌,一個(gè)叫profile的文件里

凡是看見報(bào)錯(cuò)里出現(xiàn)了 JAVA_HOME 這個(gè)詞的時(shí)候锰蓬,百分之八九十就是環(huán)境變量的配置問題,請(qǐng)好好檢查哦
注:Error衙吩,false互妓,not set,cannot reading坤塞,don't exist 輸出里出現(xiàn)這些詞都要注意啦冯勉,就代表有可能出現(xiàn)錯(cuò)誤

還有一種狀況是source ./profile 也執(zhí)行了,環(huán)境變量始終沒有生效摹芙,方法試遍了都不行灼狰,而且主目錄下沒有.bashrc的文件,想砸電腦了有沒有浮禾?

那恭喜你交胚,本熊的Linux Mint上也遇到了,解決辦法就是這個(gè)

  cd /bin/
  ls -l /bin/sh
  ln -sf bash /bin/sh
  ls -l /bin/sh

copy and past盈电,復(fù)制黏貼到終端里執(zhí)行在重啟就好啦蝴簇,原因在于Bash的新舊問題,不精通linux的本熊不好說明緣由匆帚,如果有懂的大神可以告訴本熊

要是還不行熬词,那就上絕招了,在每次開機(jī)后吸重,在終端里輸入以下命令互拾,要替換命令里面的內(nèi)容

  set JAVA_HOME=“這里寫的是你的jdk的存放路徑”
  export JAVA_HOME

還可以配置Hadoop,Hbase的環(huán)境變量嚎幸,但本熊出于保險(xiǎn)起見颜矿,在之后的命令中都采取了絕對(duì)路徑


第一期完

各位看官有沒有覺得別人的電腦和自己的電腦真不一樣。為什么別人貌似一帆風(fēng)順的就完成了嫉晶,自己的就這錯(cuò)那錯(cuò)的骑疆。

其實(shí)可以不用羨慕他們的田篇,因?yàn)檫@些錯(cuò)誤遇得見,那它們就一定存在封断,如果得以解決斯辰,這份經(jīng)驗(yàn)足以使你在某個(gè)機(jī)遇中得到提示。感覺說這對(duì)本熊刷小Y的好感度完全沒有幫助啊坡疼,苦逼的熊一只

第二期講solr與Tomcat的集成與solrcloud的搭建

相關(guān)內(nèi)容
[Linux] Nutch 2.3.1+ Hbase + Hadoop + Solr 單機(jī)指南(一)
[Linux] Nutch 2.3.1+ Hbase + Hadoop + Solr 單機(jī)指南(二)
[Linux] Nutch 2.3.1+ Hbase + Hadoop + Solr 單機(jī)指南(三)
[Linux] Nutch 2.3.1+ Hbase + Hadoop + Solr 單機(jī)指南(四)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末彬呻,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子柄瑰,更是在濱河造成了極大的恐慌闸氮,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,123評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件教沾,死亡現(xiàn)場(chǎng)離奇詭異蒲跨,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)授翻,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,031評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門或悲,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人堪唐,你說我怎么就攤上這事巡语。” “怎么了淮菠?”我有些...
    開封第一講書人閱讀 156,723評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵男公,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我合陵,道長(zhǎng)枢赔,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,357評(píng)論 1 283
  • 正文 為了忘掉前任拥知,我火速辦了婚禮踏拜,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘低剔。我一直安慰自己速梗,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,412評(píng)論 5 384
  • 文/花漫 我一把揭開白布户侥。 她就那樣靜靜地躺著,像睡著了一般峦嗤。 火紅的嫁衣襯著肌膚如雪蕊唐。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,760評(píng)論 1 289
  • 那天烁设,我揣著相機(jī)與錄音替梨,去河邊找鬼钓试。 笑死,一個(gè)胖子當(dāng)著我的面吹牛副瀑,可吹牛的內(nèi)容都是我干的弓熏。 我是一名探鬼主播,決...
    沈念sama閱讀 38,904評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼糠睡,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼挽鞠!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起狈孔,我...
    開封第一講書人閱讀 37,672評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤信认,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后均抽,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體嫁赏,經(jīng)...
    沈念sama閱讀 44,118評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,456評(píng)論 2 325
  • 正文 我和宋清朗相戀三年油挥,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了潦蝇。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,599評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡深寥,死狀恐怖攘乒,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情翩迈,我是刑警寧澤持灰,帶...
    沈念sama閱讀 34,264評(píng)論 4 328
  • 正文 年R本政府宣布,位于F島的核電站负饲,受9級(jí)特大地震影響堤魁,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜返十,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,857評(píng)論 3 312
  • 文/蒙蒙 一妥泉、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧洞坑,春花似錦盲链、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,731評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至排拷,卻和暖如春侧漓,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背监氢。 一陣腳步聲響...
    開封第一講書人閱讀 31,956評(píng)論 1 264
  • 我被黑心中介騙來泰國(guó)打工布蔗, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留藤违,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,286評(píng)論 2 360
  • 正文 我出身青樓纵揍,卻偏偏與公主長(zhǎng)得像顿乒,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子泽谨,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,465評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容