Hadoop?安裝與集群分布式配置

轉(zhuǎn)自杰的博客

介紹

(1)Hadoop是一個(gè)由Apache基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。

用戶可以在不了解分布式底層細(xì)節(jié)的情況下轰坊,開發(fā)分布式程序加勤。充分利用集群的威力進(jìn)行高速運(yùn)算和存儲(chǔ)。

Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(Hadoop Distributed File System)境蜕,簡稱HDFS谊惭。HDFS有高容錯(cuò)性的特點(diǎn)汽馋,并且設(shè)計(jì)用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問應(yīng)用程序的數(shù)據(jù)圈盔,適合那些有著超大數(shù)據(jù)集(large data set)的應(yīng)用程序豹芯。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streaming access)文件系統(tǒng)中的數(shù)據(jù)药磺。

Hadoop的框架最核心的設(shè)計(jì)就是:HDFS和MapReduce告组。HDFS為海量的數(shù)據(jù)提供了存儲(chǔ)煤伟,則MapReduce為海量的數(shù)據(jù)提供了計(jì)算癌佩。

(2)Hadoop是一個(gè)開源的框架,可編寫和運(yùn)行分布式應(yīng)用處理大規(guī)模數(shù)據(jù)便锨,是專為離線和大規(guī)模數(shù)據(jù)分析而設(shè)計(jì)的围辙,并不適合那種對(duì)幾個(gè)記錄隨機(jī)讀寫的在線事務(wù)處理模式。Hadoop=HDFS(文件系統(tǒng)放案,數(shù)據(jù)存儲(chǔ)技術(shù)相關(guān))+ Mapreduce(數(shù)據(jù)處理)姚建,Hadoop的數(shù)據(jù)來源可以是任何形式,在處理半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)上與關(guān)系型數(shù)據(jù)庫相比有更好的性能吱殉,具有更靈活的處理能力掸冤,不管任何數(shù)據(jù)形式最終會(huì)轉(zhuǎn)化為key/value,key/value是基本數(shù)據(jù)單元友雳。用函數(shù)式變成Mapreduce代替SQL稿湿,SQL是查詢語句,而Mapreduce則是使用腳本和代碼押赊,而對(duì)于適用于關(guān)系型數(shù)據(jù)庫饺藤,習(xí)慣SQL的Hadoop有開源工具h(yuǎn)ive代替。

(3)Hadoop就是一個(gè)分布式計(jì)算的解決方案.

Hadoop能做什么

hadoop擅長日志分析流礁,facebook就用Hive來進(jìn)行日志分析涕俗,2009年時(shí)facebook就有非編程人員的30%的人使用HiveQL進(jìn)行數(shù)據(jù)分析;淘寶搜索中的自定義篩選也使用的Hive神帅;利用Pig還可以做高級(jí)的數(shù)據(jù)處理再姑,包括Twitter、LinkedIn 上用于發(fā)現(xiàn)您可能認(rèn)識(shí)的人找御,可以實(shí)現(xiàn)類似Amazon.com的協(xié)同過濾的推薦效果元镀。淘寶的商品推薦也是谜嫉!在Yahoo!的40%的Hadoop作業(yè)是用pig運(yùn)行的凹联,包括垃圾郵件的識(shí)別和過濾沐兰,還有用戶特征建模。

大數(shù)據(jù)時(shí)代的到來,給GIS的創(chuàng)新發(fā)展帶來了前所未有的機(jī)遇蔽挠。本文對(duì)Hadoop和GIS進(jìn)行了研究分析,提出了基于Hadoop的GIS大數(shù)據(jù)處理模型住闯。試驗(yàn)結(jié)果顯示,該模型能夠擴(kuò)充Hadoop的空間運(yùn)算能力,對(duì)后期地理信息大數(shù)據(jù)挖掘和分析有一定的參考價(jià)值。

ArcGIS與Hadoop

隨著ArcGIS 10.2版本的發(fā)布澳淑,一同推出的開源工具包GIS Tools for Hadoop比原,完美的詮釋了海量空間數(shù)據(jù)與分布式運(yùn)算的結(jié)合。

GIS Tools for Hadoop 是一個(gè)開源的工具包杠巡,它定義和構(gòu)建了一整套空間分析的環(huán)境量窘,在GIS與hadoop之間搭建起了一個(gè)橋梁。

從20世紀(jì)60年代至今氢拥,GIS已經(jīng)迅速發(fā)展成了一個(gè)獨(dú)特的研究與應(yīng)用領(lǐng)域蚌铜,并形成一個(gè)全球性的重要行業(yè)。

Esri這些年來嫩海,一直致力于研究GIS信息與數(shù)據(jù)的標(biāo)準(zhǔn)化冬殃,推出了ArcSDE這樣的空間數(shù)據(jù)引擎,讓空間數(shù)據(jù)與關(guān)系型數(shù)據(jù)庫之間搭起了一個(gè)通路叁怪,可以讓空間數(shù)據(jù)保存在主流的商業(yè)數(shù)據(jù)庫中审葬,使用每種DBMS所支持的標(biāo)準(zhǔn)SQL類型來管理數(shù)據(jù),并且支持所有的空間數(shù)據(jù)類型(包括要素奕谭、柵格涣觉、拓?fù)洹⒕W(wǎng)絡(luò)血柳、地形果元、測(cè)量數(shù)據(jù)驹沿、表格數(shù)據(jù)友多,以及位置數(shù)據(jù)刻炒,例如地址、模型和元數(shù)據(jù))栖榨,而無需用戶考慮DBMS的底層實(shí)現(xiàn)昆汹。

但是,空間數(shù)據(jù)更多的是像影像婴栽、TIN(Triangulated IrregularNetwork)這樣的非結(jié)構(gòu)化數(shù)據(jù)满粗,而數(shù)據(jù)庫中的查詢語言,正如其名稱的簡寫——SQL愚争,就顯示了它的僵化映皆。所以急需新的挤聘,非關(guān)系型、非結(jié)構(gòu)化的數(shù)據(jù)庫和數(shù)據(jù)分析方法的出現(xiàn)捅彻。

Hadoop以其高可靠性组去、高擴(kuò)展性、高效性和高容錯(cuò)性步淹,特別是在海量的非結(jié)構(gòu)化或者半結(jié)構(gòu)化數(shù)據(jù)上的分析處理優(yōu)勢(shì)从隆,給我們提供了另外一種思路。 Hadoop的核心算法就是“分而治之”缭裆,這個(gè)與GIS里面很多算法是相通的键闺,GIS里面很多應(yīng)用場(chǎng)景都是要去分析不同區(qū)域內(nèi)的各種信息,把這樣的計(jì)算放到Hadoop上澈驼,正好利用了Hadoop的分布式計(jì)算特性辛燥。特別是一直讓GIS界最頭痛的海量影像數(shù)據(jù)存儲(chǔ)和分析,在Hadoop的分布式存儲(chǔ)和分布式運(yùn)算架構(gòu)上缝其,更是能夠體現(xiàn)出Hadoop在GIS應(yīng)用上的優(yōu)勢(shì)挎塌。

當(dāng)我們數(shù)據(jù)量不夠的時(shí)候,我們需要設(shè)計(jì)一套很復(fù)雜的算法氏淑,在樣本數(shù)據(jù)中去探尋其中的規(guī)律勃蜘,而且還要使用各種手段來保證數(shù)據(jù)的準(zhǔn)確無誤,但是當(dāng)數(shù)據(jù)量足夠大的時(shí)候假残,往往只需要一些很簡單的算法就可以從海量的數(shù)據(jù)中得到滿意的結(jié)果了。但是限于技術(shù)手段炉擅,特別是空間分析對(duì)計(jì)算資源的消耗辉懒,我們以前根本做不到基于如此龐大數(shù)據(jù)的分析。而放在hadoop上谍失,可以利用Hadoop強(qiáng)大的分布式分析功能眶俩,來處理和分析更多的數(shù)據(jù)集。

比如在出租車輛定位的研究中快鱼,GPS數(shù)據(jù)每個(gè)1秒鐘就將記錄一條信息颠印,信息的內(nèi)容包括經(jīng)緯度、海拔抹竹、時(shí)間线罕、車速、方向等等窃判,每輛車每天生成的數(shù)據(jù)量就高達(dá)8萬多條钞楼,北京市的目前有出租車約為7萬輛,也就是說每天生成GPS數(shù)據(jù)就高達(dá)60億條記錄袄琳。如果把這個(gè)信息的收集范圍擴(kuò)展到全國询件,年復(fù)一年燃乍,日復(fù)一日,那么收集上來的數(shù)據(jù)宛琅,將遠(yuǎn)遠(yuǎn)超出人們的想象刻蟹。

這些數(shù)據(jù)如同地下的金礦,等著我們?nèi)グl(fā)掘嘿辟,有了這些數(shù)據(jù)座咆,利用空間分析的方法,我們就可以計(jì)算出很多有意義的結(jié)果仓洼。如用戶可以知道介陶,在各種時(shí)段中,在何處打車最容易色建?出租車司機(jī)們可以知道在什么地方趴活最容易拉到客戶哺呜,而保證最省油。運(yùn)營公司可以知道在不同時(shí)間段出租車運(yùn)營數(shù)量最少的區(qū)域箕戳,進(jìn)行調(diào)整合理分配資源某残;交通部門可以根據(jù)出租車的時(shí)速來得到各道路的交通情況等等。

計(jì)算機(jī)和軟件的處理是有限的陵吸,當(dāng)數(shù)據(jù)量到達(dá)一定極限的時(shí)候玻墅,常規(guī)的手段就對(duì)這些龐大的數(shù)據(jù)無能為力了。這樣就需要有新的技術(shù)來實(shí)現(xiàn)這種突破壮虫,以轉(zhuǎn)變我們的處理手段澳厢。最能代表這種轉(zhuǎn)變的,就是Hadoop的流行囚似。

而GIS Tools for Hadoop的發(fā)布剩拢,讓hadoop正式登上了空間分析的舞臺(tái)。

目前GIS Tools for Hadoop只是邁出了小小的一步饶唤,實(shí)現(xiàn)了包括相交徐伐、包含、緩沖等常用的空間分析功能募狂,并且與ArcGIS產(chǎn)品無縫的集成办素,可以在ArcGIS for Desktop中直接調(diào)用,并且將結(jié)果以空間信息的方式展現(xiàn)出來祸穷。但是還僅僅是開始性穿,未來我們還期待著能夠解決更多的問題,如GIS界最頭疼的地圖緩存切片生成和存儲(chǔ)的問題粱哼、海量遙感影像的計(jì)算季二、大規(guī)模批空間插值、海量空間數(shù)據(jù)聚合、空間數(shù)據(jù)處理等等胯舷。

GIS Tools for Hadoop的發(fā)布表現(xiàn)了Esri始終關(guān)注IT界的熱點(diǎn)技術(shù)刻蚯,并努力為不同行業(yè)用戶提供更多專業(yè)的支持。同時(shí)也是ArcGIS平臺(tái)集成大數(shù)據(jù)一次很好的嘗試桑嘶。這個(gè)工具解決了Esri在大數(shù)據(jù)應(yīng)用方面從無到有的問題炊汹,有著重要的意義。GIS Tools for Hadoop在未來還有很大的發(fā)展空間逃顶,期待在后面的版本中會(huì)增加對(duì)影像數(shù)據(jù)的支持讨便,這樣對(duì)GIS行業(yè)來說將有更加重要的應(yīng)用。

ArcGIS提供Hadoop方面的項(xiàng)目

首先可以打開github中Esri的內(nèi)容 https://github.com/Esri以政,然后在里面搜索 hadoop霸褒,會(huì)發(fā)現(xiàn)目前Esri在hadoop方面已經(jīng)提供了四個(gè)項(xiàng)目。

1盈蛮、spatial-framework-for-hadoop 基于hadoop的空間數(shù)據(jù)處理和分析框架废菱,該框架允許開發(fā)者和數(shù)據(jù)科學(xué)家通過hadoop云計(jì)算平臺(tái)來處理和分析空間數(shù)據(jù)。

2抖誉、gis-tools-for-hadoop 基于Hadoop的GIS工具箱殊轴,可以通過GIS工具對(duì)大數(shù)據(jù)進(jìn)行空間分析。

3袒炉、geoprocessing-tools-for-hadoop 基于Hadoop的地理處理工具箱旁理,提供了地理數(shù)據(jù)庫和Hadoop之間數(shù)據(jù)存儲(chǔ)轉(zhuǎn)換功能,并且也實(shí)現(xiàn)了運(yùn)行Hadoop工作流的功能我磁。

4孽文、hadoop-for-geoevent 是對(duì)ArcGIS GeoEvent功能的一個(gè)擴(kuò)展,實(shí)現(xiàn)了GeoEvents數(shù)據(jù)在HDFS上的存儲(chǔ)十性。

1. 安裝操作系統(tǒng)

在虛擬機(jī)環(huán)境張安裝Ubuntu 操作系統(tǒng)

2.Hadoop 安裝與集群分布式配置

2.1創(chuàng)建HADOOP用戶

如果你安裝 Ubuntu 的時(shí)候不是用的 “hadoop” 用戶叛溢,那么需要增加一個(gè)名為 hadoop 的用戶。首先按 ctrl+alt+t 打開終端窗口劲适,輸入如下命令創(chuàng)建新用戶 :

接著使用如下命令設(shè)置密碼,按提示輸入兩次密碼:

可為用戶增加管理員權(quán)限厢蒜,方便部署霞势,避免比較棘手的權(quán)限問題:

最后注銷當(dāng)前用戶(點(diǎn)擊屏幕右上角的齒輪,選擇注銷)斑鸦,返回登陸界面愕贡。在登陸界面中選擇剛創(chuàng)建的 hadoop 用戶進(jìn)行登陸。

2.2更新APT

用 hadoop 用戶登錄后巷屿,我們先更新一下 apt固以,后續(xù)我們使用 apt 安裝軟件,如果沒更新可能有一些軟件安裝不了。按 ctrl+alt+t 打開終端窗口憨琳,執(zhí)行如下命令:

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末诫钓,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子篙螟,更是在濱河造成了極大的恐慌菌湃,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,888評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件遍略,死亡現(xiàn)場(chǎng)離奇詭異惧所,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)绪杏,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,677評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門下愈,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人蕾久,你說我怎么就攤上這事势似。” “怎么了腔彰?”我有些...
    開封第一講書人閱讀 168,386評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵叫编,是天一觀的道長。 經(jīng)常有香客問我霹抛,道長搓逾,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,726評(píng)論 1 297
  • 正文 為了忘掉前任杯拐,我火速辦了婚禮霞篡,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘端逼。我一直安慰自己朗兵,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,729評(píng)論 6 397
  • 文/花漫 我一把揭開白布顶滩。 她就那樣靜靜地躺著余掖,像睡著了一般。 火紅的嫁衣襯著肌膚如雪礁鲁。 梳的紋絲不亂的頭發(fā)上盐欺,一...
    開封第一講書人閱讀 52,337評(píng)論 1 310
  • 那天,我揣著相機(jī)與錄音仅醇,去河邊找鬼冗美。 笑死,一個(gè)胖子當(dāng)著我的面吹牛析二,可吹牛的內(nèi)容都是我干的粉洼。 我是一名探鬼主播节预,決...
    沈念sama閱讀 40,902評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼属韧!你這毒婦竟也來了安拟?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,807評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤挫剑,失蹤者是張志新(化名)和其女友劉穎去扣,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體樊破,經(jīng)...
    沈念sama閱讀 46,349評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡愉棱,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,439評(píng)論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了哲戚。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片奔滑。...
    茶點(diǎn)故事閱讀 40,567評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖顺少,靈堂內(nèi)的尸體忽然破棺而出朋其,到底是詐尸還是另有隱情,我是刑警寧澤脆炎,帶...
    沈念sama閱讀 36,242評(píng)論 5 350
  • 正文 年R本政府宣布梅猿,位于F島的核電站,受9級(jí)特大地震影響秒裕,放射性物質(zhì)發(fā)生泄漏袱蚓。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,933評(píng)論 3 334
  • 文/蒙蒙 一几蜻、第九天 我趴在偏房一處隱蔽的房頂上張望喇潘。 院中可真熱鬧,春花似錦梭稚、人聲如沸颖低。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,420評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽忱屑。三九已至,卻和暖如春暇昂,著一層夾襖步出監(jiān)牢的瞬間想幻,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,531評(píng)論 1 272
  • 我被黑心中介騙來泰國打工话浇, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人闹究。 一個(gè)月前我還...
    沈念sama閱讀 48,995評(píng)論 3 377
  • 正文 我出身青樓幔崖,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子赏寇,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,585評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容