[譯]大數(shù)據(jù)分析平臺搭建教程:基于Apache Zeppelin Notebook和R的交互式數(shù)據(jù)科學(xué)

介紹

這篇文章的目的是幫助您開始使用 Apache Zeppelin Notebook,它可以滿足您用R做數(shù)據(jù)科學(xué)的需求廓啊。Zeppelin 是一個(gè)提供交互數(shù)據(jù)分析且基于Web的筆記本乾巧。方便你做出可數(shù)據(jù)驅(qū)動的嫉柴、可交互且可協(xié)作的精美文檔硅卢,并且支持多種語言低飒,包括 Scala(使用 Apache Spark)仁期、Python(Apache Spark)桑驱、SparkSQL竭恬、 Hive、 Markdown熬的、Shell等等痊硕。

然而,最新的官方版本是0.5.0,還不支持R編程語言。幸運(yùn)的是押框,NFLabs公司做了個(gè)開源項(xiàng)目,讓我提供了一個(gè)R的編譯器岔绸。這個(gè)編譯器是讓用戶可以使用自定義的語言做為數(shù)據(jù)處理后端的一個(gè) Zeppelin 插件。例如在 Zeppelin 使用scala代碼,您需要一個(gè) Spark編譯器恋拷。所以,如果你像我一樣有足夠的耐心將R集成到Zeppelin中制轰, 這個(gè)教程將告訴你怎樣從源碼開始配置 Zeppelin和R宇植。

準(zhǔn)備工作

  • 我們將通過Bash shell在Linux上安裝Zeppelin。如果您使用的是Windows操作系統(tǒng),我建議您安裝和使用Cygwin終端(它提供功能類似于Windows上的Linux發(fā)行版)刚盈。

  • 確保 Java 1.7 和 Maven 3.2.x 是已經(jīng)安裝并且配置到環(huán)境變量中。

從源代碼構(gòu)建 Zeppelin

第一步:下載 Zeppelin 源代碼

去這github分支下載源代碼挂脑,將這個(gè)鏈接復(fù)制并粘貼到你的瀏覽器:https://github.com/elbamos/incubator-zeppelin/tree/rinterpreter

在我的例子中我已經(jīng)下載并解壓文件夾在我的桌面

第二步:構(gòu)建 Zeppelin

假設(shè)你是安裝在單機(jī)藕漱,打開你的Terminal,運(yùn)行下面的代碼崭闲。如果你是安裝在一個(gè)集群肋联,會稍微復(fù)雜一點(diǎn),具體步驟 Zeppelin 的文檔中找到刁俭。

$ cd Desktop/Apache/incubator-zeppelin-rinterpreter
$ mvn clean package -DskipTests

這將需要約16分鐘構(gòu)建Zeppelin橄仍、Spark,所有引擎包括R,markdown,shell,hive等。(見下圖)牍戚。

第三步:啟動 Zeppelin

運(yùn)行以下命令啟動Zeppelin:

$ ./bin/zeppelin-daemon.sh start


打開web瀏覽器沙兰,訪問http://localhost:8080。此時(shí),您已經(jīng)準(zhǔn)備好開始在 Zeppelin 用代碼創(chuàng)建交互筆記本翘魄。

交互式數(shù)據(jù)科學(xué)

第一步:創(chuàng)建一個(gè)筆記本

單擊下拉箭頭旁邊的“筆記本”頁面,點(diǎn)擊“創(chuàng)建新報(bào)告”鼎天。

給你的筆記本命名或您可以使用指定的缺省名稱。我命名為“Base R in Apache Zeppelin”暑竟。

第二步:開始你的分析

如下圖所示斋射,調(diào)用R可以用“%spark.r”或“%spark.knitr”標(biāo)簽。首先讓我們用 markdown 寫一些介紹但荤。

根據(jù)我們可能需要我們的分析罗岖,現(xiàn)在讓我們來安裝一些包。

我們將使用“flights”數(shù)據(jù)集顯示2013年離開紐約的航班腹躁,現(xiàn)在讓我們讀取數(shù)據(jù)集桑包。

現(xiàn)在,讓我們使用dplyr(用管道符)做一些數(shù)據(jù)操作。

您還可以使用條形圖和餅圖來可視化一些描述性統(tǒng)計(jì)數(shù)據(jù)纺非。

現(xiàn)在,讓我們與ggplot2共舞哑了。

現(xiàn)在,讓我們用caret包做一些統(tǒng)計(jì)的機(jī)器學(xué)習(xí)赘方。

最后,繪制幾個(gè)地圖弱左。


結(jié)束語

Zeppelin 幫助您使用多種編程語言創(chuàng)建交互式文檔和美麗的圖表窄陡。這篇文章的目的是幫助你配置 Zeppelin 和 R。希望這牛逼的的項(xiàng)目管理委員會(PMC)的開源項(xiàng)目可以用R引擎發(fā)布下一個(gè)版本拆火。到時(shí)候安裝 Zeppelin肯定會更快更方便,而不必從源代碼構(gòu)建跳夭。

還值得一提的是,還有另一個(gè)R的編譯器是由 Data Layer 提供的。你可以在這里找到說明如何使用:https://github.com/datalayer/zeppelin-R们镜。

你可以嘗試著兩個(gè)編譯器币叹,然后然后在下面的評論區(qū)分享一下你的使用體驗(yàn)。

Data Layer提供的編譯器

RCharts

Rchats Map

GoogleViz

Scala R Binding

R Scala Dataframe Binding

SparkR

用Docker鏡像部署

為了您的方便, Datalayer 為Apache Zeppelin 提供了一個(gè)最新的 Docker鏡像模狭。你可以通過執(zhí)行下面的命令來獲取鏡像

docker pull datalayer/zeppelin-rscala

Run the Zeppelin notebook with:

docker run -it -p 2222:22 -p 8080:8080 -p 4040:4040 datalayer/zeppelin-rscala

現(xiàn)在套硼,你可以去http://localhost:8080測試這個(gè)R教程筆記了。

展望

作為后續(xù)這篇文章中,我們將看到在 Zeppelin 中如何使用 Apache Spark(尤其是SparkR)胞皱。

更新

此小節(jié)由于原文有可能變動邪意,故不作翻譯,望讀者原諒反砌,可以直接訪問原文查看最新的更新情況雾鬼。

本文已獲得原作者:Daniel Emaasit 授權(quán),并由 HarryZhu 翻譯宴树。
【原文地址】:http://blog.sparkiq-labs.com/2015/11/16/interactive-data-science-with-r-in-apache-zeppelin-notebook/

作為分享主義者(sharism)策菜,本人所有互聯(lián)網(wǎng)發(fā)布的圖文均遵從CC版權(quán),轉(zhuǎn)載請保留作者信息并注明作者 Harry Zhu 的 FinanceR專欄:https://segmentfault.com/blog/harryprince酒贬,如果涉及源代碼請注明GitHub地址:https://github.com/harryprince又憨。微信號: harryzhustudio
商業(yè)使用請聯(lián)系作者。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末锭吨,一起剝皮案震驚了整個(gè)濱河市蠢莺,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌零如,老刑警劉巖躏将,帶你破解...
    沈念sama閱讀 207,248評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異考蕾,居然都是意外死亡祸憋,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,681評論 2 381
  • 文/潘曉璐 我一進(jìn)店門肖卧,熙熙樓的掌柜王于貴愁眉苦臉地迎上來蚯窥,“玉大人,你說我怎么就攤上這事±乖” “怎么了巍沙?”我有些...
    開封第一講書人閱讀 153,443評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長矛紫。 經(jīng)常有香客問我,道長牌里,這世上最難降的妖魔是什么颊咬? 我笑而不...
    開封第一講書人閱讀 55,475評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮牡辽,結(jié)果婚禮上喳篇,老公的妹妹穿的比我還像新娘。我一直安慰自己态辛,他們只是感情好麸澜,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,458評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著奏黑,像睡著了一般炊邦。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上熟史,一...
    開封第一講書人閱讀 49,185評論 1 284
  • 那天馁害,我揣著相機(jī)與錄音,去河邊找鬼蹂匹。 笑死碘菜,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的限寞。 我是一名探鬼主播忍啸,決...
    沈念sama閱讀 38,451評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼履植!你這毒婦竟也來了计雌?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,112評論 0 261
  • 序言:老撾萬榮一對情侶失蹤玫霎,失蹤者是張志新(化名)和其女友劉穎白粉,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體鼠渺,經(jīng)...
    沈念sama閱讀 43,609評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡鸭巴,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,083評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了拦盹。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片鹃祖。...
    茶點(diǎn)故事閱讀 38,163評論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖普舆,靈堂內(nèi)的尸體忽然破棺而出恬口,到底是詐尸還是另有隱情校读,我是刑警寧澤,帶...
    沈念sama閱讀 33,803評論 4 323
  • 正文 年R本政府宣布祖能,位于F島的核電站歉秫,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏养铸。R本人自食惡果不足惜雁芙,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,357評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望钞螟。 院中可真熱鬧兔甘,春花似錦、人聲如沸鳞滨。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,357評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽拯啦。三九已至澡匪,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間褒链,已是汗流浹背仙蛉。 一陣腳步聲響...
    開封第一講書人閱讀 31,590評論 1 261
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留碱蒙,地道東北人荠瘪。 一個(gè)月前我還...
    沈念sama閱讀 45,636評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像赛惩,于是被迫代替她去往敵國和親哀墓。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,925評論 2 344

推薦閱讀更多精彩內(nèi)容