2.環(huán)境搭建

目錄
1.系統(tǒng)架構(gòu)
2.環(huán)境搭建
2.1本地環(huán)境下kafka批量導入數(shù)據(jù)
2.2 kafka-manager的安裝與配置
 3.1 Spark Streaming 性能調(diào)優(yōu)(一): 解決并行度
 3.2 Spark Streaming 性能調(diào)優(yōu)(二): 解決task傾斜

這個項目需要安裝:

1.Cassandra 2.2.8

Apache Cassandra是一個高度可擴展的高性能分布式數(shù)據(jù)庫边苹，用于處理大量商用服務(wù)器上的大量數(shù)據(jù)复局，提供高可用性炼团，無單點故障私蕾。這是一種NoSQL類型的數(shù)據(jù)庫捧挺。以下是cassandra的特性:

彈性可擴展性 - Cassandra是高度可擴展的; 它允許添加更多的硬件以適應(yīng)更多的客戶和更多的數(shù)據(jù)根據(jù)要求少欺。
始終基于架構(gòu) - Cassandra沒有單點故障放吩，它可以連續(xù)用于不能承擔故障的關(guān)鍵業(yè)務(wù)應(yīng)用程序。
快速線性性能 - Cassandra是線性可擴展性的抡锈，即它為你增加集群中的節(jié)點數(shù)量增加你的吞吐量。因此码倦，保持一個快速的響應(yīng)時間企孩。
靈活的數(shù)據(jù)存儲 - Cassandra適應(yīng)所有可能的數(shù)據(jù)格式，包括：結(jié)構(gòu)化袁稽，半結(jié)構(gòu)化和非結(jié)構(gòu)化勿璃。它可以根據(jù)您的需要動態(tài)地適應(yīng)變化的數(shù)據(jù)結(jié)構(gòu)。
便捷的數(shù)據(jù)分發(fā) - Cassandra通過在多個數(shù)據(jù)中心之間復制數(shù)據(jù)推汽，可以靈活地在需要時分發(fā)數(shù)據(jù)补疑。
事務(wù)支持 - Cassandra支持屬性，如原子性歹撒，一致性莲组，隔離和持久性（ACID）。
快速寫入 - Cassandra被設(shè)計為在廉價的商品硬件上運行暖夭。它執(zhí)行快速寫入锹杈，并可以存儲數(shù)百TB的數(shù)據(jù)，而不犧牲讀取效率迈着。

2.Kairosdb 1.1.3

KairosDB是一個快速可靠的分布式時間序列數(shù)據(jù)庫竭望，主要用Cassandra來做底層存儲，也可以使用HBase裕菠。KairosDB是在OpenTSDB基礎(chǔ)上重寫的咬清。其主要功能如下:

可以獲取基礎(chǔ)設(shè)施和服務(wù)的實時狀態(tài)信息，展示集群的各種軟硬件錯誤奴潘，性能變化以及性能瓶頸旧烧。
可以衡量系統(tǒng)的SLA（服務(wù)類型、服務(wù)質(zhì)量等）画髓，理解復雜系統(tǒng)間的相互作用掘剪，展示資源消耗情況。集群的整體作業(yè)情況雀扶，可以用以輔助預算和集群資源協(xié)調(diào)杖小。
可以展示集群的主要性能瓶頸，經(jīng)常出現(xiàn)的錯誤愚墓，從而可以著力重點解決重要問題予权。

3.Kafka 0.8.2

Kafka其實說白了就是一個分布式的消息隊列,底層依賴于Zookeeper.kafka 是一個中間件，是一個服務(wù)浪册。任何機器都可以向它生產(chǎn)數(shù)據(jù)和消費數(shù)據(jù)扫腺。

4.Zookeeper 3.4.5

Kafka的核心,負責保存Kafka的topic信息和其他配置信息,也是一個中間件

5.spark 2.3.0

Apache Spark 是專為大規(guī)模數(shù)據(jù)處理而設(shè)計的快速通用的計算引擎,其啟用了內(nèi)存分布數(shù)據(jù)集，除了能夠提供交互式查詢外村象，它還可以優(yōu)化迭代工作負載笆环。要運行spark還需要在機器上配置scala

6.jdk 1.8

1.安裝Cassandra:

①.下載:
官網(wǎng)上只有最新版的下載,但是官方提供了所有舊版release的倉庫,點擊這里就可以找到自己要下載的版本了.
②.配置Cassandra:
1.首先在你喜歡的地方,新建以下三個文件夾:

mkdir /var/lib/cassandra/data
mkdir /var/lib/cassandra/commitlog
mkdir /var/lib/cassandra/saved_caches

2.解壓剛剛下載好的壓縮包,之后進入/cassandra/conf目錄,打開cassandra.yaml文件,將配置文件中的三個地方改成剛剛新建的那三個文件夾

data_file_directories:
- /var/lib/cassandra/data // 注意,這里-前面不能有空格!!!
commitlog_directory: /var/lib/cassandra/commitlog
saved_caches_directory: /var/lib/cassandra/saved_caches
# 開啟rpc服務(wù),如果不開啟的話,Kairosdb將無法調(diào)用cassandra的api
start_rpc: true

③.運行:
進入/cassandra/bin目錄,運行腳本:

./cassandra

如果沒報錯的話就表示cassandra正常啟動了,使用:

./nodetool status

也可以查看當前數(shù)據(jù)庫所有節(jié)點的狀態(tài)

2.安裝Kairosdb

①.下載:
kairosdb是開源的,在github上可以直接下載:https://github.com/kairosdb/kairosdb/releases
直接下載需要的版本即可
②.配置:
解壓剛剛下載的壓縮包,進入/conf目錄,打開Kairosdb.properties文件,
要使用cassandra作為kairosdb的存儲服務(wù),就必須如下配置:

#kairosdb.service.datastore=org.kairosdb.datastore.h2.H2Module // 默認使用h2作為存儲服務(wù),所以要注釋這行  
kairosdb.service.datastore=org.kairosdb.datastore.cassandra.CassandraModule

其他配置默認即可
③.運行:
運行Kairosdb前需要先啟動cassandra,啟動cassandra后,進入Kairosdb/bin目錄,運行命令:

./kairosdb.sh run

即可啟動Kairosdb

3.安裝Kafka:

①.下載:
Kafka直接去官方下就可以,官網(wǎng)挺好看的,一下子就找到了要安裝的版本了,這里附一下連接吧
http://kafka.apache.org/downloads
②.配置:
解壓剛剛下載的壓縮包,先進入/conf目錄,編輯zookeeper.properties文件:
配置可以跟下面安裝Zookeeper的配置文件一樣:

# The number of milliseconds of each tick
tickTime=2000
# The number of ticks that the initial 
# synchronization phase can take
initLimit=10
# The number of ticks that can pass between 
# sending a request and getting an acknowledgement
syncLimit=5
# the directory where the snapshot is stored.
# do not use /tmp for storage, /tmp here is just 
# example sakes.
dataDir=/opt/zookeeper-datas
# the port at which the clients will connect
clientPort=2181
#
# Be sure to read the maintenance section of the 
# administrator guide before turning on autopurge.
#
# http://zookeeper.apache.org/doc/current/zookeeperAdmin.html#sc_maintenance
#
# The number of snapshots to retain in dataDir
#autopurge.snapRetainCount=3
# Purge task interval in hours
# Set to "0" to disable auto purge feature
#autopurge.purgeInterval=1

至于server.properties也是需要修改的,這個就先留到后面我摸索好所有組件如何用再回來完善吧...
③.運行:
進入/bin目錄,輸入以下命令:

kafka-server-start.sh config/server.properties &

即可指定配置文件,并開啟kafka后臺進程

Kafka-Manager

日常開發(fā)中總是敲命令行來管理kafka還是有點不方便,所以這里我用了kafka-manager來管理kafka.
這里附上我安裝kafka-mananger的過程: kafka-manager的安裝與配置

4.安裝Zookeeper:

kafka下載好后其實自帶了zookeeper, 詳情可以去這篇補充文章里面看2.1 本地環(huán)境下kafka批量導入數(shù)據(jù)

①.下載:
同樣地,zookeeper官網(wǎng)只有最新版的,要想下載以前的版本,只能通過官網(wǎng)提供的舊版?zhèn)}庫:
https://archive.apache.org/dist/zookeeper/
這樣就可以找到自己想要的版本了
②.配置:
1.新建文件夾:

mkdir /opt/zookeeper-datas

解壓剛剛下載好的壓縮包,進行/conf目錄,新建zoo.cfg文件,并輸入以下內(nèi)容:

# The number of milliseconds of each tick
tickTime=2000
# The number of ticks that the initial 
# synchronization phase can take
initLimit=10
# The number of ticks that can pass between 
# sending a request and getting an acknowledgement
syncLimit=5
# the directory where the snapshot is stored.
# do not use /tmp for storage, /tmp here is just 
# example sakes.
dataDir=/opt/zookeeper-datas
# the port at which the clients will connect
clientPort=2181
#
# Be sure to read the maintenance section of the 
# administrator guide before turning on autopurge.
#
# http://zookeeper.apache.org/doc/current/zookeeperAdmin.html#sc_maintenance
#
# The number of snapshots to retain in dataDir
#autopurge.snapRetainCount=3
# Purge task interval in hours
# Set to "0" to disable auto purge feature
#autopurge.purgeInterval=1

新建好配置文件后,進行/bin目錄,運行命令:

./zkServer.sh start

即可開啟zookeeper服務(wù)

5.安裝spark:

spark就沒有啥比較好的安裝方法了,下載scala,配置jdk,再下載spark的程序壓縮包(spark的壓縮包可能需要科學上網(wǎng)才能正常下載)就行,開包即用

6.安裝jdk:

這么簡單的我就不寫了,網(wǎng)上一搜一大堆

最后編輯于：2018.04.12 17:25:30

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末攒至，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子躁劣，更是在濱河造成了極大的恐慌迫吐，老刑警劉巖，帶你破解...
沈念sama閱讀 212,454評論 6贊 493
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件账忘，死亡現(xiàn)場離奇詭異志膀，居然都是意外死亡，警方通過查閱死者的電腦和手機鳖擒，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,553評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門溉浙，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人蒋荚，你說我怎么就攤上這事戳稽。” “怎么了期升？”我有些...
開封第一講書人閱讀 157,921評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵惊奇，是天一觀的道長。經(jīng)常有香客問我播赁，道長赊时，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 56,648評論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任行拢，我火速辦了婚禮，結(jié)果婚禮上诞吱，老公的妹妹穿的比我還像新娘舟奠。我一直安慰自己，他們只是感情好房维，可當我...
茶點故事閱讀 65,770評論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布沼瘫。她就那樣靜靜地躺著，像睡著了一般咙俩。火紅的嫁衣襯著肌膚如雪耿戚。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,950評論 1贊 291
城市分裂傳說
那天阿趁，我揣著相機與錄音膜蛔，去河邊找鬼。笑死脖阵，一個胖子當著我的面吹牛皂股，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播命黔，決...
沈念sama閱讀 39,090評論 3贊 410
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼呜呐，長吁一口氣：“原來是場噩夢啊……” “哼就斤！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起蘑辑，我...
開封第一講書人閱讀 37,817評論 0贊 268
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤洋机，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后洋魂，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體绷旗，經(jīng)...
沈念sama閱讀 44,275評論 1贊 303
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,592評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年忧设，在試婚紗的時候發(fā)現(xiàn)自己被綠了刁标。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 38,724評論 1贊 341
活死人
序言：一個原本活蹦亂跳的男人離奇死亡址晕，死狀恐怖膀懈，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情谨垃，我是刑警寧澤启搂，帶...
沈念sama閱讀 34,409評論 4贊 333
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站刘陶，受9級特大地震影響胳赌，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜匙隔，卻給世界環(huán)境...
茶點故事閱讀 40,052評論 3贊 316
男人毒藥：我在死后第九天來索命
文/蒙蒙一疑苫、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧纷责，春花似錦捍掺、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,815評論 0贊 21
一樁弒父案挺勿，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至喂柒，卻和暖如春不瓶，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背灾杰。一陣腳步聲響...
開封第一講書人閱讀 32,043評論 1贊 266
情欲美人皮
我被黑心中介騙來泰國打工蚊丐，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人艳吠。一個月前我還...
沈念sama閱讀 46,503評論 2贊 361
代替公主和親
正文我出身青樓吠撮，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子泥兰，可洞房花燭夜當晚...
茶點故事閱讀 43,627評論 2贊 350