Spark初體驗(yàn)(步驟超詳細(xì))

一鄉(xiāng)二里共三夫子不識(shí)四書五經(jīng)六義竟敢教七八九子十分大膽巧号！
十室九貧湊得八兩七錢六分五毫四厘尚且三心二意一等下流

spark

前言

這里，不談spark原理氮兵，作用裂逐，使用場(chǎng)景等，只是一個(gè)spark與java打通的一個(gè)過程泣栈〔犯撸看似簡(jiǎn)單，整整花了哥兩天的時(shí)間南片，版本號(hào)的坑掺涛，服務(wù)器的坑等等，頭脹的能飄起來_{疼进！按照我下面說的環(huán)境和步驟去做薪缆，保證你99%能一次跑過，因?yàn)槲沂且贿厡懘似贿呍谛碌奶摂M機(jī)配置伞广。一切都o(jì)k}

環(huán)境

名稱	版本號(hào)
Linux	CentOS Linux release 7.0.1406 (Core)
jdk	1.8.0_121 OpenJDK 64-Bit Server VM (build 25.121-b13, mixed mode)
scala	Scala code runner version 2.10.4 -- Copyright 2002-2013, LAMP/EPFL
spark	spark-1.6.2-bin-hadoop2.6

環(huán)境部署(超詳細(xì))

最好把當(dāng)前Linux的鏡像庫文件更換掉拣帽，這里我用的是163的傳送門講解得很詳細(xì)

卸掉默認(rèn)的jdk版本

[root@localhost ~]# rpm -qa|grep jdk
java-1.7.0-openjdk-headless-1.7.0.51-2.4.5.5.el7.x86_64
java-1.7.0-openjdk-1.7.0.51-2.4.5.5.el7.x86_64

得到目前jdk的版本疼电，然后刪除

yum -y remove java java-1.7.0-openjdk-headless-1.7.0.51-2.4.5.5.el7.x86_64

然后安裝下載好的jdk，用到的軟件都放在了文末减拭，或者自己去下載或者去各自的官網(wǎng)下載

tar -xvzf jdk-8u121-linux-x64.tar.gz

解壓好之后蔽豺，創(chuàng)建個(gè)軟連接，方便以后更改版本

ln -sf /usr/local/software/jdk1.8.0_121/ /usr/local/jdk

按照此方法分別對(duì)scala和spark操作拧粪，配置后結(jié)果如下

.
├── bin
├── etc
├── games
├── include
├── jdk -> /usr/local/software/jdk1.8.0_121
├── lib
├── lib64
├── libexec
├── sbin
├── scala -> /usr/local/software/scala-2.10.4
├── share
├── software
├── spark -> /usr/local/software/spark-1.6.2-bin-hadoop2.6
└── src

然后將其分別添加到系統(tǒng)的全局變量

vi /etc/profile

在文件的最末端添加下面代碼修陡，注意格式

export JAVA_HOME=/usr/local/jdk
export SCALA_HOME=/usr/local/scala
export SPARK_HOME=/usr/local/spark
export PATH=.:${JAVA_HOME}/bin:${SCALA_HOME}/bin:${SPARK_HOME}/bin:$PATH

最后一定要執(zhí)行下面命令，作用就是即時(shí)生效

source /etc/profile

然后就可以查看版本號(hào)了

java -version
scala -version

到此可霎，spark的環(huán)境就部署好了魄鸦，我這邊代碼依賴管理用的是maven，還需要配置下maven環(huán)境癣朗，
這里我直接用的yum安裝了

yum install maven

等待安裝完畢拾因，在改一下maven的中央倉庫鏡像地址，否咋斯棒，spark需要的幾個(gè)jar包會(huì)下載到你怕為止.
這里maven的地址可以通過mvn -version去查看

Maven home: /usr/share/maven
Java version: 1.8.0_121, vendor: Oracle Corporation
Java home: /usr/local/software/jdk1.8.0_121/jre
Default locale: en_US, platform encoding: UTF-8
OS name: "linux", version: "3.10.0-123.el7.x86_64", arch: "amd64", family: "unix"

都給你列出來了233333
然后修改mirrors

 vi /usr/share/maven/conf/settings.xml

找到節(jié)點(diǎn)<mirrors/>
添加阿里云的鏡像地址

<mirror>
  <id>alimaven</id>
  <name>aliyun maven</name>
  <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
  <mirrorOf>central</mirrorOf>
</mirror>

保存一下盾致，ok

啟動(dòng)spark服務(wù)

在啟動(dòng)之前，還需要做些處理
在spark的conf中荣暮，修改下配置文件

cp spark-env.sh.template spark-env.sh
vi spark-env.sh.template

再開頭添加環(huán)境

export JAVA_HOME=/usr/local/jdk
export SCALA_HOME=/usr/local/scala

我也不知道這里為什么也要配置庭惜。。穗酥。
回到spark根目錄

sbin/start-master.sh

在主機(jī)網(wǎng)頁輸入地址http://yourip:8080/ 訪問,如果訪問不到护赊，說明虛擬機(jī)的防火墻打開了，這里要關(guān)掉

service firewalld stop

再次刷新頁面砾跃，ok骏啰，如下

spark服務(wù)

這里還要繼續(xù)啟動(dòng)worker

bin/spark-class org.apache.spark.deploy.worker.Worker spark://localhost.localdomain:7077

再刷新下頁面，ok抽高，如下

worker

編寫Java代碼

這里說一下判耕，spark支持java、scala和python翘骂，無論用什么都只是對(duì)業(yè)務(wù)的封裝壁熄，當(dāng)然了原配是scala，我這里使用的java去實(shí)現(xiàn)一個(gè)計(jì)數(shù)程序碳竟，（目前網(wǎng)上有關(guān)spark的教程的第一個(gè)demo都是計(jì)數(shù)程序草丧，我簡(jiǎn)稱spark為“hello wordcount”）,我用maven來管理依賴關(guān)系，這個(gè)版本號(hào)一定要 注意莹桅！注意昌执！注意！
本地的要和虛擬機(jī)里配置的要一毛一樣！６啊煤禽！
代碼很簡(jiǎn)單，怎么計(jì)數(shù)自己去實(shí)現(xiàn)

public class WorldCount {
    private static final Pattern SPACE = Pattern.compile(" ");

    public static void main(String[] args) {
        SparkConf conf = new SparkConf().setAppName("vector's first spark app");
        JavaSparkContext sc = new JavaSparkContext(conf);
        //C:\Users\bd2\Downloads
        JavaRDD<String> lines = sc.textFile("/opt/blsmy.txt").cache();;
        JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {

            public Iterable<String> call(String s) throws Exception {
                return Arrays.asList(SPACE.split(s));
            }

            private static final long serialVersionUID = 1L;
        });

        JavaPairRDD<String, Integer> ones = words.mapToPair(new PairFunction<String, String, Integer>() {

            private static final long serialVersionUID = 1L;

            public Tuple2<String, Integer> call(String s) {
                return new Tuple2<String, Integer>(s, 1);
            }
        });

        JavaPairRDD<String, Integer> counts = ones.reduceByKey(new Function2<Integer, Integer, Integer>() {

            private static final long serialVersionUID = 1L;

            public Integer call(Integer i1, Integer i2) {
                return i1 + i2;
            }
        });

        List<Tuple2<String, Integer>> output = counts.collect();
        for (Tuple2<?, ?> tuple : output) {
            System.out.println(tuple._1() + ": " + tuple._2());
        }

        sc.close();
    }
}

注意這里沒有.setMaster(),這個(gè)參數(shù)在虛擬機(jī)執(zhí)行的時(shí)候通過手動(dòng)配置
再來就是依賴配置文件pom委粉，我已經(jīng)親測(cè)呜师，可以直接拿過去用

<properties>
        <scala.version>2.10.4</scala.version>
        <spark.version>1.6.2</spark.version>
    </properties>

    <dependencies>
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>${scala.version}</version>
        </dependency>
        <dependency>
            <groupId>com.googlecode.json-simple</groupId>
            <artifactId>json-simple</artifactId>
            <version>1.1.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.10</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-launcher_2.10</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-mllib_2.10</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming_2.10</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.4</version>
            <scope>test</scope>
        </dependency>
        <dependency>
            <groupId>org.specs</groupId>
            <artifactId>specs</artifactId>
            <version>1.2.5</version>
            <scope>test</scope>
        </dependency>

        <dependency>
            <groupId>org.ansj</groupId>
            <artifactId>ansj_seg</artifactId>
            <version>5.1.1</version>
        </dependency>

    </dependencies>

    <build>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-assembly-plugin</artifactId>
                <version>2.3</version>
                <configuration>
                    <appendAssemblyId>false</appendAssemblyId>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependencies</descriptorRef>
                    </descriptorRefs>
                    <archive>
                        <manifest>
                            <mainClass>WorldCount</mainClass><!--man方法入口-->
                        </manifest>
                    </archive>
                </configuration>
                <executions>
                    <execution>
                        <id>make-assembly</id>
                        <phase>package</phase>
                        <goals>
                            <goal>assembly</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>

打jar包的時(shí)候，我建議將src和pom上傳到虛擬機(jī)贾节，在虛擬機(jī)里打包，因?yàn)榇虺蒵ar包后大概有上百兆大小衷畦，我是在虛擬機(jī)打包的,如下

[root@localhost co]# ll
total 8
-rw-r--r--. 1 root root 3401 Apr 14 13:47 pom.xml
-rw-r--r--. 1 root root 2610 Apr 14 16:35 sparkjar.zip
drwxr-xr-x. 4 root root   28 Apr 14 09:00 src
[root@localhost co]# mvn package

第一次打包的時(shí)候可能會(huì)用到十幾分鐘的時(shí)間栗涂，因?yàn)樾枰玫降陌嗔恕４虬晒χ笃碚涀?duì)應(yīng)jar包地址

提交任務(wù)給spark

我這里下載了英文版的《巴黎圣母院》作為解析文本斤程，并放在了/opt/目錄下

bin/spark-submit --master spark://localhost.localdomain:7077 --class WorldCount /usr/local/co/target/spark.jar-1.0-SNAPSHOT.jar

沒有特殊情況的話，結(jié)果會(huì)輸出在屏幕上菩混，部分如下

Djali!: 2
faintly: 7
bellow: 1
prejudice: 1
singing: 15
Pierre.??: 1
incalculable: 1
defensive,: 1
slices: 1
niggardly: 1
Watch: 2
silence,: 14
water.??: 1
inhumanly: 1
17/04/14 16:59:35 INFO SparkUI: Stopped Spark web UI at http://192.168.22.129:4040

到此一個(gè)spark與java程序徹底打通了忿墅。。沮峡。

后續(xù)疚脐，我會(huì)使用spark對(duì)公司項(xiàng)目進(jìn)行改造，將數(shù)據(jù)處理交給spark去做邢疙。我會(huì)一一記錄分享出來

總結(jié)

環(huán)境部署的要正確棍弄，版本號(hào)要統(tǒng)一
spark啟動(dòng)的順序
sbin/start-master.sh # 啟動(dòng)服務(wù)
bin/spark-class org.apache.spark.deploy.worker.Worker spark://localhost.localdomain:7077 # 啟動(dòng)worker
bin/spark-submit --master spark://localhost.localdomain:7077 --class WorldCount /usr/local/code/target/spark.jar-1.0-SNAPSHOT.jar # 提交任務(wù)

名稱	地址
用到的軟件	http://pan.baidu.com/s/1skN5NS5 密碼：ufhk
Java計(jì)數(shù)程序	http://download.csdn.net/download/qqhjqs/9814285
《巴黎圣母院》	鏈接：http://pan.baidu.com/s/1qXZJedI 密碼：vljg

碼字不易，看客給個(gè)茶錢~

最后編輯于：2017.12.06 16:50:23

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末疟游，一起剝皮案震驚了整個(gè)濱河市呼畸，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌颁虐，老刑警劉巖蛮原，帶你破解...
沈念sama閱讀 218,284評(píng)論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異另绩，居然都是意外死亡儒陨，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,115評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門板熊，熙熙樓的掌柜王于貴愁眉苦臉地迎上來框全，“玉大人，你說我怎么就攤上這事干签〗虮纾” “怎么了？”我有些...
開封第一講書人閱讀 164,614評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)喘沿。經(jīng)常有香客問我闸度，道長(zhǎng)，這世上最難降的妖魔是什么蚜印？我笑而不...
開封第一講書人閱讀 58,671評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任莺禁，我火速辦了婚禮，結(jié)果婚禮上窄赋，老公的妹妹穿的比我還像新娘哟冬。我一直安慰自己，他們只是感情好忆绰，可當(dāng)我...
茶點(diǎn)故事閱讀 67,699評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布浩峡。她就那樣靜靜地躺著，像睡著了一般错敢。火紅的嫁衣襯著肌膚如雪翰灾。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,562評(píng)論 1贊 305
城市分裂傳說
那天稚茅，我揣著相機(jī)與錄音纸淮，去河邊找鬼。笑死亚享，一個(gè)胖子當(dāng)著我的面吹牛咽块，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播虹蒋，決...
沈念sama閱讀 40,309評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼糜芳，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了魄衅？” 一聲冷哼從身側(cè)響起峭竣，我...
開封第一講書人閱讀 39,223評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎晃虫，沒想到半個(gè)月后皆撩，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,668評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡哲银，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,859評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年扛吞，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片荆责。...
茶點(diǎn)故事閱讀 39,981評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡滥比，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出做院，到底是詐尸還是另有隱情盲泛，我是刑警寧澤濒持，帶...
沈念sama閱讀 35,705評(píng)論 5贊 347
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站寺滚，受9級(jí)特大地震影響柑营，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜村视，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,310評(píng)論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一官套、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧蚁孔，春花似錦奶赔、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,904評(píng)論 0贊 22
一樁弒父案纺阔，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至修然，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間质况，已是汗流浹背愕宋。一陣腳步聲響...
開封第一講書人閱讀 33,023評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留结榄，地道東北人中贝。一個(gè)月前我還...
沈念sama閱讀 48,146評(píng)論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像臼朗，于是被迫代替她去往敵國(guó)和親邻寿。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,933評(píng)論 2贊 355