RDD常用算子

  1. 創(chuàng)建RDD
    代碼:
    def sparkContext(name:String)=
    {
    val conf = new SparkConf().setAppName(name).setMaster("local")
    val sc = new SparkContext(conf)
    sc
    }
  2. Map
    作用:適用于任何集合豁翎,且對(duì)其作用的集合中的每一個(gè)元素循環(huán)遍歷已慢,并調(diào)用其作為參數(shù)的函數(shù)對(duì)每一個(gè)遍歷的元素進(jìn)行具體化處理。
    代碼:
    def mapTransformation(sc:SparkContext): Unit ={
    val nums = sc.parallelize(1 to 10)//根據(jù)集合創(chuàng)建RDD
    val mapped = nums.map(item=> 2 * item)
    mapped.collect.foreach(print)
    }
    結(jié)果:2 4 6 8 10 12 14 16 18 20
  1. Filter
    作用:遍歷集合中的所有元素,將每個(gè)元素作為參數(shù)放入函數(shù)中進(jìn)行判斷乏屯,將判斷結(jié)果為真的元素篩選出來(lái)梧税。
    代碼:
    def filterTransformation(sc:SparkContext): Unit ={
    val nums = sc.parallelize(1 to 20)//根據(jù)集合創(chuàng)建RDD
    val filtered = nums.filter(item => item % 2 == 0)
    filtered.collect.foreach(println)
    }
    結(jié)果:2 4 6 8 10 12 14 16 18 20

  2. Flatmap
    作用:通過(guò)傳入的作為參數(shù)的函數(shù)來(lái)作用與RDD的每個(gè)字符串進(jìn)行單詞切分镜豹,然后把切分后的結(jié)果合并成一個(gè)大的集合
    代碼:
    def flatmapTransformation(sc:SparkContext): Unit ={
    val bigData = Array("scala","spark","java_Hadoop","java_tachyon")
    val bigDataString =sc.parallelize(bigData)
    val words= bigDataString.flatMap(line=>line.split(" "))
    words.collect.foreach(print)
    }
    結(jié)果:scala spark java_Hadoop java_tachyon

  3. groupByKey
    作用:將傳入的tuple數(shù)組生成為RDD,通過(guò)groupByKey方法將RDD通過(guò)key進(jìn)行分組匯總也榄,并生成一個(gè)新的RDD
    代碼:
    def groupByKeyTransformation(sc:SparkContext): Unit ={
    val data = Array(Tuple2(100,"Spark"),Tuple2(100,"Tachyon"),Tuple2(90,"Hadoop"),Tuple2(80,"Kafka"),Tuple2(70,"Scala"))
    val dataRDD = sc.parallelize(data)
    val group = dataRDD.groupByKey()
    group.collect.foreach(pair=>println(pair._1+":"+pair._2))
    }
    結(jié)果:
    100:CompactBuffer(Spark, Tachyon)
    90:CompactBuffer(Hadoop)
    80:CompactBuffer(Kafka)
    70:CompactBuffer(Scala)

  4. reduceByKey
    作用:對(duì)key相同的元素進(jìn)行value值得相加。
    代碼:
    def reduceByKeyTransformation(sc:SparkContext): Unit ={
    val lines =sc.textFile("C://Users//feng//IdeaProjects//WordCount//src//SparkText.txt",1)
    val reduce= lines.map(line=>(line,1)).reduceByKey(+)
    reduce.collect.foreach(pair=>println(pair._1+":"+pair._2))
    }
    文件內(nèi)容:
    hadoop hadoop hadoop
    spark Flink spark
    scala scala object
    object spark scala
    spark spark
    hadoop
    hadoop

結(jié)果:
hadoop hadoop hadoop:1
spark Flink spark:1
scala scala object:1
object spark scala:1
spark spark:1
hadoop:2

  1. Join
    作用:根據(jù)相同key,把不同的RDD合并為一個(gè)RDD
    代碼:
    def joinTransformation(sc:SparkContext): Unit ={
    //大數(shù)據(jù)中最重要的算子
    val studentNames=Array(
    Tuple2(1,"Spark"),
    Tuple2(2,"Tachyon"),
    Tuple2(3,"Hadoop")
    )
    val studentScore=Array(
    Tuple2(1,100),
    Tuple2(2,95),
    Tuple2(3,65),
    Tuple2(2,95),
    Tuple2(3,65)
    )
    val names = sc.parallelize(studentNames)
    val scores = sc.parallelize(studentScore)
    val studentNameAndScore=names.join(scores)
    studentNameAndScore.collect.foreach(println)
    }
    結(jié)果:
    (1,(Spark, 100))
    (3,(Hadoop, 65))
    (3,(Hadoop, 65))
    (2,(Tachyon,95))
    (2,(Tachyon,95))

  2. cogroup
    作用:協(xié)同分組司志,首先將兩個(gè)RDD的內(nèi)容進(jìn)行join,在此基礎(chǔ)上甜紫,以ID為key的情況下將改ID內(nèi)容的所有分?jǐn)?shù)聚合到一起。
    代碼:
    def cogroupTransformation(sc:SparkContext): Unit ={
    val nameList = Array(
    Tuple2(1,"Spark"),
    Tuple2(2,"Scala"),
    Tuple2(3,"Hadoop")
    )
    val scoreList = Array(
    Tuple2(1,100),
    Tuple2(2,90),
    Tuple2(3,87),
    Tuple2(1,80),
    Tuple2(2,90),
    Tuple2(2,60)
    )
    val names = sc.parallelize(nameList)
    val scores =sc.parallelize(scoreList)
    val nameScores= names.cogroup(scores)
    nameScores.collect.foreach(println)
    }
    結(jié)果:
    (1,(CompactBuffer(Spark),CompactBuffer(100, 80)))
    (3,(CompactBuffer(Hadoop),CompactBuffer(87)))
    (2,(CompactBuffer(Scala),CompactBuffer(90, 90, 60)))

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末骂远,一起剝皮案震驚了整個(gè)濱河市囚霸,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌激才,老刑警劉巖拓型,帶你破解...
    沈念sama閱讀 217,907評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異瘸恼,居然都是意外死亡劣挫,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,987評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門钞脂,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)揣云,“玉大人,你說(shuō)我怎么就攤上這事冰啃〉讼Γ” “怎么了?”我有些...
    開封第一講書人閱讀 164,298評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵阎毅,是天一觀的道長(zhǎng)焚刚。 經(jīng)常有香客問(wèn)我,道長(zhǎng)扇调,這世上最難降的妖魔是什么矿咕? 我笑而不...
    開封第一講書人閱讀 58,586評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮狼钮,結(jié)果婚禮上碳柱,老公的妹妹穿的比我還像新娘。我一直安慰自己熬芜,他們只是感情好莲镣,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,633評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著涎拉,像睡著了一般瑞侮。 火紅的嫁衣襯著肌膚如雪的圆。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,488評(píng)論 1 302
  • 那天半火,我揣著相機(jī)與錄音越妈,去河邊找鬼。 笑死钮糖,一個(gè)胖子當(dāng)著我的面吹牛梅掠,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播藐鹤,決...
    沈念sama閱讀 40,275評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼瓤檐,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了娱节?” 一聲冷哼從身側(cè)響起挠蛉,我...
    開封第一講書人閱讀 39,176評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎肄满,沒想到半個(gè)月后谴古,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,619評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡稠歉,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,819評(píng)論 3 336
  • 正文 我和宋清朗相戀三年掰担,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片怒炸。...
    茶點(diǎn)故事閱讀 39,932評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡带饱,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出阅羹,到底是詐尸還是另有隱情勺疼,我是刑警寧澤,帶...
    沈念sama閱讀 35,655評(píng)論 5 346
  • 正文 年R本政府宣布捏鱼,位于F島的核電站执庐,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏导梆。R本人自食惡果不足惜轨淌,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,265評(píng)論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望看尼。 院中可真熱鬧递鹉,春花似錦、人聲如沸藏斩。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,871評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)灾茁。三九已至窜觉,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間北专,已是汗流浹背禀挫。 一陣腳步聲響...
    開封第一講書人閱讀 32,994評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留拓颓,地道東北人语婴。 一個(gè)月前我還...
    沈念sama閱讀 48,095評(píng)論 3 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像驶睦,于是被迫代替她去往敵國(guó)和親砰左。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,884評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容