大數(shù)據(jù)(spark+hadoop)之topN

我們平時(shí)很容易遇到說(shuō)排序,并取前N個(gè)的狀況。
我們根據(jù)數(shù)據(jù)類(lèi)型可以簡(jiǎn)單分為重復(fù)鍵和不重復(fù)鍵的topN

MapReduce

對(duì)于MR來(lái)說(shuō)综看,topN代碼比較多一些脾拆,在這里我只講講思路馒索。
當(dāng)無(wú)重復(fù)鍵的時(shí)候,
我們有數(shù)據(jù)("w"->2,"ww"->3,"r"->3)
我們的目的是對(duì)值進(jìn)行排序名船,如用戶(hù)點(diǎn)擊了幾次網(wǎng)頁(yè)绰上,值記錄的就是網(wǎng)頁(yè)。
map階段渠驼,我們要做的是獲取并且處理數(shù)據(jù)蜈块,并完成本地的topN排序。
在排序時(shí)我們用的是java自帶的treeMap(它是一個(gè)基于紅黑樹(shù)的實(shí)現(xiàn))迷扇。
為什么要在map階段就進(jìn)行排序呢百揭?
因?yàn)樵跀?shù)據(jù)量巨大的時(shí)候,為了減少RPC和reduce的壓力谋梭。于是我們?cè)趍ap排好序并篩選出前N個(gè)信峻。
reduce階段,我們只需要把map傳來(lái)的topN再進(jìn)行一次排序篩選出前N個(gè)瓮床。
這樣我們的目的就達(dá)成了盹舞。

對(duì)于非唯一鍵,MR顯得笨拙一些隘庄,它必須先經(jīng)過(guò)一次reduce踢步,把非唯一鍵變成唯一鍵后再重復(fù)上述操作。

spark

spark具有高層抽象函數(shù)丑掺。所以排序顯得十分簡(jiǎn)單街州。在這里主要看看這幾個(gè)函數(shù)。

  • sortby
    def sortBy[S](f: JFunction[T, S], ascending: Boolean, numPartitions: Int): JavaRDD[T]
    sortby函數(shù)可以完成對(duì)指定數(shù)據(jù)的排序黍翎,(k,v)既可以指定k也可以指定v匣掸,第二個(gè)參數(shù)是選擇正序還是逆序(默認(rèn)是true正序,一般要topN的話用逆序)送爸,因?yàn)檫@是一個(gè)shuffle操作所以可要指定分區(qū)碱璃。

  • sortbykey
    比sortby少一個(gè)第一個(gè)參數(shù),它是僅對(duì)key的排序肛真。

  • sortwith
    def sortWith(lt: (A, A) => Boolean): Repr = sorted(Ordering fromLessThan lt)
    一種自定義排序的方法

  • takeOrder

  • take
    def take(num: Int): Array[T]
    抽取rdd的前n個(gè)元素

  • top
    def top(num: Int)(implicit ord: Ordering[T]): Array[T]
    默認(rèn)使用降序乾忱,并抽取前n個(gè)元素

  • tabkeOrdered
    def takeOrdered(num: Int)(implicit ord: Ordering[T]): Array[T]
    默認(rèn)使用升序窄瘟,并抽取前n個(gè)元素

 val arr=Map(1->2,2->3,3->1,4->4,4->5,10->23,12->21,10->2,9->1,0->2,9->3)
    val conf=new SparkConf().setAppName("test")
    val sc=new SparkContext(conf)
    val rdd=sc.parallelize(arr.toList,4)
    println(rdd.partitions.size+"======================================")
    val rerdd=rdd.coalesce(3)
    println((rerdd.partitions.size+"======================================"))
    val pairs=rerdd.map(x=>new Tuple2(x._1,x._2))
    val result=pairs.reduceByKey(_+_)

    println(result.partitions.size+"======================================")
    val partitions=result.sortBy(x=>x._2,false)
    val res=partitions.take(3)
    res.foreach(x=>println(x))

代碼的簡(jiǎn)單實(shí)現(xiàn)锄列。

思考:如果大量數(shù)據(jù)中進(jìn)行topN有什么優(yōu)化呢邻邮?
個(gè)人認(rèn)為剪枝是必要的筒严,假如對(duì)于1-100分布的數(shù)服從正態(tài)分布,我們自然就可以過(guò)濾掉百分之50-70的數(shù)。
如果在已知平均值等情況下睬塌,更方便進(jìn)行剪枝勋陪。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末诅愚,一起剝皮案震驚了整個(gè)濱河市违孝,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌祖今,老刑警劉巖耍目,帶你破解...
    沈念sama閱讀 211,561評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件邪驮,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡俺抽,警方通過(guò)查閱死者的電腦和手機(jī)磷斧,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,218評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門(mén)冕末,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)档桃,“玉大人,你說(shuō)我怎么就攤上這事嘹屯≈莸埽” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 157,162評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng)梅桩,這世上最難降的妖魔是什么洪添? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,470評(píng)論 1 283
  • 正文 為了忘掉前任痊焊,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘薄啥。我一直安慰自己辕羽,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,550評(píng)論 6 385
  • 文/花漫 我一把揭開(kāi)白布垄惧。 她就那樣靜靜地躺著刁愿,像睡著了一般。 火紅的嫁衣襯著肌膚如雪到逊。 梳的紋絲不亂的頭發(fā)上铣口,一...
    開(kāi)封第一講書(shū)人閱讀 49,806評(píng)論 1 290
  • 那天,我揣著相機(jī)與錄音觉壶,去河邊找鬼脑题。 笑死,一個(gè)胖子當(dāng)著我的面吹牛掰曾,可吹牛的內(nèi)容都是我干的旭蠕。 我是一名探鬼主播,決...
    沈念sama閱讀 38,951評(píng)論 3 407
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼旷坦,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼掏熬!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起秒梅,我...
    開(kāi)封第一講書(shū)人閱讀 37,712評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤旗芬,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后捆蜀,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體疮丛,經(jīng)...
    沈念sama閱讀 44,166評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,510評(píng)論 2 327
  • 正文 我和宋清朗相戀三年辆它,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了誊薄。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,643評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡锰茉,死狀恐怖呢蔫,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情飒筑,我是刑警寧澤片吊,帶...
    沈念sama閱讀 34,306評(píng)論 4 330
  • 正文 年R本政府宣布,位于F島的核電站协屡,受9級(jí)特大地震影響俏脊,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜肤晓,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,930評(píng)論 3 313
  • 文/蒙蒙 一爷贫、第九天 我趴在偏房一處隱蔽的房頂上張望认然。 院中可真熱鬧,春花似錦沸久、人聲如沸季眷。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,745評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)子刮。三九已至,卻和暖如春窑睁,著一層夾襖步出監(jiān)牢的瞬間挺峡,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,983評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工担钮, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留橱赠,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,351評(píng)論 2 360
  • 正文 我出身青樓箫津,卻偏偏與公主長(zhǎng)得像狭姨,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子苏遥,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,509評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容

  • 其實(shí)我一直不想說(shuō)關(guān)于容貌形態(tài)這方面的問(wèn)題,今天提到是因?yàn)榍疤煸谥蹩吹揭粋€(gè)姑娘發(fā)了一段話教硫,內(nèi)容是這樣的: “我們寢...
    Debbie七月閱讀 433評(píng)論 0 1
  • 喝酒瞬矩,要具備以下條件:會(huì)聊天茶鉴,會(huì)溝通,會(huì)社交景用,會(huì)看人涵叮。能熬夜,能早起丛肢,懂舍得,懂政治剿干,懂娛樂(lè)蜂怎,懂情調(diào),還得上知天文...
    YSM追隨閱讀 632評(píng)論 0 0
  • 第一次讀擺渡人置尔,覺(jué)得不過(guò)是很平庸的愛(ài)情故事杠步。不止平庸,其中中女主的主角光環(huán)大大滴,相當(dāng)瑪麗蘇幽歼,相當(dāng)于中國(guó)普通網(wǎng)文小...
    凈奴閱讀 4,694評(píng)論 1 0