Extractor Object是有unapply方法的對(duì)象固该。apply方法像是構(gòu)造函數(shù),可以帶參數(shù)以及創(chuàng)建對(duì)象糖儡,unapply方法根據(jù)對(duì)象嘗試...
正則表達(dá)式是用于找出數(shù)據(jù)中模式的字符串伐坏。任何字符串都可以使用.r方法轉(zhuǎn)換為正則表達(dá)式。 在上面例子中握联,numberPattern是一個(gè)Regex...
緩存/持久化 和RDD類似桦沉,DStream允許開發(fā)者將流數(shù)據(jù)持久化到內(nèi)存。使用在DStream上使用persist()方法會(huì)自動(dòng)持久化DStre...
DStreams轉(zhuǎn)換(Transformation) 和RDD類似金闽,轉(zhuǎn)換中允許輸入DStream中的數(shù)據(jù)被修改纯露。DStream支持很多Spark...
本文適用于Kafka broker 0.8.2.1及更高版本。 這里會(huì)說明如何配置Spark Streaming接收Kafka的數(shù)據(jù)代芜。有兩種方法...
鏈接 和Spark類似埠褪,Spark Streaming通過Maven Central提供。為編寫Spark Streaming程序挤庇,需要添加下面...
概述 Spark Streaming是核心Spark API的擴(kuò)展钞速,對(duì)實(shí)時(shí)數(shù)據(jù)流地處理具有可擴(kuò)展,高吞吐量和容錯(cuò)特性嫡秕。數(shù)據(jù)可從很多源獲取渴语,如Ka...
共享變量 通常,當(dāng)一個(gè)函數(shù)傳遞給在遠(yuǎn)程集群節(jié)點(diǎn)上執(zhí)行的Spark操作(如map或reduce)時(shí)昆咽,函數(shù)使用的是所有變量的獨(dú)立副本驾凶。這些變量會(huì)拷貝...
介紹 概述 Apache Flume是一個(gè)分布式的牙甫,可靠的,高可用的系統(tǒng)狭郑,用于高效地從多個(gè)不同的數(shù)據(jù)源收集腹暖,匯總及遷移大量日志數(shù)據(jù)到集中的數(shù)據(jù)儲(chǔ)...