
Extractor Object是有unapply方法的對(duì)象检痰。apply方法像是構(gòu)造函數(shù)丈冬,可以帶參數(shù)以及創(chuàng)建對(duì)象墓毒,unapply方法根據(jù)對(duì)象嘗試...
正則表達(dá)式是用于找出數(shù)據(jù)中模式的字符串电抚。任何字符串都可以使用.r方法轉(zhuǎn)換為正則表達(dá)式蝇恶。 在上面例子中崎弃,numberPattern是一個(gè)Regex...
緩存/持久化 和RDD類似渤闷,DStream允許開發(fā)者將流數(shù)據(jù)持久化到內(nèi)存疾瓮。使用在DStream上使用persist()方法會(huì)自動(dòng)持久化DStre...
DStreams轉(zhuǎn)換(Transformation) 和RDD類似,轉(zhuǎn)換中允許輸入DStream中的數(shù)據(jù)被修改飒箭。DStream支持很多Spark...
本文適用于Kafka broker 0.8.2.1及更高版本爷贫。 這里會(huì)說(shuō)明如何配置Spark Streaming接收Kafka的數(shù)據(jù)认然。有兩種方法...
鏈接 和Spark類似,Spark Streaming通過(guò)Maven Central提供漫萄。為編寫Spark Streaming程序卷员,需要添加下面...
概述 Spark Streaming是核心Spark API的擴(kuò)展,對(duì)實(shí)時(shí)數(shù)據(jù)流地處理具有可擴(kuò)展腾务,高吞吐量和容錯(cuò)特性毕骡。數(shù)據(jù)可從很多源獲取,如Ka...
共享變量 通常岩瘦,當(dāng)一個(gè)函數(shù)傳遞給在遠(yuǎn)程集群節(jié)點(diǎn)上執(zhí)行的Spark操作(如map或reduce)時(shí)未巫,函數(shù)使用的是所有變量的獨(dú)立副本。這些變量會(huì)拷貝...
介紹 概述 Apache Flume是一個(gè)分布式的启昧,可靠的叙凡,高可用的系統(tǒng),用于高效地從多個(gè)不同的數(shù)據(jù)源收集密末,匯總及遷移大量日志數(shù)據(jù)到集中的數(shù)據(jù)儲(chǔ)...