整合Kafka到Spark Streaming——代碼示例和挑戰(zhàn) - stark_summer的專欄 - 博客頻道 - CSDN.NET
http://blog.csdn.net/stark_summer/article/details/44038247
作為一個實時大數(shù)據(jù)處理工具, Spark Sreaming 近日一直被廣泛關注,與 Apache Storm 的對比也經(jīng)常出現(xiàn)史辙。但是依我說诵姜,缺少與Kafka整合,任何實時大數(shù)據(jù)處理工具都是不完整的冻记,因此我將一個示例Spark Streaming應用程序添加到 kafka-storm-starter 睡毒,并且示范如何從Kafka讀取,以及如何寫入到Kafka冗栗。在這個過程中演顾,我還使用Avro作為數(shù)據(jù)格式,以及Twitter Bijection進行數(shù)據(jù)序列化隅居。
在任何Spark應用程序中钠至,一旦某個Spark Streaming應用程序接收到輸入數(shù)據(jù),其他處理都與非streaming應用程序相同胎源。也就是說棉钧,與普通的Spark數(shù)據(jù)流應用程序一樣,在Spark Streaming應用程序中涕蚤,你將使用相同的工具和模式宪卿。更多詳情可見Level of Parallelism in Data Processing 文檔的诵。