1瞪浸、rdd實現(xiàn)wordcount
rdd調(diào)用flatMap方法將rdd中每一個元素按空格分割并鋪平西轩,再通過map方法組成元組普办,最后通過reduceByKey進行詞頻統(tǒng)計黄伊,需要注意的是flatMap方法是先執(zhí)行map方法在執(zhí)行flat方法,代碼如下:
rdd = sc.textFile("hdfs://spark1:9000/user/root/wordcount.txt")
rdd1 = rdd.flatMap(lambda x: x.split(" "))\
.map(lambda x: (x, 1))\
.reduceByKey(lambda a, b : a + b)\
.sortBy(lambda x: x[1], ascending=False)
print(rdd1.collect())
圖1.PNG