本周主要講了Spark流計(jì)算糠亩、數(shù)據(jù)分析和機(jī)器學(xué)習(xí)舌狗。
Spark的主要特點(diǎn)是DAG切分多階段計(jì)算朽合、內(nèi)存存儲(chǔ)中間結(jié)果俱两、RDD的編程模型。
RDD是Spark的核心概念曹步。Spark直接針對(duì)數(shù)據(jù)進(jìn)行編程宪彩,將大規(guī)模數(shù)據(jù)集合抽象成RDD對(duì)象,然后在這個(gè)對(duì)象上進(jìn)行計(jì)算處理讲婚,得出一個(gè)新的RDD尿孔,繼續(xù)再進(jìn)行計(jì)算處理,直到得到最后的結(jié)果。
Spark的分布式計(jì)算也都是以RDD為單位展開(kāi)分片活合、任務(wù)調(diào)度雏婶。
網(wǎng)頁(yè)排名算法PageRank。其核心是通過(guò)網(wǎng)絡(luò)鏈接關(guān)系來(lái)確定一個(gè)頁(yè)面的等級(jí)白指。