withSpout在spark中是用來做DAG可視化的雕崩,它在代碼里的用法如下(以map為例仰坦,spark 1.5.0版本)
def map[U: ClassTag](f: T => U): RDD[U] = withScope {
val cleanF = sc.clean(f)
new MapPartitionsRDD[U, T](this, (context, pid, iter) => iter.map(cleanF))
}
因?yàn)閷?duì)scala語(yǔ)法比較生疏扣孟,初次見面官帘,一臉懵逼瞬雹,這里的withScope是個(gè)什么用法?乍看一下有種java的implements Comparable的感覺刽虹。
其實(shí)挖炬,withScope是一個(gè)函數(shù)。
map()的函數(shù)體其實(shí)就是調(diào)用了一下withScope状婶,將泛型什么的先去掉,代碼簡(jiǎn)單來看就是下面這個(gè)樣子馅巷。
def map(f): RDD = withScope(body)
因?yàn)楹瘮?shù)體只有簡(jiǎn)單的一句膛虫,所以省略了大括號(hào) "{ }"。
map函數(shù)補(bǔ)上大括號(hào)可以是這個(gè)樣子钓猬。
def map[U: ClassTag](f: T => U): RDD[U] = {
withScope {
val cleanF = sc.clean(f)
new MapPartitionsRDD[U, T](this, (context, pid, iter) => iter.map(cleanF))
}
}
函數(shù)只有單一參數(shù)稍刀,調(diào)用時(shí),有時(shí)小括號(hào)和花括號(hào)是可以互換的
比如
rdd.map(x => x._1) //小括號(hào)
rdd.map{x => x._1} //花括號(hào)
這里敞曹,map()的參數(shù)是一個(gè)匿名函數(shù)账月,一句簡(jiǎn)短代碼即可搞定。但是澳迫,當(dāng)函數(shù)用一句搞不定時(shí)局齿,就需要使用"{}"來界定代碼塊了。其實(shí)橄登,于小括號(hào)和花括號(hào)之間來回切換的例子抓歼,在寫spark程序時(shí)讥此,經(jīng)常遇到。
比如:
rdd.map(x => x._1).filter {
... //一些用一句代碼不易搞定的復(fù)雜過濾邏輯
}
回到withScope谣妻,它就是一個(gè)只有單一參數(shù)的函數(shù)萄喳。
private[spark] def withScope[U](body: => U): U = RDDOperationScope.withScope[U](sc)(body)
withScope的參數(shù)body是一個(gè)傳名參數(shù)。
傳名參數(shù)
傳名參數(shù) 僅在被使用時(shí)觸發(fā)實(shí)際參數(shù)的求值運(yùn)算蹋半。 它們與 傳值參數(shù) 正好相反他巨。
傳名參數(shù)的優(yōu)點(diǎn)是,如果它們?cè)诤瘮?shù)體中未被使用减江,則不會(huì)對(duì)它們進(jìn)行求值染突。 另一方面,傳值參數(shù)的優(yōu)點(diǎn)是它們僅被計(jì)算一次您市。
傳名參數(shù)給人的感覺就像是字符串替換觉痛,最終把body替換成用戶寫的代碼。
跟蹤withScop的代碼可以看到body的使用茵休。
最開始理解有誤薪棒,以為body的類型是個(gè)無參函數(shù)。無參函數(shù)作為參數(shù)的話榕莺,可以參考下面的代碼中的print2()俐芯。
object TestMain {
def main(args: Array[String]): Unit = {
print1(getInt)
println("-----------")
print2(getInt)
}
def print1(f: => Int): Unit = { //傳名參數(shù)
println(f)
println(f.getClass)
}
def print2(f: () => Int): Unit = { //函數(shù)參數(shù)
println(f)
println(f.getClass)
}
def getInt(): Int = {
1
}
}
該代碼運(yùn)行結(jié)果如下
1
int
-----------
<function0>
class com.iflytek.gnome.data.tmpsupport.main.TestMain$$anonfun$main$2
柯里化函數(shù)
我們看到上文中的withScope()又調(diào)用了RDDOperationScope中定義的withScope,而且調(diào)用方式有些奇怪钉鸯。有兩個(gè)參數(shù)sc和body吧史,而且用了兩個(gè)括號(hào)。
再去看RDDOperationScope中withScope的定義唠雕,參數(shù)中也用了兩個(gè)括號(hào)贸营。第一個(gè)括號(hào)定義了sc和allowNesting參數(shù),第二個(gè)括號(hào)定義了body參數(shù)岩睁。
這種形式在scala中叫做柯里化(currying)钞脂。
private[spark] def withScope[T](
sc: SparkContext,
allowNesting: Boolean = false)(body: => T): T = {
...
}
柯里化是將原先一次性接受的參數(shù),改成了鏈?zhǔn)浇邮艿男问讲度濉_@里引用《快學(xué)scala》中的例子說明冰啃。
def mul(x: Int)(y: Int) = x * y //定義柯里化函數(shù)
mul(6)(7) //調(diào)用柯里化函數(shù)
嚴(yán)格來講,首先調(diào)用mul(6)刘莹,返回的結(jié)果是函數(shù)(y: Int) => 6 * y (x被替換成了6)阎毅。而這個(gè)函數(shù)又被應(yīng)用到了7,最終得到42点弯。
柯里化的本質(zhì)是什么呢扇调?
其實(shí),上面的mul()是如下形式的簡(jiǎn)寫抢肛。mul()本質(zhì)上是定義了一個(gè)只有參數(shù)x的函數(shù)肃拜,其返回結(jié)果是另一個(gè)函數(shù)痴腌。
def mul(x: Int) = (y: Int) => x * y
如《快學(xué)scala》所說
如你所見,多參數(shù)不過是個(gè)虛飾燃领,并不是編程語(yǔ)言的什么根本性的特質(zhì)士聪。