###熵英遭、信息增益庵佣、信息增益比检柬、基尼系數(shù)
####熵 --- 度量隨機(jī)變量的不確定性(純度)
定義:假設(shè)隨機(jī)變量X是一個(gè)取有限個(gè)數(shù)的離散隨機(jī)變量,其概率分布為:
? ? ? ? ? ?其概率 P(X=xi) = pi , ( i = 1,2, ... , n)
? ? ? ? ? ?因此隨機(jī)變量X的熵:
curDate = startDate
all_user_data = sc.parallelize([])
print"end Date:",endDate
whilecurDate <= endDate:
dateStr = curDate.strftime("%Y%m%d")
inputpath ="/user/map_rec/rec/orders_with_poiid_v3/"+ dateStr