1.平均值在數學上有多種,包含算術平均值据块,幾何平均值,平方平均值折剃,調和平均值另假,加權平均值。日常常說的平均值多指算術平均值怕犁。
2.算術平均值的只有在數據呈現均勻分布或者正態(tài)分布的情況下才有意義边篮。
3.在存在極值的情況下算術平均值很容易受極值影響,不能客觀準確的反映整體情況奏甫。例如日常中的平均工資戈轿,平均房價,平均成績等阵子。評分中經常取消最高分和最低分也是為消除極值影響思杯。
4.算術平均值的意義:簡單,可以直觀的指征整體的平均水平挠进。
5.對數據分組色乾,計算分組平均值可以一定程度降低數據極值的影響
6.辛普森悖論:在分組比較中都占優(yōu)勢的一方,有時候在總評中反而是失勢的一方领突。
典型案例1:NBA投球數據
a 從2分球和3分球分開的命中率來看球員B的表現都比球員A要好
b 如果從整體命中率來看A球員的數據反而比B球員的好
悖論:分組數據和整體數據出現截然不同的結論
考慮的理解上的直觀性暖璧,從網上找了幾個更直觀的案例:
? 案例2,請思考:A君旦,B餐廳的總體好評率如下澎办,哪個會更好嘲碱?
? 結論1:B餐廳的好于A餐廳
把數據拆分下,分別考察午餐和晚餐的評價情況:
結論2:A餐廳在午餐和晚餐的好評率均高于B餐廳
問題:兩個餐廳到底哪個更好浮驳?
案例3:某游戲付費轉化數據
從整體數據來看悍汛,Android的付費轉化率高于IOS,但這和常識不相符
從手機和平板兩個數據維度來看至会,IOS設備的轉化都是高于Android的。問題是分開來看都好的IOS谱俭,在總體數據上出現的反轉奉件,反而比Android的更差了。這便是辛普森悖論昆著。
辛普森悖論產生的原因:分組的過程中不同組別的數量差異在匯總時會影響總體樣本的構成县貌。在這里“量”(投中數,好評數)會影響“質”(命中率凑懂,好評率)
延伸:總體指標很多時候會差于分組指標煤痕,換言之,對事物或數據的考察維度越細會越準確
? ? ? ? ? ?生活和工作中我們需要注意指標背后的陷阱接谨,盡可能的用更多維度看全面的評價
? ? ? ? ? ? 在一些容易的維度上的差距摆碉,可以通過量的擴大來彌補
? ? ? ? ? ? 每次小范圍的輸贏,和你在整體上的輸贏沒有太大的直接關系脓豪。牌桌上真正贏的巷帝,不是那些小牌把把贏的人,而往往是贏一把大的人扫夜。
? ? ? ? ? ??
? ? ? ? ? ??