數(shù)據(jù)工程(2): 你不需要的數(shù)據(jù)分析

你真的能分析出你的用戶嗎?

數(shù)據(jù)分析的一個常見應(yīng)用是將網(wǎng)站的用戶特征發(fā)現(xiàn)出來封拧,以期待更好的服務(wù)用戶志鹃。但是真的將用戶全部得到之后,會發(fā)現(xiàn)即便計算平均年齡都是一個問題泽西,很可能更大量的用戶是沒有設(shè)置年齡或者明顯錯誤的數(shù)據(jù)曹铃。一個可能的解決方法是計算有設(shè)置年齡的平均值,并不意味著這個值可以用來分析用戶捧杉,因為這里依賴的一個假設(shè)很明顯并不成立:填寫年齡的用戶的年齡分布與填寫錯誤或者不填寫的用戶年齡分布一致陕见。

即便真的得到了年齡的平均值也說明不了任何問題,由于沒有比較對象味抖,粗暴的說我們網(wǎng)站用戶更加年輕是不成立的评甜,很可能只是因為你成立的比較晚而已。而更重要的是非竿,個體之間的差異遠遠大于種群之間的差異蜕着,這導(dǎo)致通過一兩個數(shù)值是沒有辦法對用戶群體進行畫像的谋竖。比如說美國大選红柱,大家就想到教育良好、大城市蓖乘、移民選民主黨锤悄,紅脖子、工人農(nóng)民嘉抒、傳統(tǒng)行業(yè)選共和黨零聚。這作為一個平均值的差異是毫無疑問的,但兩個群體內(nèi)部的差異很明顯遠大于群體之間的差異些侍。

數(shù)據(jù)分析的一個方法是通過高維度切片的方式來進行更細致的畫像和分類隶症,然后作為老板會得到一個分析的非常好的報表,多少人然而這帶來的問題是大量的用戶會被多個群組所定義岗宣。

你真的能確認因果關(guān)系嗎蚂会?

可能用戶比較復(fù)雜,但是至少我們可以通過數(shù)據(jù)分析一下哪個功能帶了更多的新用戶吧耗式。假定現(xiàn)在有一個線下的活動來吸引用戶胁住,上帝視角告訴我們效果不錯趁猴,增長了5%的注冊用戶。那么問題來了彪见,怎么在一個日變化超過10%儡司,工作日和周末變化超過30%的曲線圖里看到這個變化呢?這樣子的線下活動由于是一次性的余指,通常很難在圖表中直觀顯示捕犬,特別是線下活動很難添加追蹤記號來判定用戶來源。

當有第二個市場團隊做了另外一個線上活動浪规,這個問題就變得更加復(fù)雜了或听。假設(shè)這個市場團隊放出了廣告吸引了更多用戶來訪問,出現(xiàn)了50%的訪問增長笋婿,而這些很可能有相當一部分來自于線下注冊用戶剛開手機時誉裆,看到的一些內(nèi)容而刺激的增長。當兩個活動產(chǎn)生相關(guān)性的時候缸濒,因果關(guān)系就很難判斷得到足丢。

你的分析真的能夠很好的了解情況嗎?

在我之前團隊里庇配,最臭名昭著的就是數(shù)據(jù)報表的監(jiān)控斩跌,如果指標出現(xiàn)了超過30%的變動,就會觸發(fā)警報捞慌,然后分析師需要搞清楚原因耀鸦。于是,上百個報表每周觸發(fā)數(shù)十個警報啸澡,幾乎沒有一個能夠找到原因的袖订,過上兩三周就恢復(fù)了正常。有的也能找到原因嗅虏,但通常無法歸結(jié)到數(shù)據(jù)分析所期待的宏觀原因上洛姑,常見的原因有:某個按鈕變動了位置,某個按鈕的Logging換了標簽皮服,產(chǎn)品代碼里出了Bug楞艾,數(shù)據(jù)分析代碼里出了Bug。很多這種變化實際上是產(chǎn)品部門自己可以預(yù)期的龄广,而數(shù)據(jù)分析卻是后知者硫眯,花費大量的精力得到了一個別人已經(jīng)知道的結(jié)論。比較有效的一種數(shù)據(jù)分析可能是择同,伴隨某新品發(fā)售帶來的客戶增長两入,這個可以被量化出來,但請注意這個代價奠衔。

而真正的問題谆刨,影響長遠的分析塘娶,通常都是通過長期的趨勢來體現(xiàn)出來的,很難是某天突然警報響了就可以得到答案的痊夭。真正有價值的分析刁岸,是分析你這個App為什么打不過競爭對手,然后通過若干指標來推出結(jié)論她我;或者是分析app現(xiàn)在的狀況虹曙,可能的增長點。沉迷于若干指標很難得到有價值的信息番舆。你的目的終究是讓你的應(yīng)用產(chǎn)生價值酝碳,而不是產(chǎn)生更多DAU,盡管這可能是實現(xiàn)價值的一個途徑恨狈。

你的分析真的能夠幫助決策嗎疏哗?

很多時候的決策是試圖用數(shù)據(jù)來證明決策的正確性,而不是用數(shù)據(jù)來產(chǎn)生決策禾怠,這也是數(shù)據(jù)分析師期望和實際的差別返奉。這個主要原因是,所謂的數(shù)據(jù)驅(qū)動吗氏,并沒有一個規(guī)定的范式芽偏,原本期待的是基于事實得到結(jié)論,但由于每個人主觀性和多維度事實的客觀性弦讽,這個事實的描述都是非常困難的污尉,所以最終變成了,得到一個結(jié)論并進行數(shù)據(jù)支撐往产。

有一些決策是通過A/B測試來進行的被碗,比如拿不定是XYZ中某個決策,通過在線測試來選擇其中一個效果最好的捂齐。這是真正能幫助決策的分析蛮放,但局限通常在是選擇橘子還是蘋果缩抡,而不是橘子還是電動車奠宜。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市瞻想,隨后出現(xiàn)的幾起案子压真,更是在濱河造成了極大的恐慌,老刑警劉巖蘑险,帶你破解...
    沈念sama閱讀 218,122評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件滴肿,死亡現(xiàn)場離奇詭異,居然都是意外死亡佃迄,警方通過查閱死者的電腦和手機泼差,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評論 3 395
  • 文/潘曉璐 我一進店門贵少,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人堆缘,你說我怎么就攤上這事滔灶。” “怎么了吼肥?”我有些...
    開封第一講書人閱讀 164,491評論 0 354
  • 文/不壞的土叔 我叫張陵录平,是天一觀的道長。 經(jīng)常有香客問我缀皱,道長斗这,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,636評論 1 293
  • 正文 為了忘掉前任啤斗,我火速辦了婚禮表箭,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘钮莲。我一直安慰自己燃逻,他們只是感情好,可當我...
    茶點故事閱讀 67,676評論 6 392
  • 文/花漫 我一把揭開白布臂痕。 她就那樣靜靜地躺著伯襟,像睡著了一般。 火紅的嫁衣襯著肌膚如雪握童。 梳的紋絲不亂的頭發(fā)上姆怪,一...
    開封第一講書人閱讀 51,541評論 1 305
  • 那天,我揣著相機與錄音澡绩,去河邊找鬼稽揭。 笑死,一個胖子當著我的面吹牛肥卡,可吹牛的內(nèi)容都是我干的溪掀。 我是一名探鬼主播,決...
    沈念sama閱讀 40,292評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼步鉴,長吁一口氣:“原來是場噩夢啊……” “哼揪胃!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起氛琢,我...
    開封第一講書人閱讀 39,211評論 0 276
  • 序言:老撾萬榮一對情侶失蹤喊递,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后阳似,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體骚勘,經(jīng)...
    沈念sama閱讀 45,655評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,846評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了俏讹。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片当宴。...
    茶點故事閱讀 39,965評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖泽疆,靈堂內(nèi)的尸體忽然破棺而出即供,到底是詐尸還是另有隱情,我是刑警寧澤于微,帶...
    沈念sama閱讀 35,684評論 5 347
  • 正文 年R本政府宣布逗嫡,位于F島的核電站,受9級特大地震影響株依,放射性物質(zhì)發(fā)生泄漏驱证。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,295評論 3 329
  • 文/蒙蒙 一恋腕、第九天 我趴在偏房一處隱蔽的房頂上張望抹锄。 院中可真熱鬧,春花似錦荠藤、人聲如沸伙单。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,894評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽吻育。三九已至,卻和暖如春淤井,著一層夾襖步出監(jiān)牢的瞬間布疼,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,012評論 1 269
  • 我被黑心中介騙來泰國打工币狠, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留游两,地道東北人。 一個月前我還...
    沈念sama閱讀 48,126評論 3 370
  • 正文 我出身青樓漩绵,卻偏偏與公主長得像贱案,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子止吐,可洞房花燭夜當晚...
    茶點故事閱讀 44,914評論 2 355

推薦閱讀更多精彩內(nèi)容