最近幾個月一直在折騰內(nèi)外數(shù)據(jù)整合犀概,稍微寫點心得立哑。
先做個“不內(nèi)外整合“的鋪墊,傳統(tǒng)的“基于內(nèi)部數(shù)據(jù)的優(yōu)化”姻灶,大概分為如下步驟
獲取自己的每一步的內(nèi)部轉化率
通過調(diào)研競品铛绰,熟人打聽之類,得到標桿
選擇內(nèi)部轉化率最差的步驟改進木蹬,ab測試
參考我以前的文章
這種方式的優(yōu)點是:容易上手至耻,缺點是:依賴標桿、流于表面镊叁,大部分市場上的競品互相抄襲尘颓,最后同行業(yè)做到差不多的轉化率,就是這么來的晦譬。
本文想討論的是疤苹,在內(nèi)部數(shù)據(jù)基礎上,引入外部數(shù)據(jù)敛腌,我之前的文章有類似:
內(nèi)外整合的數(shù)據(jù)分析卧土,增加了更多的信息量和不確定性,如果說基礎優(yōu)化只需要中學數(shù)學的話像樊,這個步驟需要一點點本科的概率論尤莺,大概可分為如下步驟:
分析內(nèi)部數(shù)據(jù),嘗試解釋波動和做優(yōu)化生棍。這時遇到了無法解釋的波動颤霎,和完全不符合預期的結果。
抓取直覺上覺得有關(且抓的到)的外部數(shù)據(jù),選擇合理的顆粒度和內(nèi)部數(shù)據(jù)關聯(lián)友酱。例如每天某商品價格對比晴音,和當天該商品銷量。
嘗試引入單個外部數(shù)據(jù)缔杉,解釋純內(nèi)部數(shù)據(jù)無法解釋的波動锤躁;嘗試將外部數(shù)據(jù)組合起來,關聯(lián)內(nèi)部數(shù)據(jù)做解釋和預測或详。
不難發(fā)現(xiàn)系羞,這已經(jīng)是在玩計量經(jīng)濟學了,實際上整天考慮成本鸭叙、取舍觉啊、效益、進度管理之類的沈贝,產(chǎn)品運營這個崗位本來就很經(jīng)濟學杠人,只不過現(xiàn)在更加強調(diào)數(shù)據(jù),門檻大大提高了而已
(有個梗是這樣宋下,傳統(tǒng)的需求可以說嗡善,我需要這個按鈕產(chǎn)生低價排序,而大數(shù)據(jù)時代学歧,如果提個需求是罩引,我需要這個按鈕產(chǎn)生客人需要的排序,這個崗位就是廢的枝笨,實際的需求還是要有人來提)袁铐。
在數(shù)據(jù)內(nèi)外整合的落地方面,我個人理解有三點心得横浑。
一剔桨、定量的習慣
現(xiàn)在網(wǎng)上教程動輒祭出“機器學習”,然后問題就解決了徙融,實際工作里洒缀,這些關起門來的分析對于業(yè)務的幫助大部分很小。多大程度上將業(yè)務的定性語言欺冀,定量地描述出來树绩,以擴大數(shù)據(jù)分析的范圍,這一步遠遠比后續(xù)套模型隐轩、調(diào)參數(shù)饺饭,來得重要。
所謂的數(shù)據(jù)驅(qū)動职车,我理解分為兩部分砰奕,第一個部分是蛛芥,假如現(xiàn)實世界的所有問題是一個空間,數(shù)據(jù)能解決的問題是一個子空間军援,我們需要努力擴大這個比例。第二個部分是称勋,在數(shù)據(jù)能解決的子空間里胸哥,有相當部分是限于計算資源,或方法過于原始赡鲜,導致理論上能解決而實際無法(在有生之年)解決的空厌,這部分是算法科學家和硬件科學家努力的方向。
我想說银酬,第二部分和我們互聯(lián)網(wǎng)業(yè)者是沒有半毛錢關系的(除了那些整天要公司花幾百萬買設備的數(shù)據(jù)大拿們嘲更,雖然他們沒錯,但是第二部分的投入效益極低揩瞪,只有大公司和燒錢的可以玩)赋朦,大家只需要關注第一部分就足夠了。而第一部分是完全可以通過習慣養(yǎng)成來潛移默化推進的李破。
例如說我面試一個小朋友宠哄,問他如何評估一個新聞對近期轉化率的影響,可能有兩種回答:
1嗤攻、我覺得大部分人不會關心新聞毛嫉,所以看看銷量有無變化就好糙俗,其實就算有比原,也不一定是因為新聞楚堤。
2剪菱、可能看看搜索指數(shù)在各個分類的起伏痘括,看看品牌搜索是否在沒有活動情況下起伏剃氧,新客的來源結構是否有變化(以及和搜索指數(shù)抖動是否形似)娱据,被訪問的熱門內(nèi)容是否有變化愕够,留存率是否有變化偷俭。
顯然如果一個團隊里都是第一種的話浪讳,數(shù)據(jù)驅(qū)動的那個子空間就非常非常小,可能就天天抄抄競品涌萤,在其他支持組能支持的數(shù)據(jù)范圍內(nèi)淹遵,追追ab對比,就完事兒可以等年終獎了(大部分打工心態(tài)的互聯(lián)網(wǎng)公司都是這樣负溪,不然創(chuàng)業(yè)公司怎么有機會呢)透揣;
而第二種團隊里,數(shù)據(jù)驅(qū)動的空間就大很多川抡,可以輕易發(fā)現(xiàn)很多“低懸的果實”辐真,缺點是得到成果很不穩(wěn)定须尚,而且看起來比第一種團隊要不務正業(yè)的多—這也是為什么說,數(shù)據(jù)驅(qū)動要從管理層開始的道理之一侍咱,呵呵耐床。
二、倒推的習慣
很多人都知道搜索引擎最初的ranking原理就是楔脯,越多某個話題指向的網(wǎng)站撩轰,越相關于某個話題,這顯然是一種“倒推”昧廷,“倒推”是統(tǒng)計學思想的精髓堪嫂。
無論是分析歷史數(shù)據(jù),還是對預測的未來數(shù)據(jù)進行回顧木柬,我們看到的都是一大堆的“結果”皆串,有些根據(jù)內(nèi)部數(shù)據(jù)得到的預測和結果完全不符的,引入外部數(shù)據(jù)以后眉枕,有可能會呈現(xiàn)出某種規(guī)律性恶复,這就是我們在追尋的。
第一批外部數(shù)據(jù)的選擇齐遵,肯定是拍腦袋寂玲,正如前面的幾篇博客提到,價格對比梗摇、覆蓋率對比拓哟、多樣性等,屬于根據(jù)直覺伶授,就覺得可能會影響轉化率的外部數(shù)據(jù)断序,玩一下以后你會發(fā)現(xiàn),的確能解決一些問題糜烹,但還有大量無法解釋的結果违诗,也就是還有大量的特征等待你去發(fā)掘。
怎么找特征也有大量的充滿術語的可怕文章疮蹦,用一個簡單的類比诸迟,當以色列特工潛入非洲拯救人質(zhì)的時候,他們用以色列語大喊趴下愕乎,然后射殺所有站著的人阵苇,這就是一個最簡單的、用于分開人質(zhì)和恐怖分子的數(shù)據(jù)離散分析感论,用excel也完全可以做到绅项,就是這么簡單。
有時也會有funny的收獲比肄,例如有些輸入輸出是毫無道理的快耿,像是價格變貴囊陡、覆蓋變少,但是銷售變好了掀亥,當然了這肯定說明你漏了什么重要的因素沒有考慮撞反,但是在找到之前,如果數(shù)據(jù)顯示真的足夠離散铺浇,不需要去追究為什么痢畜,因為你現(xiàn)在可能正在以你沒想到的方式影響那個隱藏特征,先用起來再說鳍侣。
三、工具也需要優(yōu)化
內(nèi)部數(shù)據(jù)可以用非常原始的方法去分析吼拥,至今有很多手算轉化率的日常工作倚聚,但是加入外部數(shù)據(jù)以后,由于數(shù)據(jù)結構的復雜凿可,分析的耗時指數(shù)增長惑折,原來的方法和工具不再適用,這時候才會誕生大量的指標枯跑、指數(shù)惨驶、可視化。
雖然金融行業(yè)早就已經(jīng)達到了這個水平敛助,但其他行業(yè)還都是剛剛開始粗卜,對于顆粒度、周期隔斷的摸索還很初步纳击,可能大部分人對自己每天看的指標续扔,應該如何離散化,都不如家里炒股票的父母對各種k線分類的掌握焕数。
當數(shù)據(jù)多到一定程度的時候纱昧,你可能會感覺到,只有相關性堡赔、數(shù)量級數(shù)才是有意義的识脆,具體的數(shù)字反而沒有感覺了,例如說某行業(yè)轉化率應該是淡季2%善已,旺季5%灼捂,這種傳統(tǒng)經(jīng)驗會變得毫無意義。
如果到達這個境界的話雕拼,可能會感覺到我這篇文章想表達的一種纵东,怎么說呢,焦慮和期望吧啥寇。
謝謝閱讀偎球。