內(nèi)外數(shù)據(jù)整合的一點心得

最近幾個月一直在折騰內(nèi)外數(shù)據(jù)整合犀概,稍微寫點心得立哑。

先做個“不內(nèi)外整合“的鋪墊,傳統(tǒng)的“基于內(nèi)部數(shù)據(jù)的優(yōu)化”姻灶,大概分為如下步驟

  1. 獲取自己的每一步的內(nèi)部轉化率

  2. 通過調(diào)研競品铛绰,熟人打聽之類,得到標桿

  3. 選擇內(nèi)部轉化率最差的步驟改進木蹬,ab測試

參考我以前的文章

如何在45分鐘內(nèi)改善一個網(wǎng)站的轉化率

【整理版】漏斗圖的兩個實際工作案例

這種方式的優(yōu)點是:容易上手至耻,缺點是:依賴標桿、流于表面镊叁,大部分市場上的競品互相抄襲尘颓,最后同行業(yè)做到差不多的轉化率,就是這么來的晦譬。

本文想討論的是疤苹,在內(nèi)部數(shù)據(jù)基礎上,引入外部數(shù)據(jù)敛腌,我之前的文章有類似:

競爭對手比價分析

如何用數(shù)據(jù)解釋“知己知彼”

內(nèi)外整合的數(shù)據(jù)分析卧土,增加了更多的信息量和不確定性,如果說基礎優(yōu)化只需要中學數(shù)學的話像樊,這個步驟需要一點點本科的概率論尤莺,大概可分為如下步驟:

  1. 分析內(nèi)部數(shù)據(jù),嘗試解釋波動和做優(yōu)化生棍。這時遇到了無法解釋的波動颤霎,和完全不符合預期的結果。

  2. 抓取直覺上覺得有關(且抓的到)的外部數(shù)據(jù),選擇合理的顆粒度和內(nèi)部數(shù)據(jù)關聯(lián)友酱。例如每天某商品價格對比晴音,和當天該商品銷量。

  3. 嘗試引入單個外部數(shù)據(jù)缔杉,解釋純內(nèi)部數(shù)據(jù)無法解釋的波動锤躁;嘗試將外部數(shù)據(jù)組合起來,關聯(lián)內(nèi)部數(shù)據(jù)做解釋和預測或详。

不難發(fā)現(xiàn)系羞,這已經(jīng)是在玩計量經(jīng)濟學了,實際上整天考慮成本鸭叙、取舍觉啊、效益、進度管理之類的沈贝,產(chǎn)品運營這個崗位本來就很經(jīng)濟學杠人,只不過現(xiàn)在更加強調(diào)數(shù)據(jù),門檻大大提高了而已

(有個梗是這樣宋下,傳統(tǒng)的需求可以說嗡善,我需要這個按鈕產(chǎn)生低價排序,而大數(shù)據(jù)時代学歧,如果提個需求是罩引,我需要這個按鈕產(chǎn)生客人需要的排序,這個崗位就是廢的枝笨,實際的需求還是要有人來提)袁铐。

在數(shù)據(jù)內(nèi)外整合的落地方面,我個人理解有三點心得横浑。

一剔桨、定量的習慣

現(xiàn)在網(wǎng)上教程動輒祭出“機器學習”,然后問題就解決了徙融,實際工作里洒缀,這些關起門來的分析對于業(yè)務的幫助大部分很小。多大程度上將業(yè)務的定性語言欺冀,定量地描述出來树绩,以擴大數(shù)據(jù)分析的范圍,這一步遠遠比后續(xù)套模型隐轩、調(diào)參數(shù)饺饭,來得重要。

所謂的數(shù)據(jù)驅(qū)動职车,我理解分為兩部分砰奕,第一個部分是蛛芥,假如現(xiàn)實世界的所有問題是一個空間,數(shù)據(jù)能解決的問題是一個子空間军援,我們需要努力擴大這個比例。第二個部分是称勋,在數(shù)據(jù)能解決的子空間里胸哥,有相當部分是限于計算資源,或方法過于原始赡鲜,導致理論上能解決而實際無法(在有生之年)解決的空厌,這部分是算法科學家和硬件科學家努力的方向。

我想說银酬,第二部分和我們互聯(lián)網(wǎng)業(yè)者是沒有半毛錢關系的(除了那些整天要公司花幾百萬買設備的數(shù)據(jù)大拿們嘲更,雖然他們沒錯,但是第二部分的投入效益極低揩瞪,只有大公司和燒錢的可以玩)赋朦,大家只需要關注第一部分就足夠了。而第一部分是完全可以通過習慣養(yǎng)成來潛移默化推進的李破。

例如說我面試一個小朋友宠哄,問他如何評估一個新聞對近期轉化率的影響,可能有兩種回答:

1嗤攻、我覺得大部分人不會關心新聞毛嫉,所以看看銷量有無變化就好糙俗,其實就算有比原,也不一定是因為新聞楚堤。

2剪菱、可能看看搜索指數(shù)在各個分類的起伏痘括,看看品牌搜索是否在沒有活動情況下起伏剃氧,新客的來源結構是否有變化(以及和搜索指數(shù)抖動是否形似)娱据,被訪問的熱門內(nèi)容是否有變化愕够,留存率是否有變化偷俭。

顯然如果一個團隊里都是第一種的話浪讳,數(shù)據(jù)驅(qū)動的那個子空間就非常非常小,可能就天天抄抄競品涌萤,在其他支持組能支持的數(shù)據(jù)范圍內(nèi)淹遵,追追ab對比,就完事兒可以等年終獎了(大部分打工心態(tài)的互聯(lián)網(wǎng)公司都是這樣负溪,不然創(chuàng)業(yè)公司怎么有機會呢)透揣;

而第二種團隊里,數(shù)據(jù)驅(qū)動的空間就大很多川抡,可以輕易發(fā)現(xiàn)很多“低懸的果實”辐真,缺點是得到成果很不穩(wěn)定须尚,而且看起來比第一種團隊要不務正業(yè)的多—這也是為什么說,數(shù)據(jù)驅(qū)動要從管理層開始的道理之一侍咱,呵呵耐床。

二、倒推的習慣

很多人都知道搜索引擎最初的ranking原理就是楔脯,越多某個話題指向的網(wǎng)站撩轰,越相關于某個話題,這顯然是一種“倒推”昧廷,“倒推”是統(tǒng)計學思想的精髓堪嫂。

無論是分析歷史數(shù)據(jù),還是對預測的未來數(shù)據(jù)進行回顧木柬,我們看到的都是一大堆的“結果”皆串,有些根據(jù)內(nèi)部數(shù)據(jù)得到的預測和結果完全不符的,引入外部數(shù)據(jù)以后眉枕,有可能會呈現(xiàn)出某種規(guī)律性恶复,這就是我們在追尋的。

第一批外部數(shù)據(jù)的選擇齐遵,肯定是拍腦袋寂玲,正如前面的幾篇博客提到,價格對比梗摇、覆蓋率對比拓哟、多樣性等,屬于根據(jù)直覺伶授,就覺得可能會影響轉化率的外部數(shù)據(jù)断序,玩一下以后你會發(fā)現(xiàn),的確能解決一些問題糜烹,但還有大量無法解釋的結果违诗,也就是還有大量的特征等待你去發(fā)掘。

怎么找特征也有大量的充滿術語的可怕文章疮蹦,用一個簡單的類比诸迟,當以色列特工潛入非洲拯救人質(zhì)的時候,他們用以色列語大喊趴下愕乎,然后射殺所有站著的人阵苇,這就是一個最簡單的、用于分開人質(zhì)和恐怖分子的數(shù)據(jù)離散分析感论,用excel也完全可以做到绅项,就是這么簡單。

有時也會有funny的收獲比肄,例如有些輸入輸出是毫無道理的快耿,像是價格變貴囊陡、覆蓋變少,但是銷售變好了掀亥,當然了這肯定說明你漏了什么重要的因素沒有考慮撞反,但是在找到之前,如果數(shù)據(jù)顯示真的足夠離散铺浇,不需要去追究為什么痢畜,因為你現(xiàn)在可能正在以你沒想到的方式影響那個隱藏特征,先用起來再說鳍侣。

三、工具也需要優(yōu)化

內(nèi)部數(shù)據(jù)可以用非常原始的方法去分析吼拥,至今有很多手算轉化率的日常工作倚聚,但是加入外部數(shù)據(jù)以后,由于數(shù)據(jù)結構的復雜凿可,分析的耗時指數(shù)增長惑折,原來的方法和工具不再適用,這時候才會誕生大量的指標枯跑、指數(shù)惨驶、可視化。

雖然金融行業(yè)早就已經(jīng)達到了這個水平敛助,但其他行業(yè)還都是剛剛開始粗卜,對于顆粒度、周期隔斷的摸索還很初步纳击,可能大部分人對自己每天看的指標续扔,應該如何離散化,都不如家里炒股票的父母對各種k線分類的掌握焕数。

當數(shù)據(jù)多到一定程度的時候纱昧,你可能會感覺到,只有相關性堡赔、數(shù)量級數(shù)才是有意義的识脆,具體的數(shù)字反而沒有感覺了,例如說某行業(yè)轉化率應該是淡季2%善已,旺季5%灼捂,這種傳統(tǒng)經(jīng)驗會變得毫無意義。

如果到達這個境界的話雕拼,可能會感覺到我這篇文章想表達的一種纵东,怎么說呢,焦慮和期望吧啥寇。

謝謝閱讀偎球。

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末洒扎,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子衰絮,更是在濱河造成了極大的恐慌袍冷,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件猫牡,死亡現(xiàn)場離奇詭異胡诗,居然都是意外死亡,警方通過查閱死者的電腦和手機淌友,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進店門煌恢,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人震庭,你說我怎么就攤上這事瑰抵。” “怎么了器联?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵二汛,是天一觀的道長。 經(jīng)常有香客問我拨拓,道長肴颊,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任渣磷,我火速辦了婚禮婿着,結果婚禮上,老公的妹妹穿的比我還像新娘幸海。我一直安慰自己祟身,他們只是感情好,可當我...
    茶點故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布物独。 她就那樣靜靜地躺著袜硫,像睡著了一般。 火紅的嫁衣襯著肌膚如雪挡篓。 梳的紋絲不亂的頭發(fā)上婉陷,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天,我揣著相機與錄音官研,去河邊找鬼秽澳。 笑死,一個胖子當著我的面吹牛戏羽,可吹牛的內(nèi)容都是我干的担神。 我是一名探鬼主播,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼始花,長吁一口氣:“原來是場噩夢啊……” “哼妄讯!你這毒婦竟也來了孩锡?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤亥贸,失蹤者是張志新(化名)和其女友劉穎躬窜,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體炕置,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡荣挨,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了朴摊。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片默垄。...
    茶點故事閱讀 39,690評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖甚纲,靈堂內(nèi)的尸體忽然破棺而出厕倍,到底是詐尸還是另有隱情,我是刑警寧澤贩疙,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站况既,受9級特大地震影響这溅,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜棒仍,卻給世界環(huán)境...
    茶點故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一悲靴、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧莫其,春花似錦癞尚、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至憨颠,卻和暖如春胳徽,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背爽彤。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工养盗, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人适篙。 一個月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓往核,卻偏偏與公主長得像,于是被迫代替她去往敵國和親嚷节。 傳聞我的和親對象是個殘疾皇子聂儒,可洞房花燭夜當晚...
    茶點故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內(nèi)容