從《東方快車謀殺案》 跟“阿婆”一起玩兒探索性分析

提到“探索性數(shù)據(jù)分析”大家可能會覺得有些陌生,這個專業(yè)名詞似乎離我們的生活很遙遠,其實不然,在熱映電影《東方快車謀殺案》中模孩,神探波洛正是利用探索性分析的思維方式完美破案,而在現(xiàn)實生活中企業(yè)也可以利用探索性思維解決工作難題贮缅。

來自:數(shù)據(jù)觀 https://www.shujuguan.cn/?from=jianshu

“面對那些我們堅信存在或不存在的事物時榨咐,‘探索性數(shù)據(jù)分析’代表了一種態(tài)度,一種方法手段的靈活性谴供,更代表了人們尋求真相的強烈愿望块茁。——探索性數(shù)據(jù)分析創(chuàng)始人約翰?懷爾德杜克”

一個偵探如何辦案桂肌?

人們總形容偵探“目光犀利数焊、嗅覺敏銳”,好像偵探是條犬科動物崎场。然而偵探本人通常不會僅僅靠著自己的眼睛和鼻子辦事兒佩耳。她的做法看起來科學得多——將所有能夠搞到的證據(jù)搜集到一起,所有能拿到的數(shù)據(jù)拿到手里照雁,然后在其中尋找規(guī)律蚕愤。

作為作品銷量僅次于《圣經》的偵探小說女王答恶,阿加莎-克里斯蒂顯然深諳此道饺蚊。在《東方快車謀殺案》中,她借波洛偵探之名悬嗓,完美地為我們演示了一遍如何收集證據(jù)與數(shù)據(jù)污呼,然后從中獲得洞察的全過程。

在一個下著雪的深夜包竹,一個男人離奇而死燕酷。沒有目擊證人,身上的刀疤參差不齊周瞎,就連宿在附近車廂的偵探本人也沒有在慘案發(fā)生時發(fā)現(xiàn)端倪苗缩。

不過,就像在旅途中也要保持得體裝扮一樣声诸,波洛偵探面臨謎題酱讶,表現(xiàn)得同樣有條不紊。

首先彼乌,他挨個盤問了列車上的每一位乘客泻肯,不管對方人設是冷靜縝密渊迁、還是神經兮兮。然后灶挟,他將這些人的語言與行為如拼拼圖一般琉朽,拼在了一起,并理出了一個時間線稚铣。在這個過程中箱叁,他不斷地思考:哪些信息能支持自己的假設?哪些信息互相矛盾惕医?我還需要回答什么問題蝌蹂?還有——之后我需要做什么,才能回答這些問題曹锨?

“想來你對我這種詢問方式很不以為然孤个,“波洛偵探對瑪麗說:“你原來想的不是這種,而是英國式的沛简。凡事都該準備停當——擺出事實齐鲤,按部就班〗烽梗可是小姐给郊,我這人倒有點兒與眾不同。首先我得先見見證人捧灰,摸清他或她的脾性淆九,然后再相應地提出問題來∶危”

波洛列出的問題足足有10條:

1炭庙、繡著首字母H的手帕,是誰的煌寇?2焕蹄、煙斗通條,是誰的阀溶?3腻脏、誰穿鮮紅色、繡著龍的睡衣银锻?4永品、誰把自己偽裝成列車員,男人還是女人击纬?5鼎姐、為什么死者的表針會指到一點一刻?6、謀殺發(fā)生在那個時間嗎症见?7喂走、還是在那個時間之前?8谋作、或是之后芋肠?9、能確信殺手不止一個人嗎遵蚜?10帖池、死者身上的刀傷還有其它解釋嗎?

這些是否也是你的疑問吭净?或者說睡汹,在聽過各位乘客的回答后,你是否也產生了一些疑問寂殉?如果答案是“yes”囚巴,恭喜你,你已經在做探索性分析了友扰!

EDA-探索性數(shù)據(jù)分析

探索性數(shù)據(jù)分析(EDA)是數(shù)據(jù)分析過程的第一部分彤叉。 在這個階段有幾件重要的事情要做,但歸結起來就是:

1村怪、弄清楚數(shù)據(jù)是什么秽浇;2、建立你想問的問題以及如何表達它們甚负,3柬焕、提出最好的展示和操作數(shù)據(jù)的方式,以得出重要的見解梭域。

EDA與IDA的區(qū)別:

探索性數(shù)據(jù)分析有別于初始性數(shù)據(jù)分析(initial data analysis –

IDA)斑举。初始性數(shù)據(jù)分析的聚焦點是分析鑒別統(tǒng)計模型和科研假設測試所需的條件是否達到,以保證驗證性分析的可靠性碰辅。在這個分析過程中對不符合條件的數(shù)據(jù)進行缺值填補懂昂、數(shù)據(jù)轉換介时、異常值舍棄等處理以增強分析的準確性没宾。探索性數(shù)據(jù)分析包含初始性數(shù)據(jù)分析,但它的出發(fā)點不僅是確定數(shù)據(jù)質量沸柔,而且更重視從數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)分布的模式(Patten)和提出新的假設循衰。

你在探索 – 尋找線索。 就像波洛做的那樣褐澎,通過定量和可視化的方法会钝,你不僅梳理出趨勢和模式,還能發(fā)現(xiàn)偏離模型,離群值和意想不到的結果——它們也很重要迁酸。你現(xiàn)在發(fā)現(xiàn)的東西將幫助你決定提出的問題先鱼,研究領域,以及下一步采取的措施奸鬓。

過去焙畔,在以抽樣統(tǒng)計為主導的傳統(tǒng)統(tǒng)計學中,探索性數(shù)據(jù)分析對驗證性數(shù)據(jù)分析有著支持和輔助的作用串远。但由于抽樣和問卷都是事先設計好的宏多,對數(shù)據(jù)的探索性分析是有限的。

到了大數(shù)據(jù)時代澡罚,海量數(shù)據(jù)從多種渠道源源不斷地涌現(xiàn)出來伸但,已不受分析模型和研究假設的限制,如何從中找出規(guī)律留搔、并產生分析模型和研究假設成為新挑戰(zhàn)更胖。這時候,探索性數(shù)據(jù)分析在對數(shù)據(jù)進行概括性描述隔显、發(fā)現(xiàn)變量之間的相關性以及引導出新的假設方面大顯身手函喉。

CDA-驗證性數(shù)據(jù)分析

通常,偵探結案并不是故事的結束荣月,還需要將罪犯以及罪證交給法庭管呵,進行審判。

我們將這個“審判”的過程稱為驗證性數(shù)據(jù)分析哺窄。

驗證性數(shù)據(jù)分析是您使用傳統(tǒng)統(tǒng)計工具(例如顯著性捐下,推斷和置信度)來評估證據(jù)的部分。

在這一點上萌业,你真的在挑戰(zhàn)你的假設坷襟。驗證性數(shù)據(jù)分析的很大一部分就是對事物進行量化,比如生年,你所建立的模型的任何偏離都可能偶然發(fā)生婴程,在什么時候需要開始質疑你的模型呢?

CDA的內容:測試假設抱婉,以特定精確度產生估計档叔,回歸分析和方差分析。

驗證性和探索性數(shù)據(jù)的使用

實際上蒸绩,探索性的和驗證性的數(shù)據(jù)分析不是一個接一個地進行衙四,而是不斷地交織在一起,幫助您創(chuàng)建最好的分(破)析(案)模(套)型(路)患亿。

我們舉一個例子來說明實踐中的EDA與CDA传蹈。

最近幾個月,流失用戶的數(shù)量一直在激增。產品一直在保持更新惦界,性能也算穩(wěn)定挑格,活動也沒停,這種流失簡直稱得上是一樁密室丟人案了沾歪。究竟發(fā)生了什么恕齐?

發(fā)現(xiàn)問題——密室丟人案,比密室殺人案更讓運營感到棘手的案件

你開始利用數(shù)據(jù)探索原因(EDA)瞬逊。你調取了這些流失用戶的所有數(shù)據(jù)然后開始尋找線索显歧。在用了各種餅柱線氣泡樹從不同角度分析了數(shù)據(jù)之后,你發(fā)現(xiàn)丟失的用戶大多都是在同一個月內注冊的确镊。

鎖定異常——雖然每個月注冊的用戶都有流失士骤,但很容易看出7月的問題

經過仔細調查,你發(fā)現(xiàn)在這個月中蕾域,雖然產品一直在保持更新拷肌,性能也算穩(wěn)定,活動也沒停旨巷,但是你們自己卻把常用的CRM系統(tǒng)給換了巨缘。結果,一部分客戶沒有收到產品的入門教程采呐。

現(xiàn)在你產生了一個大(合)膽(理)的假設:這些人是因為沒有得到入門教程而流失的若锁。要想停止這個死亡游戲,必須連夜派發(fā)入門教程大禮包斧吐!

但首先又固,你需要確定這個原因是正確的。根據(jù)探索性數(shù)據(jù)分析煤率,你現(xiàn)在可以建立一個新的預測模型仰冠,以比較收到教程和沒收到教程的差異率。 這根植于驗證性數(shù)據(jù)分析蝶糯。

結果顯示了兩者之間的廣泛相關性洋只。破案了!

探索性數(shù)據(jù)分析和大數(shù)據(jù)

當然昼捍,20世紀的案件跟21世紀的案件還是有很大不同识虚。20世紀的作案團伙可能被一場大雪堵住去路,疑云再重也僅限于一節(jié)車廂端三;而21世紀的作案團伙可以像水滴融入大海一樣藏身于龐大的數(shù)據(jù)池中舷礼。整個偵探游戲變得非常艱巨。

就算是大偵探波洛郊闯,也需要有適當?shù)募夹g/工具來應對這個問題,以保證自己能夠實時訪問所有需要的信息,讓數(shù)據(jù)跑得跟思路一樣快团赁,讓案子破的時候“兇手”還沒跑遠育拨。這對于銷售、運營欢摄、產品熬丧、財務、HR等各種工作模塊都至關重要怀挠。

為什么偵探小說這么火析蝴?因為我們都需要知道答案,并對探索答案過程中的智力挑戰(zhàn)而感到驚心動魄绿淋。

那為什么闷畸,不讓數(shù)據(jù)偵探成為你的“第二人格”

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末吞滞,一起剝皮案震驚了整個濱河市佑菩,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌裁赠,老刑警劉巖殿漠,帶你破解...
    沈念sama閱讀 218,858評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異佩捞,居然都是意外死亡绞幌,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,372評論 3 395
  • 文/潘曉璐 我一進店門一忱,熙熙樓的掌柜王于貴愁眉苦臉地迎上來啊奄,“玉大人,你說我怎么就攤上這事掀潮」娇洌” “怎么了?”我有些...
    開封第一講書人閱讀 165,282評論 0 356
  • 文/不壞的土叔 我叫張陵仪吧,是天一觀的道長庄新。 經常有香客問我,道長薯鼠,這世上最難降的妖魔是什么择诈? 我笑而不...
    開封第一講書人閱讀 58,842評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮出皇,結果婚禮上羞芍,老公的妹妹穿的比我還像新娘。我一直安慰自己郊艘,他們只是感情好荷科,可當我...
    茶點故事閱讀 67,857評論 6 392
  • 文/花漫 我一把揭開白布唯咬。 她就那樣靜靜地躺著,像睡著了一般畏浆。 火紅的嫁衣襯著肌膚如雪胆胰。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,679評論 1 305
  • 那天刻获,我揣著相機與錄音蜀涨,去河邊找鬼。 笑死蝎毡,一個胖子當著我的面吹牛厚柳,可吹牛的內容都是我干的。 我是一名探鬼主播沐兵,決...
    沈念sama閱讀 40,406評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼别垮,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了痒筒?” 一聲冷哼從身側響起宰闰,我...
    開封第一講書人閱讀 39,311評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎簿透,沒想到半個月后移袍,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 45,767評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡老充,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年葡盗,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片啡浊。...
    茶點故事閱讀 40,090評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡觅够,死狀恐怖,靈堂內的尸體忽然破棺而出巷嚣,到底是詐尸還是另有隱情喘先,我是刑警寧澤,帶...
    沈念sama閱讀 35,785評論 5 346
  • 正文 年R本政府宣布廷粒,位于F島的核電站窘拯,受9級特大地震影響,放射性物質發(fā)生泄漏坝茎。R本人自食惡果不足惜涤姊,卻給世界環(huán)境...
    茶點故事閱讀 41,420評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望嗤放。 院中可真熱鬧思喊,春花似錦、人聲如沸次酌。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,988評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至庄呈,卻和暖如春蜕煌,著一層夾襖步出監(jiān)牢的瞬間派阱,已是汗流浹背诬留。 一陣腳步聲響...
    開封第一講書人閱讀 33,101評論 1 271
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留贫母,地道東北人文兑。 一個月前我還...
    沈念sama閱讀 48,298評論 3 372
  • 正文 我出身青樓,卻偏偏與公主長得像腺劣,于是被迫代替她去往敵國和親绿贞。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,033評論 2 355

推薦閱讀更多精彩內容