提到“探索性數(shù)據(jù)分析”大家可能會覺得有些陌生,這個專業(yè)名詞似乎離我們的生活很遙遠,其實不然,在熱映電影《東方快車謀殺案》中模孩,神探波洛正是利用探索性分析的思維方式完美破案,而在現(xiàn)實生活中企業(yè)也可以利用探索性思維解決工作難題贮缅。
來自:數(shù)據(jù)觀 https://www.shujuguan.cn/?from=jianshu
“面對那些我們堅信存在或不存在的事物時榨咐,‘探索性數(shù)據(jù)分析’代表了一種態(tài)度,一種方法手段的靈活性谴供,更代表了人們尋求真相的強烈愿望块茁。——探索性數(shù)據(jù)分析創(chuàng)始人約翰?懷爾德杜克”
一個偵探如何辦案桂肌?
人們總形容偵探“目光犀利数焊、嗅覺敏銳”,好像偵探是條犬科動物崎场。然而偵探本人通常不會僅僅靠著自己的眼睛和鼻子辦事兒佩耳。她的做法看起來科學得多——將所有能夠搞到的證據(jù)搜集到一起,所有能拿到的數(shù)據(jù)拿到手里照雁,然后在其中尋找規(guī)律蚕愤。
作為作品銷量僅次于《圣經》的偵探小說女王答恶,阿加莎-克里斯蒂顯然深諳此道饺蚊。在《東方快車謀殺案》中,她借波洛偵探之名悬嗓,完美地為我們演示了一遍如何收集證據(jù)與數(shù)據(jù)污呼,然后從中獲得洞察的全過程。
在一個下著雪的深夜包竹,一個男人離奇而死燕酷。沒有目擊證人,身上的刀疤參差不齊周瞎,就連宿在附近車廂的偵探本人也沒有在慘案發(fā)生時發(fā)現(xiàn)端倪苗缩。
不過,就像在旅途中也要保持得體裝扮一樣声诸,波洛偵探面臨謎題酱讶,表現(xiàn)得同樣有條不紊。
首先彼乌,他挨個盤問了列車上的每一位乘客泻肯,不管對方人設是冷靜縝密渊迁、還是神經兮兮。然后灶挟,他將這些人的語言與行為如拼拼圖一般琉朽,拼在了一起,并理出了一個時間線稚铣。在這個過程中箱叁,他不斷地思考:哪些信息能支持自己的假設?哪些信息互相矛盾惕医?我還需要回答什么問題蝌蹂?還有——之后我需要做什么,才能回答這些問題曹锨?
“想來你對我這種詢問方式很不以為然孤个,“波洛偵探對瑪麗說:“你原來想的不是這種,而是英國式的沛简。凡事都該準備停當——擺出事實齐鲤,按部就班〗烽梗可是小姐给郊,我這人倒有點兒與眾不同。首先我得先見見證人捧灰,摸清他或她的脾性淆九,然后再相應地提出問題來∶危”
波洛列出的問題足足有10條:
1炭庙、繡著首字母H的手帕,是誰的煌寇?2焕蹄、煙斗通條,是誰的阀溶?3腻脏、誰穿鮮紅色、繡著龍的睡衣银锻?4永品、誰把自己偽裝成列車員,男人還是女人击纬?5鼎姐、為什么死者的表針會指到一點一刻?6、謀殺發(fā)生在那個時間嗎症见?7喂走、還是在那個時間之前?8谋作、或是之后芋肠?9、能確信殺手不止一個人嗎遵蚜?10帖池、死者身上的刀傷還有其它解釋嗎?
這些是否也是你的疑問吭净?或者說睡汹,在聽過各位乘客的回答后,你是否也產生了一些疑問寂殉?如果答案是“yes”囚巴,恭喜你,你已經在做探索性分析了友扰!
EDA-探索性數(shù)據(jù)分析
探索性數(shù)據(jù)分析(EDA)是數(shù)據(jù)分析過程的第一部分彤叉。 在這個階段有幾件重要的事情要做,但歸結起來就是:
1村怪、弄清楚數(shù)據(jù)是什么秽浇;2、建立你想問的問題以及如何表達它們甚负,3柬焕、提出最好的展示和操作數(shù)據(jù)的方式,以得出重要的見解梭域。
EDA與IDA的區(qū)別:
探索性數(shù)據(jù)分析有別于初始性數(shù)據(jù)分析(initial data analysis –
IDA)斑举。初始性數(shù)據(jù)分析的聚焦點是分析鑒別統(tǒng)計模型和科研假設測試所需的條件是否達到,以保證驗證性分析的可靠性碰辅。在這個分析過程中對不符合條件的數(shù)據(jù)進行缺值填補懂昂、數(shù)據(jù)轉換介时、異常值舍棄等處理以增強分析的準確性没宾。探索性數(shù)據(jù)分析包含初始性數(shù)據(jù)分析,但它的出發(fā)點不僅是確定數(shù)據(jù)質量沸柔,而且更重視從數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)分布的模式(Patten)和提出新的假設循衰。
你在探索 – 尋找線索。 就像波洛做的那樣褐澎,通過定量和可視化的方法会钝,你不僅梳理出趨勢和模式,還能發(fā)現(xiàn)偏離模型,離群值和意想不到的結果——它們也很重要迁酸。你現(xiàn)在發(fā)現(xiàn)的東西將幫助你決定提出的問題先鱼,研究領域,以及下一步采取的措施奸鬓。
過去焙畔,在以抽樣統(tǒng)計為主導的傳統(tǒng)統(tǒng)計學中,探索性數(shù)據(jù)分析對驗證性數(shù)據(jù)分析有著支持和輔助的作用串远。但由于抽樣和問卷都是事先設計好的宏多,對數(shù)據(jù)的探索性分析是有限的。
到了大數(shù)據(jù)時代澡罚,海量數(shù)據(jù)從多種渠道源源不斷地涌現(xiàn)出來伸但,已不受分析模型和研究假設的限制,如何從中找出規(guī)律留搔、并產生分析模型和研究假設成為新挑戰(zhàn)更胖。這時候,探索性數(shù)據(jù)分析在對數(shù)據(jù)進行概括性描述隔显、發(fā)現(xiàn)變量之間的相關性以及引導出新的假設方面大顯身手函喉。
CDA-驗證性數(shù)據(jù)分析
通常,偵探結案并不是故事的結束荣月,還需要將罪犯以及罪證交給法庭管呵,進行審判。
我們將這個“審判”的過程稱為驗證性數(shù)據(jù)分析哺窄。
驗證性數(shù)據(jù)分析是您使用傳統(tǒng)統(tǒng)計工具(例如顯著性捐下,推斷和置信度)來評估證據(jù)的部分。
在這一點上萌业,你真的在挑戰(zhàn)你的假設坷襟。驗證性數(shù)據(jù)分析的很大一部分就是對事物進行量化,比如生年,你所建立的模型的任何偏離都可能偶然發(fā)生婴程,在什么時候需要開始質疑你的模型呢?
CDA的內容:測試假設抱婉,以特定精確度產生估計档叔,回歸分析和方差分析。
驗證性和探索性數(shù)據(jù)的使用
實際上蒸绩,探索性的和驗證性的數(shù)據(jù)分析不是一個接一個地進行衙四,而是不斷地交織在一起,幫助您創(chuàng)建最好的分(破)析(案)模(套)型(路)患亿。
我們舉一個例子來說明實踐中的EDA與CDA传蹈。
最近幾個月,流失用戶的數(shù)量一直在激增。產品一直在保持更新惦界,性能也算穩(wěn)定挑格,活動也沒停,這種流失簡直稱得上是一樁密室丟人案了沾歪。究竟發(fā)生了什么恕齐?
發(fā)現(xiàn)問題——密室丟人案,比密室殺人案更讓運營感到棘手的案件
你開始利用數(shù)據(jù)探索原因(EDA)瞬逊。你調取了這些流失用戶的所有數(shù)據(jù)然后開始尋找線索显歧。在用了各種餅柱線氣泡樹從不同角度分析了數(shù)據(jù)之后,你發(fā)現(xiàn)丟失的用戶大多都是在同一個月內注冊的确镊。
鎖定異常——雖然每個月注冊的用戶都有流失士骤,但很容易看出7月的問題
經過仔細調查,你發(fā)現(xiàn)在這個月中蕾域,雖然產品一直在保持更新拷肌,性能也算穩(wěn)定,活動也沒停旨巷,但是你們自己卻把常用的CRM系統(tǒng)給換了巨缘。結果,一部分客戶沒有收到產品的入門教程采呐。
現(xiàn)在你產生了一個大(合)膽(理)的假設:這些人是因為沒有得到入門教程而流失的若锁。要想停止這個死亡游戲,必須連夜派發(fā)入門教程大禮包斧吐!
但首先又固,你需要確定這個原因是正確的。根據(jù)探索性數(shù)據(jù)分析煤率,你現(xiàn)在可以建立一個新的預測模型仰冠,以比較收到教程和沒收到教程的差異率。 這根植于驗證性數(shù)據(jù)分析蝶糯。
結果顯示了兩者之間的廣泛相關性洋只。破案了!
探索性數(shù)據(jù)分析和大數(shù)據(jù)
當然昼捍,20世紀的案件跟21世紀的案件還是有很大不同识虚。20世紀的作案團伙可能被一場大雪堵住去路,疑云再重也僅限于一節(jié)車廂端三;而21世紀的作案團伙可以像水滴融入大海一樣藏身于龐大的數(shù)據(jù)池中舷礼。整個偵探游戲變得非常艱巨。
就算是大偵探波洛郊闯,也需要有適當?shù)募夹g/工具來應對這個問題,以保證自己能夠實時訪問所有需要的信息,讓數(shù)據(jù)跑得跟思路一樣快团赁,讓案子破的時候“兇手”還沒跑遠育拨。這對于銷售、運營欢摄、產品熬丧、財務、HR等各種工作模塊都至關重要怀挠。
為什么偵探小說這么火析蝴?因為我們都需要知道答案,并對探索答案過程中的智力挑戰(zhàn)而感到驚心動魄绿淋。
那為什么闷畸,不讓數(shù)據(jù)偵探成為你的“第二人格”?