BAND-P3:數(shù)據(jù)分析解決商業(yè)問題學(xué)習(xí)筆記

本文介紹的全部內(nèi)容啄糙,來自于我參與學(xué)習(xí)的Udacity商業(yè)數(shù)據(jù)分析納米學(xué)位笛臣,感興趣的朋友可以試試,課程質(zhì)量很高隧饼,受益匪淺沈堡!

一. 分析框架

我們在使用數(shù)據(jù)分析解決商業(yè)問題時,使用了一種被稱為“跨行業(yè)數(shù)據(jù)挖掘標準流程(CRISP-DM)”的問題解決框架燕雁,這套分析框架最初是為數(shù)據(jù)挖掘問題服務(wù)的诞丽,但它對各種各樣的商業(yè)問題也有很好的效果。

“一種數(shù)據(jù)挖掘過程模型拐格,描述了數(shù)據(jù)挖掘?qū)<矣脕斫鉀Q問題的常用方法……是業(yè)內(nèi)數(shù)據(jù)挖掘工程師使用的主要方法” —— 維基百科

CRISP-DM.png

CRISP-DM通過以下步驟來系統(tǒng)地解決問題:

  • 業(yè)務(wù)理解 Business Issue Understanding
  • 數(shù)據(jù)理解 Data Understanding
  • 數(shù)據(jù)準備 Data Preparation
  • 分析/建模 Analysis/Modeling
  • 模型評估 Validation
  • 模型發(fā)布/可視化 Presentation/Visualization

下面我們將沿著這個步驟深入理解CRISP-DM分析框架僧免。

1.1 業(yè)務(wù)理解

解決問題的第一步,一定是對業(yè)務(wù)問題本身的理解捏浊。業(yè)務(wù)理解要求我們從業(yè)務(wù)角度了解項目目標和要求懂衩,然后轉(zhuǎn)化為數(shù)據(jù)挖掘問題的定義,最后擬定達成業(yè)務(wù)目標的初步方案。能夠觸發(fā)我們進行思考的浊洞,一定是一些問題牵敷,這里不妨先提出一些問題來幫助我們理解業(yè)務(wù):

  1. 需要做出哪些決策?(What DECISION needs to be made)
  2. 需要獲得哪些信息沛申,才能做出這些決策劣领?(What INFORMATION is needed to inform that DECISION)
  3. 什么類型的分析能夠獲取這些決策所需的信息姐军?(What type of ANALYSIS will provide the INFORMATION to inform that DECISION)

我們來看個例子铁材,一家公共事業(yè)公司需要多少電力資源來供給明天24小時電力使用?

首先奕锌,需要做出的決策是如何供應(yīng)所需的電力著觉。那么就需要預(yù)測是否有足夠的電力供應(yīng),還是說需要從市場上購買電力惊暴。所以這里的關(guān)鍵信息就是要知道明天每個小時需要多少電力饼丘。這個信息是未知的,因此需要預(yù)測辽话。所以我們需要一個預(yù)測性的分析來幫助我們獲得做決策時所需的數(shù)據(jù)肄鸽。

1.2 數(shù)據(jù)理解

解決問題的第二步,是要知道我們所需的數(shù)據(jù)是什么油啤,現(xiàn)在可用的數(shù)據(jù)是什么典徘,這個非常重要。

“數(shù)據(jù)理解階段從數(shù)據(jù)收集活動開始益咬,然后借由一些活動來熟悉數(shù)據(jù)逮诲、檢測數(shù)據(jù)質(zhì)量問題、對數(shù)據(jù)進行初步理解幽告,或探索數(shù)據(jù)中比較有趣的數(shù)據(jù)子集梅鹦,進而形成對潛在信息的假設(shè)∪咚” —— 維基百科

數(shù)據(jù)理解的步驟包括:

  1. 需要什么數(shù)據(jù)齐唆?
  2. 有什么數(shù)據(jù)可用?
  3. 數(shù)據(jù)的重要特征是什么冻河?

對數(shù)據(jù)的深刻理解箍邮,對于確保正確的分析非常重要。

1.3 數(shù)據(jù)準備

理解業(yè)務(wù)問題并理解數(shù)據(jù)芋绸,有助于為分析準備數(shù)據(jù)媒殉。數(shù)據(jù)很少能夠被直接使用,所以需要進行一些準備摔敛。

“數(shù)據(jù)準備階段涵蓋了從原始粗糙數(shù)據(jù)中構(gòu)建最終數(shù)據(jù)集(將作為建模工具的分析對象)的全部工作廷蓉。數(shù)據(jù)準備工作有可能被實施多次,而且其實施順序并不是預(yù)先規(guī)定好的。這一階段的任務(wù)主要包括:制表桃犬、記錄刹悴、數(shù)據(jù)變量的選擇和轉(zhuǎn)換,以及為適應(yīng)建模工具而進行的數(shù)據(jù)清理等等攒暇⊥猎龋” —— 維基百科

數(shù)據(jù)準備一般包括以下一個或多個操作:

  • 收集:收集數(shù)據(jù)時,你可能需要從組織內(nèi)的多個來源收集數(shù)據(jù)形用。
  • 清理:你使用的數(shù)據(jù)集可能有一些問題需要在分析之前解決就轧。這可能包括數(shù)據(jù)不正確或丟失。
  • 格式化:你可能需要通過更改日期字段的顯示方式田度,重命名字段妒御,甚至旋轉(zhuǎn)數(shù)據(jù)來格式化數(shù)據(jù),類似于使用數(shù)據(jù)透視表镇饺。
  • 混合:你可能希望將數(shù)據(jù)與其他數(shù)據(jù)集進行混合或組合乎莉,以增加其他變量,類似于在 Excel 中使用 VLOOKUP 函數(shù)惋啃。
  • 數(shù)據(jù)抽樣:最后,你可能需要對數(shù)據(jù)集進行取樣监右,并使用更易于管理的記錄數(shù)。

1.4 分析與建模

數(shù)據(jù)準備好后秸侣,下一步是進行分析和建模存筏。我們會在后面詳細介紹如何通過方法圖來選擇最符合當(dāng)前場景的分析和建模方法。在這一階段味榛,最好直觀地畫出你的分析流程椭坚。概述你分析中的步驟,找出每一步需要的東西搏色,用以獲得最終所需數(shù)據(jù)善茎。

“在這一階段,你要選擇和應(yīng)用各種各樣的建模方法频轿,并將模型的參數(shù)校準為最佳值垂涯。通常情況下,同一種數(shù)據(jù)挖掘問題類型有多種適用的方法航邢。一些建模方法對數(shù)據(jù)形式有具體的要求耕赘。因此,往往需要返回數(shù)據(jù)準備階段膳殷〔俾猓” —— 維基百科

重要步驟:

  • 確定用什么方法來解決問題
  • 確定有助于解決問題的重要因素或變量
  • 構(gòu)建解決問題的模型
  • 運行模型并移至模型評估階段

1.5 模型評估

有很多統(tǒng)計值可以用來確定我們解決方案的質(zhì)量。如果評估下來效果不佳,我們可能要返回到分析建模那個步驟去册招,增加一些新數(shù)據(jù)指標岔激,或者使用一種新的方法。要構(gòu)建一個有信心的預(yù)測模型是掰,需要經(jīng)歷一個反復(fù)迭代的過程虑鼎。不要想著把所有的數(shù)據(jù)扔進一個模型,然后就能得到一個好結(jié)果键痛。最好的模型炫彩,一定是通過有條理的分析創(chuàng)建的。某些情況下散休,可能還要回退好幾步媒楼,甚至重啟整個問題解決過程,修改一些假設(shè)和決策戚丸。

“在項目的這一階段,你已經(jīng)有一個或多個扔嵌,從數(shù)據(jù)分析角度看限府,具有較高質(zhì)量的模型。在進行模型的最終部署之前痢缎,務(wù)必要更全面地評估模型胁勺,并檢查構(gòu)建模型所執(zhí)行的步驟,確保其能正確實現(xiàn)業(yè)務(wù)目標独旷。一個關(guān)鍵目標是確定是否存在一些尚未充分考慮的重要業(yè)務(wù)問題嵌洼。在此階段結(jié)束時,應(yīng)對數(shù)據(jù)挖掘結(jié)果的使用做出決定褐啡”钙瑁” —— 維基百科

重要步驟:

  • 觀察模型上的關(guān)鍵結(jié)果
  • 確保結(jié)果在業(yè)務(wù)問題的情境中有意義
  • 確定是否繼續(xù)下面的步驟還是返回上一階段
  • 必要時重復(fù)多次

1.6 模型發(fā)布和可視化

經(jīng)過徹底的分析懂盐,將結(jié)果有效傳達給決策者很重要糕档。走到這一步就意味著我們的成果要對外展示了。我們要根據(jù)受眾和分析本身來確定展示的形式司光。注意悉患,不是光展示就夠了售躁。最好的方式是講述有關(guān)滿足決策者需求的數(shù)據(jù)故事。特別是對于更復(fù)雜的問題回窘,要帶著觀眾走一遍用來分析的問題解決流程啡直。闡明你在此過程中做出的決策和假設(shè)苍碟。對復(fù)雜的數(shù)據(jù)而言微峰,數(shù)據(jù)可視化有助于識別數(shù)據(jù)的趨勢。另外颜凯,給出引用的數(shù)據(jù)源也是非常重要的症概。最后厉颤,你可以通過衡量分析是否支持了需要做出的決定逼友,來判斷其是否成功。

“創(chuàng)建好模型并不意味著項目結(jié)束司抱。即使模型的目的是提高對數(shù)據(jù)的理解习柠,所獲得的理解仍然需要以一種對客戶有用的方式被組織和呈現(xiàn)。根據(jù)需求的不同武翎,部署階段可以簡單到只是生成一份報告溶锭,也可以非常復(fù)雜,像實現(xiàn)可重復(fù)的數(shù)據(jù)存儲(例如分段分配 segment allocation)或者數(shù)據(jù)挖掘過程垫毙。在許多情況下拱绑,往往是客戶而非數(shù)據(jù)分析師執(zhí)行部署步驟猎拨。即使由分析師部署了模型,客戶也必須了解需要執(zhí)行的操作消请,以便實際利用已構(gòu)建的模型⊙潦啵” —— 維基百科

注意事項:

  • 根據(jù)分析针饥,確定呈現(xiàn)見解的最佳方式
  • 根據(jù)觀眾丁眼,確定呈現(xiàn)見解的最佳方式
  • 確保共享的信息不要過量
  • 使用結(jié)果向觀眾講述故事
  • 對于更復(fù)雜的分析苞七,你可能需要向觀眾演示分析問題解決過程
  • 始終注明使用的數(shù)據(jù)源出處
  • 確保你的分析支持需要做出的決策

二. 選擇分析方法

問題解決框架有助于系統(tǒng)地解決商業(yè)問題,但是它無法幫助我們了解具體該使用哪種方法卢厂。方法圖有助于我們決定應(yīng)當(dāng)使用哪種方法來解決一個商業(yè)問題慎恒,可將其與問題解決框架共同使用。要確定具體的分析方法死嗦,我們要用另一個工具:方法圖(Methodology Map)越除。

方法圖

從方法圖的頂部開始靠欢,先確認該問題是否需要預(yù)測一個結(jié)果门怪。如果是預(yù)測問題,就用左邊的方法肋殴;如果是非預(yù)測問題坦弟,則使用右邊的數(shù)據(jù)分析方法。

2.1 非預(yù)測性商業(yè)問題

非預(yù)測性分析可劃分成四種類型:地理空間(Geospatial)烙懦、細分(Segmentation)赤炒、聚合(Aggregation)以及描述性(Descriptive)。

2.1.1 地理空間分析(Geospatial Analysis)

這種類型的分析使用基于地理位置的數(shù)據(jù)來推導(dǎo)結(jié)論掩缓。例子有:通過地理區(qū)域識別客戶你辣,計算店鋪之間的距離以及根據(jù)客戶位置創(chuàng)建交易區(qū)域舍哄。

2.1.2 細分分析(Segmentation Analysis)

細分是將數(shù)據(jù)分組的過程正卧。分組可以是簡單的,比如購買不同東西的客戶签孔,也可以是復(fù)雜的,比如根據(jù)客戶的人口特征統(tǒng)計來識別相似的店鋪图仓。

2.1.3 聚合分析(Aggregation Analysis)

此方法用于計算跨組或跨維度的數(shù)據(jù)救崔,在數(shù)據(jù)分析中很常用捏顺。舉例來說幅骄,你可能想要某個銷售員的月度銷售匯總,將其每個月的銷售額相加即可主巍。然后孕索,你可能需要跨維度進行匯總搞旭,比如各銷售領(lǐng)域的月度銷售匯總。聚合通常用于報告选脊,以達到劃分和區(qū)別信息的作用,有助于管理層制定決策和觀察表現(xiàn)偏灿。

2.1.4 描述性分析(Descriptive Analysis)

描述性統(tǒng)計可提供一個數(shù)據(jù)樣本的簡單概括翁垂。比如說計算一所學(xué)校申請者的平均 GPA,或者計算一個職業(yè)棒球員的擊球平均水平枚荣。在我們的電力供應(yīng)案例中橄妆,我們可以使用描述性統(tǒng)計來計算每小時、每天或某一天的平均溫度害碾。一些常用的描述性統(tǒng)計包括平均值慌随、中位數(shù)阁猜、眾數(shù)、標準方差和四分位差剃袍。

2.2 預(yù)測性商業(yè)問題

對于預(yù)測性問題笛园,第一步是調(diào)查現(xiàn)有的數(shù)據(jù)是否足以解決問題。如果現(xiàn)有數(shù)據(jù)足以解決問題埋同,我們將其歸類為“數(shù)據(jù)豐富”凶赁;如果現(xiàn)有數(shù)據(jù)不足以解決問題虱肄,我們將其歸類為“數(shù)據(jù)不足”咏窿。又一個簡單的方法可以判斷:你有想要預(yù)測的數(shù)據(jù)嗎集嵌?如果有御毅,可以選擇數(shù)據(jù)豐富路徑;如果沒有凤粗,則需要選擇數(shù)據(jù)不足的路徑嫌拣。

2.2.1 數(shù)據(jù)不足

如果沒有足夠的可用數(shù)據(jù)來解決問題亭罪,就需要設(shè)置一個實驗來幫助我們得到想要的數(shù)據(jù)。給出特定商業(yè)情景的實驗通常指的是 A/B 測試情组。

2.2.2 數(shù)據(jù)豐富

假設(shè)我們有足夠的數(shù)據(jù)進行分析院崇,下一步就是確定我們要預(yù)測的結(jié)果是數(shù)值型結(jié)果還是非數(shù)值型結(jié)果底瓣。

回歸模型(Regression Models)捐凭。數(shù)值型結(jié)果是那些用數(shù)字表示的結(jié)果凳鬓。預(yù)測供電量或者每小時溫度都屬于數(shù)值型結(jié)果垦梆。預(yù)測數(shù)值型數(shù)據(jù)的模型被稱為回歸模型仅孩。

分類模型(Classification Models)。非數(shù)值型結(jié)果是那些我們要預(yù)測案例或客戶所屬類型的結(jié)果京腥,比如客戶是按時付款绞旅、延期付款還是拖欠貸款。另一個例子是:某電子設(shè)備是否會在 1000 個小時內(nèi)出故障堕汞。預(yù)測非數(shù)值型數(shù)據(jù)的模型被稱為分類模型。

例子1:三輪車制造商的生產(chǎn)部門琐鲁。在第一個例子中,假設(shè)制造商想要利用歷史生產(chǎn)數(shù)據(jù)來預(yù)測顾翼,在未來六個月內(nèi)适贸,他們需要生產(chǎn)多少三輪車來滿足市場需求。因為制造商想要預(yù)測的結(jié)果是一個數(shù)字蕊肥,目標變量是數(shù)值型。因此蛤肌,他們需要用數(shù)值型或回歸模型來解決這個問題壁却。

例子2:Hot & Fresh Pizza 的市場部門。第二個例子中裸准,Hot & Fresh Pizza 想用他們現(xiàn)有店鋪的銷售數(shù)據(jù)和這些店鋪相應(yīng)的周邊人口統(tǒng)計數(shù)據(jù)來預(yù)測他們位于某地的新店能賣多少披薩展东。因為 Hot & Fresh Pizza 想要預(yù)測的是披薩的數(shù)量,目標變量是數(shù)值型狼速。因此琅锻,他們需要用數(shù)值型或回歸模型來解決這個問題。

例子3:銀行的風(fēng)險管理部門向胡。第三個例子中恼蓬,銀行想要用他們客戶的歷史數(shù)據(jù)來預(yù)測一個新客戶會拖欠貸款、總是按時還貸還是有時按時還貸僵芹。因為銀行想要的結(jié)論是預(yù)測新客戶的類型荷辕,所以他們需要用非數(shù)值型或分類模型來解決這個問題。

2.2.2.1 數(shù)值型模型

數(shù)值型變量(Numeric Variables)的種類:三種最常見的數(shù)值型變量是連續(xù)型、基于時間型以及計數(shù)型壁顶。

  1. 連續(xù)型(Continuous):連續(xù)型變量能包含一個范圍內(nèi)的所有數(shù)值蝴猪。打個比方,你的身高能測量到多個小數(shù)位的精度,我們不會以每英寸的間隔成長阁簸。

  2. 基于時間型(Time-Based):基于時間的數(shù)值型變量是預(yù)測在某一段時間內(nèi)會發(fā)生什么的一種變量饶米,常常與“預(yù)報”有關(guān)。

  3. 計數(shù)型(Count):計數(shù)型變量是離散的正整數(shù)。它們被稱為計數(shù)數(shù)字是因為被用來分析能夠計數(shù)的變量。

2.2.2.2 非數(shù)值型模型

非數(shù)值型變量(Non-Numeric Variables):非數(shù)值型變量常常被稱為分類(categorical)變量,因為變量的值用離散數(shù)字來表現(xiàn)可能的數(shù)值和類別关噪。比如電子設(shè)備是否會在 1000 個小時內(nèi)出故障藤韵;或者一個客戶將會按時付款镐依、拖延付款還是拖欠付款然低;或者某店鋪被劃分為大枫笛、中、小三種類型之一。

分類模型:二元和非二元(Binary and Non-Binary):當(dāng)給分類變量建模時,可能的結(jié)果數(shù)量是一個重要參數(shù)。如果只有兩種可能的分類結(jié)果,比如是和否,或者對和錯划纽,那么這個變量就被稱為二元變量比默。

如果有多于兩種的分類結(jié)果醋奠,比如小、中迷捧、大或者按時付款笙蒙、拖延付款、拖欠付款焰雕,那么該變量就被稱為是非二元變量吝秕。這節(jié)課的重要內(nèi)容是要能夠決定是否使用分類模型以及是否應(yīng)該使用二元模型或非二元模型。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市寓辱,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌阳掐,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,277評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機注益,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評論 3 393
  • 文/潘曉璐 我一進店門强重,熙熙樓的掌柜王于貴愁眉苦臉地迎上來圾亏,“玉大人志鹃,你說我怎么就攤上這事曹铃∑捞穑” “怎么了佩研?”我有些...
    開封第一講書人閱讀 163,624評論 0 353
  • 文/不壞的土叔 我叫張陵彪见,是天一觀的道長余指。 經(jīng)常有香客問我捕犬,道長,這世上最難降的妖魔是什么酵镜? 我笑而不...
    開封第一講書人閱讀 58,356評論 1 293
  • 正文 為了忘掉前任碉碉,我火速辦了婚禮,結(jié)果婚禮上淮韭,老公的妹妹穿的比我還像新娘垢粮。我一直安慰自己,他們只是感情好靠粪,可當(dāng)我...
    茶點故事閱讀 67,402評論 6 392
  • 文/花漫 我一把揭開白布蜡吧。 她就那樣靜靜地躺著毫蚓,像睡著了一般。 火紅的嫁衣襯著肌膚如雪斩跌。 梳的紋絲不亂的頭發(fā)上绍些,一...
    開封第一講書人閱讀 51,292評論 1 301
  • 那天,我揣著相機與錄音耀鸦,去河邊找鬼柬批。 笑死,一個胖子當(dāng)著我的面吹牛袖订,可吹牛的內(nèi)容都是我干的氮帐。 我是一名探鬼主播,決...
    沈念sama閱讀 40,135評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼洛姑,長吁一口氣:“原來是場噩夢啊……” “哼上沐!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起楞艾,我...
    開封第一講書人閱讀 38,992評論 0 275
  • 序言:老撾萬榮一對情侶失蹤参咙,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后硫眯,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蕴侧,經(jīng)...
    沈念sama閱讀 45,429評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,636評論 3 334
  • 正文 我和宋清朗相戀三年两入,在試婚紗的時候發(fā)現(xiàn)自己被綠了净宵。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,785評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡裹纳,死狀恐怖择葡,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情剃氧,我是刑警寧澤敏储,帶...
    沈念sama閱讀 35,492評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站朋鞍,受9級特大地震影響虹曙,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜番舆,卻給世界環(huán)境...
    茶點故事閱讀 41,092評論 3 328
  • 文/蒙蒙 一酝碳、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧恨狈,春花似錦疏哗、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽贝搁。三九已至,卻和暖如春芽偏,著一層夾襖步出監(jiān)牢的瞬間雷逆,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評論 1 269
  • 我被黑心中介騙來泰國打工污尉, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留膀哲,地道東北人。 一個月前我還...
    沈念sama閱讀 47,891評論 2 370
  • 正文 我出身青樓被碗,卻偏偏與公主長得像某宪,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子锐朴,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,713評論 2 354

推薦閱讀更多精彩內(nèi)容