一名數(shù)據(jù)科學家的日常

Data Science

這是一篇非常好的介紹數(shù)據(jù)科學家日常的文章寸潦,以下是我翻譯的中文,原文見文末鏈接社痛。

前言

作為一名數(shù)據(jù)科學家见转,我時常被問到“你的工作究竟是做什么的?”褥影。

這是因為數(shù)據(jù)科學家有的時候會被人們誤解為手里拿著水晶球(其實是MacBook Pro)池户,嘴里嚷嚷著令人難以理解的晦澀詞匯(機器學習,隨機森林,深度神經(jīng)網(wǎng)絡(luò)校焦,貝葉斯后驗等)赊抖,并對未來做出精準的預測的那么一群巫師。雖然我也希望自己真的擁有未卜先知的超能力寨典,但真實的情況是氛雪,數(shù)據(jù)科學并不是魔法。數(shù)據(jù)科學的威力來自于數(shù)據(jù)科學家對統(tǒng)計和算法的深入理解耸成,對編程技能的熟練掌握报亩,以及優(yōu)秀的溝通和業(yè)務(wù)認知能力。更重要的是井氢,數(shù)據(jù)科學其實是一門如何把上述三方面的技能有條不紊地應(yīng)用于業(yè)務(wù)中并解決實際問題的學問弦追。

數(shù)據(jù)科學的基本流程

讓我們以一個具體的場景來解釋數(shù)據(jù)科學的基本流程:假設(shè)你剛被一家創(chuàng)業(yè)公司聘請為數(shù)據(jù)科學家。經(jīng)過十年寒窗苦讀花竞,你早就想要一展身手劲件,攻克復雜的數(shù)據(jù)問題,讓新公司的同事對你刮目相看约急。但問題是零远,你該從何開始呢?

巧合的是厌蔽,在公司吃午餐的間隙牵辣,你碰到了銷售部門的總監(jiān),你向總監(jiān)熱情地介紹了自己并向她提問:“有什么數(shù)據(jù)方面的難題我可以幫助你們解決嗎奴饮?”

總監(jiān)想了想纬向,答道:”你能幫我們優(yōu)化我們的銷售漏斗并且提高轉(zhuǎn)化率嗎?“

你聽了之后第一反應(yīng):什么拐云?這是一個數(shù)據(jù)問題嗎罢猪?我壓根都沒有聽到“數(shù)據(jù)”這個詞。我應(yīng)該具體去分析什么呢叉瘩?她的問題到底是什么意思膳帕?

你在學校的導師早就警告過你:客戶對想要解決的數(shù)據(jù)問題缺乏清晰的定義是數(shù)據(jù)科學家經(jīng)常會遇到的狀況。解決這個問題的辦法就是運用數(shù)據(jù)科學的基本流程薇缅。

數(shù)據(jù)科學的基本流程:概要

當一個非技術(shù)背景出身的領(lǐng)導要求你解決一個數(shù)據(jù)問題時危彩,他/她對數(shù)據(jù)問題的描述通常是非常模糊的。這時候就需要發(fā)揮你作為數(shù)據(jù)科學家的作用泳桦,把一個模糊的問題描述轉(zhuǎn)化成一個具體的數(shù)據(jù)問題汤徽,并且運用數(shù)據(jù)科學的方法去解決問題,最后把結(jié)論呈現(xiàn)給你的上級領(lǐng)導灸撰。

我們通常把這整個流程稱為“數(shù)據(jù)科學流程”谒府。具體來說拼坎,包括這樣幾個重要的步驟:

  1. 問題定義:誰是你的客戶?你的客戶到底想要你解決什么問題完疫?你應(yīng)該如何把一個模糊的需求轉(zhuǎn)化為一個具體的泰鸡,界定清晰的數(shù)據(jù)問題?

  2. 數(shù)據(jù)收集:是否有現(xiàn)成的數(shù)據(jù)壳鹤?如果是的話盛龄,哪一部分的數(shù)據(jù)對解決問題有幫助?如果不是的話芳誓,需要哪些額外的數(shù)據(jù)余舶?收集這些額外的數(shù)據(jù)需要動用哪些資源(時間,金錢锹淌,技術(shù))匿值?

  3. 數(shù)據(jù)處理:在現(xiàn)實場景中的原始數(shù)據(jù)一般很少能夠被直接使用,數(shù)據(jù)科學家在面對原始數(shù)據(jù)時通常要面臨數(shù)據(jù)錯誤赂摆,數(shù)據(jù)損壞千扔,數(shù)據(jù)丟失等一系列問題。數(shù)據(jù)科學家首先要做的便是將原始數(shù)據(jù)進行清洗库正,并將其轉(zhuǎn)化成適合進一步分析的數(shù)據(jù)格式。

  4. 數(shù)據(jù)挖掘:一旦完成了數(shù)據(jù)清洗厘唾,下一步需要做的就是數(shù)據(jù)挖掘褥符。數(shù)據(jù)挖掘指的是對數(shù)據(jù)內(nèi)部隱含的規(guī)律,模式以及相關(guān)性進行探索抚垃,從中提取有價值的信息喷楣。

  5. 數(shù)據(jù)建模:數(shù)據(jù)建模通常是整個數(shù)據(jù)科學流程中最引人矚目的一個環(huán)節(jié),在這個步驟里鹤树,數(shù)據(jù)科學家會根據(jù)要解決的問題和現(xiàn)有的數(shù)據(jù)選擇適用的機器學習铣焊,深度學習或是統(tǒng)計的相關(guān)模型,然后從模型輸出的結(jié)果里提煉出能夠為決策服務(wù)的內(nèi)容罕伯。

  6. 成果溝通:這是最后一個也是最重要的環(huán)節(jié)曲伊,所有你之前完成的分析和建模工作將會變得一文不值,如果你不能夠把你的成果有效地與你的領(lǐng)導進行溝通追他。這個環(huán)節(jié)通常是最容易被數(shù)據(jù)科學家忽略或輕視的坟募,但事實上,溝通能力以及如何讓非技術(shù)背景的受眾能夠非常直白地理解一個技術(shù)話題是至關(guān)重要的邑狸。

那么回到我們之前的例子懈糯,現(xiàn)在你要如何著手開始幫助你們公司銷售部門的總監(jiān)呢?在接下來幾個章節(jié)单雾,我們會依次深入講解每一個數(shù)據(jù)科學的環(huán)節(jié)在現(xiàn)實中是如何運作的赚哗!

數(shù)據(jù)科學的基本流程之一:問題定義

你所在的創(chuàng)業(yè)公司銷售部門的總監(jiān)希望你能幫助她優(yōu)化銷售漏斗并提高轉(zhuǎn)化率她紫,那么作為一名數(shù)據(jù)科學家,你應(yīng)該從何開始呢屿储?

你應(yīng)該從提出正確的問題開始:

  • 誰是這家創(chuàng)業(yè)公司的目標客戶群贿讹?你應(yīng)該如何甄別潛在的客戶?
  • 目前這家創(chuàng)業(yè)公司的銷售流程是怎么樣的扩所?
  • 這家創(chuàng)業(yè)公司已經(jīng)收集了有關(guān)目標客戶群的什么樣的信息围详?
  • 針對目標客戶的細分類別,這家創(chuàng)業(yè)公司是否有不同等級的配套服務(wù)祖屏?

你的首要目標是從你的客戶(在這個例子里指的是銷售部門總監(jiān))的角度去理解她為什么提出這個問題助赞,和業(yè)務(wù)有什么聯(lián)系,以及她在這個問題中最關(guān)心的是哪個部分袁勺。正確理解客戶的動機對于數(shù)據(jù)科學家后續(xù)開展分析和建模的工作具有非常大的幫助雹食。

一旦你對于數(shù)據(jù)問題所從屬的業(yè)務(wù)領(lǐng)域有了初步的了解,你應(yīng)該向你的客戶提出更有針對性的問題來明確具體需求期丰。在銷售總監(jiān)的這個例子中群叶,你可以向她提問:“那么您理想中優(yōu)化后的銷售漏斗是什么樣子的?當前銷售漏斗的哪個部分您認為還有提升空間钝荡?”

銷售總監(jiān)回答道:“我認為我們的銷售團隊花了太多時間在嘗試說服那些不打算購買我們產(chǎn)品的潛在客戶街立,我更愿意把這些時間投入在那些具有更高意愿購買我們產(chǎn)品的客戶身上。我同時希望了解哪些細分的客戶群體具有比較低的轉(zhuǎn)化率與造成低轉(zhuǎn)化率的原因埠通∈昀耄”

通過與銷售總監(jiān)的進一步溝通,你終于了解到你需要解決的是個什么樣的數(shù)據(jù)問題端辱。你可以進一步把你的思路寫成幾個跟進的問題:

  1. 現(xiàn)在對公司來說最重要的細分客戶群體是哪些梁剔?
  2. 這些細分客戶群體之間的轉(zhuǎn)化率有什么區(qū)別?某些細分客戶群體是否存在顯著的高或低轉(zhuǎn)化率舞蔽?
  3. 我們應(yīng)該如何預測一名潛在客戶是否有可能下單購買我們的產(chǎn)品荣病?
  4. 我們是否有辦法甄別那些舉棋不定的潛在客戶?
  5. 不同細分客戶群體的投資回報率(ROI)是怎么樣的渗柿?

有了這些問題个盆,你可以與銷售總監(jiān)再進行一次需求的確認。在這個例子里做祝,銷售總監(jiān)對于你準備的具體問題感到很滿意砾省,并補充道:“我對于每個潛在客戶具有多大的可能轉(zhuǎn)化為購買我們產(chǎn)品的客戶特別感興趣,其他的問題也非常重要混槐!” 在聽了銷售總監(jiān)的意見后编兄,你在心里把第3個和第4個問題打了著重標記。

下面声登,我們來談?wù)勀闳绾卫矛F(xiàn)有的數(shù)據(jù)來解決問題狠鸳。

數(shù)據(jù)科學的基本流程之二:數(shù)據(jù)收集

在這個步驟揣苏,你已經(jīng)明確了你的第一個數(shù)據(jù)科學項目要解決的主要問題:預測每個潛在客戶將會購買公司產(chǎn)品的概率。

清楚了要解決的問題之后件舵,接下來你應(yīng)該考慮用什么數(shù)據(jù)來解決這個問題卸察,以及哪些數(shù)據(jù)是現(xiàn)成的?

你了解到這家創(chuàng)業(yè)公司大多數(shù)的客戶數(shù)據(jù)存儲在公司銷售部門的CRM系統(tǒng)里铅祸,由銷售運營團隊管理坑质。CRM系統(tǒng)的后端是一個SQL數(shù)據(jù)庫,該數(shù)據(jù)庫支持API形式的訪問临梗,并且能夠把數(shù)據(jù)以JSON格式的形式返回涡扼。

你面臨的問題有:CRM數(shù)據(jù)庫里哪些是你需要的數(shù)據(jù)?你應(yīng)該如何提取數(shù)據(jù)盟庞?你應(yīng)該用什么格式來存儲數(shù)據(jù)以便進行深入的分析吃沪?

你開始卷起袖子探索SQL數(shù)據(jù)庫,發(fā)現(xiàn)里面不僅存儲了客戶在銷售流程中的相關(guān)數(shù)據(jù)什猖,而且包括了客戶的身份信息票彪,聯(lián)系方式和家庭信息等。同時不狮,由于數(shù)據(jù)量不是很大降铸,你決定使用CSV的格式來存儲提取的原始數(shù)據(jù)。

作為一名具有道德感的數(shù)據(jù)科學家摇零,你應(yīng)該考慮到數(shù)據(jù)的安全性和隱私性垮耳,在你提取數(shù)據(jù)的過程中,應(yīng)該剔除一切個人可識別信息遂黍。所有最終在CSV文件中保存的原始數(shù)據(jù)必須是匿名的,并且無法追溯到任何一個具體客戶俊嗽。

在大多數(shù)情況下雾家,你會使用公司現(xiàn)成的數(shù)據(jù)。但有的時候绍豁,你也需要主導并參與數(shù)據(jù)收集的工作芯咧,那會涉及到更多軟件工程方面的知識,通常整個項目的周期會更長竹揍。

現(xiàn)在你已經(jīng)有了解決問題所需要的相關(guān)數(shù)據(jù)敬飒,你準備開始對數(shù)據(jù)進行一番挖掘來找出有價值的信息。但是且慢芬位,你手頭的數(shù)據(jù)仍然是“原始數(shù)據(jù)”无拗,有很大的可能存在數(shù)據(jù)丟失,損壞昧碉,錯誤等問題英染。在你從數(shù)據(jù)中找出規(guī)律之前揽惹,你必須得對數(shù)據(jù)進行處理。

數(shù)據(jù)科學的基本流程之三:數(shù)據(jù)處理

作為公司的數(shù)據(jù)科學家四康,你正在埋頭幫助公司銷售部門總監(jiān)預測哪些潛在客戶更有可能購買公司的產(chǎn)品搪搏。并且你已經(jīng)從CRM數(shù)據(jù)庫收集了原始數(shù)據(jù)存儲在CSV文件里。

但是闪金,在完成了這些前期工作之后讶坯,你還不能夠直接使用這些數(shù)據(jù)開展分析工作怀泊。因為,你要確保你的數(shù)據(jù)是“干凈”的!數(shù)據(jù)清洗與整理通常是數(shù)據(jù)科學家在日常工作中花費最多時間的一個環(huán)節(jié)洞辣,這也是一個需要耐心和專注度的步驟。

首先麦撵,你必須檢視你提取的數(shù)據(jù)吵冒,并且確保你理解每個數(shù)據(jù)列的含義。舉個例子愿题,如果有個數(shù)據(jù)列叫“FIRST_CONTACT_TS”损俭,代表的是用戶第一次被公司聯(lián)系的日期與時間。你應(yīng)該自然地聯(lián)想到以下幾個問題:

  • 是否存在丟失的數(shù)據(jù)潘酗?比如有些客戶沒有第一次被公司聯(lián)系的日期時間信息杆兵?如果數(shù)據(jù)都齊全的話,是好現(xiàn)象還是壞現(xiàn)象仔夺?
  • 這些日期時間數(shù)據(jù)代表的時區(qū)是什么琐脏?所有的記錄都是同一時區(qū)的嗎?
  • 這些日期時間數(shù)據(jù)的區(qū)間是什么缸兔?區(qū)間是合理的嗎日裙?如果這家創(chuàng)業(yè)公司是2011年成立的,那么是否有2011年之前的記錄惰蜜?那些記錄是單純的錯誤還是有其他特殊的含義昂拂?這些問題需要數(shù)據(jù)科學家與銷售部門負責業(yè)務(wù)的同事進行溝通確認。

一旦你發(fā)現(xiàn)了原始數(shù)據(jù)中存在的問題抛猖,你應(yīng)該怎么做呢格侯?你可以選擇把那些含有丟失或者損壞數(shù)據(jù)的記錄完全舍棄,你也可以選擇用一些合理的默認值來代替(默認值通常要基于負責業(yè)務(wù)同事的意見)财著。一般而言联四,在數(shù)據(jù)處理過程中,你有很多選擇撑教,作為數(shù)據(jù)科學家朝墩,你的工作是要決定哪個選擇對于解決當前的具體問題更有幫助。

接下來你必須要對CSV文件里的每一個數(shù)據(jù)列都重復同樣的處理步驟:在這個過程中你將會理解為什么數(shù)據(jù)處理會花費那么多時間伟姐。這是數(shù)據(jù)科學項目中不可或缺的時間投入鱼辙,你的最終目的是盡可能地確保經(jīng)過處理后你的數(shù)據(jù)是“干凈”的廉嚼。

同時你也需要確保數(shù)據(jù)中包含了你需要的所有關(guān)鍵信息。對于預測一個潛在客戶未來的購買行為而言倒戏,你需要知道的是哪些潛在客戶在過去已經(jīng)成功轉(zhuǎn)化為購買產(chǎn)品的客戶怠噪。巧合的是,你找到了一列叫做“CONVERTED”的數(shù)據(jù)杜跷,里面包含了“YES/NO”的值傍念。

最后,在一系列的數(shù)據(jù)清洗與整理之后葛闷,你終于擁有一份“干凈”的數(shù)據(jù)憋槐。你已經(jīng)做好準備從數(shù)據(jù)中挖掘更多信息了!

數(shù)據(jù)科學的基本流程之四:數(shù)據(jù)挖掘

你已經(jīng)收集了原始數(shù)據(jù)并花了很多時間清洗數(shù)據(jù)淑趾。

現(xiàn)在你終于要開始分析數(shù)據(jù)了阳仔!你迫不及待地想要了解數(shù)據(jù)里總共包含了哪些信息,其中哪幾塊數(shù)據(jù)能為你解決問題提供幫助扣泊。這個步驟通常被稱為“探索性數(shù)據(jù)分析”近范。

首先你要明確你想探索的是哪些方面的數(shù)據(jù)?你可以花上幾天甚至幾個禮拜的時間漫無目的地把各個方面的數(shù)據(jù)做成可視化圖表延蟹。但現(xiàn)實的問題是评矩,你沒有那么多時間,你的客戶——銷售部門的總監(jiān)阱飘,希望在下周的董事會會議上匯報你的成果斥杜。

你回到一開始的問題定義:預測哪些潛在客戶有可能轉(zhuǎn)化為購買產(chǎn)品的客戶。你想到你可以把所有客戶數(shù)據(jù)按照購買與否分成兩個類別沥匈,然后觀察兩個子類別之間的差異蔗喂。

很快你就注意到了一些有趣的現(xiàn)象。當你嘗試繪制兩個子類別的直方圖時高帖,你發(fā)現(xiàn)很多年紀在30歲出頭的客戶更愿意去購買公司的產(chǎn)品弱恒,而20多歲的客戶則并沒有很強的購買意愿。這個發(fā)現(xiàn)讓你感到驚訝棋恼,因為公司的產(chǎn)品定位是面向20多歲的目標客戶群的。

在另外一方面锈玉,你發(fā)現(xiàn)很多成功購買產(chǎn)品的客戶更多是被公司的郵件營銷活動所針對而不是社交媒體營銷活動爪飘。社交媒體營銷活動總體上對于客戶的購買行為并沒有很大的影響。而20多歲年齡段的客戶則大多是被社交媒營銷活動針對拉背。

你通過繪制直方圖直觀上確認了這些結(jié)論师崎,并運用了你的推論統(tǒng)計知識進一步驗證。

第二天椅棺,你來到銷售總監(jiān)的辦公桌前犁罩,和她分享了你的初步分析結(jié)果齐蔽。她認為這些發(fā)現(xiàn)很有價值,并希望盡快看到你的完整成果床估!

數(shù)據(jù)科學的基本流程之五:數(shù)據(jù)建模

在之前的數(shù)據(jù)挖掘步驟中含滴,我們已經(jīng)從數(shù)據(jù)里發(fā)現(xiàn)了一些與客戶購買行為相關(guān)的特征,這些特征能夠幫助我們解決預測客戶購買行為的問題丐巫。在這一環(huán)節(jié)里谈况,我們將來介紹如何用這些數(shù)據(jù)來構(gòu)建一個數(shù)據(jù)模型并生成預測。

在分類預測問題上效果比較好的通常是機器學習模型递胧。一個機器學習模型需要大量的數(shù)據(jù)來訓練碑韵,這些數(shù)據(jù)被稱為“特征向量”。

那么我們應(yīng)該如何創(chuàng)建這些“特征向量”呢缎脾?在我們的數(shù)據(jù)挖掘環(huán)節(jié)祝闻,我們已經(jīng)發(fā)現(xiàn)了一些對于預測客戶購買行為具有幫助的特征,尤其是客戶年齡與營銷渠道(郵件營銷 vs. 社交媒體營銷)遗菠。這里我們需要注意這兩個特征的區(qū)別:客戶年齡是一個數(shù)值而營銷渠道是一個數(shù)值型變量联喘,而營銷渠道是一個分類型變量。作為一個稱職的數(shù)據(jù)科學家舷蒲,你必須懂得如何區(qū)別對待這些變量并且正確地把這些變量轉(zhuǎn)化為特征耸袜。

除了這些特征以外,你還需要標簽牲平。標簽會告訴機器學習模型哪些數(shù)據(jù)對應(yīng)的是哪些類別堤框。在這個例子中,我們可以用“CONVERTED”這個數(shù)據(jù)列作為布爾值標簽(購買 vs. 沒有購買)纵柿。1表示的是潛在客戶購買了產(chǎn)品蜈抓,0表示的是潛在客戶沒有購買產(chǎn)品。

現(xiàn)在有了特征和標簽數(shù)據(jù)昂儒,你決定用一種基本的被稱為邏輯回歸的機器學習分類器模型來訓練并生成預測結(jié)果沟使。分類器模型是屬于機器學習中“監(jiān)督學習”類別下的一種算法,這種算法構(gòu)建的模型能從特征和標簽數(shù)據(jù)中學習對應(yīng)的映射關(guān)系渊跋。與“監(jiān)督學習”相反的是腊嗡,“非監(jiān)督學習”可以直接從特征數(shù)據(jù)里學習,而不需要與之對應(yīng)的標簽數(shù)據(jù)拾酝。

你選擇邏輯回歸算法的原因是這是一種相對簡單的模型燕少,所需訓練時間也比較短,模型不但能夠生成預測的結(jié)果而且會輸出每個潛在客戶轉(zhuǎn)化的概率蒿囤。你應(yīng)用了這個模型客们,并調(diào)整了模型的參數(shù),經(jīng)過幾次迭代,你最終得到了令人滿意的預測結(jié)果底挫。

銷售部門總監(jiān)正好經(jīng)過恒傻,看到你興奮的神情,問:“有什么進展嗎建邓?”你激動地回應(yīng):“我剛剛訓練完成的邏輯回歸模型實現(xiàn)了95%的真陽性率和0.5%的偽陽性率盈厘!”

銷售總監(jiān)看著你說著這些好像看著一個外星人一般。

你這才意識到你還沒有完成你的工作涝缝。你需要完成最后一個重要的溝通步驟扑庞,也就是把你的成果通過一種清晰有效的方式傳達給你的客戶。

數(shù)據(jù)科學的基本流程之六:成果溝通

你現(xiàn)在訓練完成了一個能夠準確預測潛在客戶購買行為的機器學習模型拒逮。但是你應(yīng)該如何把這個成果以銷售總監(jiān)能夠理解的方式告知她呢罐氨?

溝通能力是數(shù)據(jù)學家所有需要的技能中最被低估的一項。當你的某些同事(比如從事軟件開發(fā)的同事)能夠盡量避免溝通而專心開發(fā)程序滩援,數(shù)據(jù)科學家卻必須要具備能夠把自己的成果用其他部門同事同時能夠理解的語言解釋清楚的能力栅隐,并且一定要讓受眾真正理解一個數(shù)據(jù)科學項目產(chǎn)生的巨大影響。這些溝通技能通常被稱作“數(shù)據(jù)演講”的能力玩徊。

那么在這個例子中租悄, 你應(yīng)該怎么樣去用數(shù)據(jù)去講一個故事呢?你的故事應(yīng)該包括你從數(shù)據(jù)挖掘和數(shù)據(jù)建模過程中得到的重要結(jié)論恩袱。最重要的一點是泣棋,你應(yīng)該在你的演講中回答那些你的客戶最關(guān)心的問題!

首先你應(yīng)該做的是從公司的CRM數(shù)據(jù)庫里提取現(xiàn)有潛在客戶的特征數(shù)據(jù)畔塔,然后用你的模型對這些客戶的購買概率進行預測潭辈,把你的預測結(jié)果按照概率從高到低排序并保存在一張工作表里,最后把存有結(jié)果的工作表分享給公司的銷售總監(jiān)澈吨。

接下來把敢,你應(yīng)該強調(diào)從數(shù)據(jù)挖掘過程中得出的幾個重要的結(jié)論:

  • 客戶年齡:從數(shù)據(jù)的角度來看,我們公司的產(chǎn)品更多地是賣給了在30歲出頭這個年紀的客戶群體谅辣,而不是20多歲的客戶群體修赞。這與我們的銷售策略不符,因為我們產(chǎn)品的定位實際上是面向20多歲的客戶群的桑阶。

  • 營銷方式:我們使用社交媒體營銷來針對20多歲的客戶柏副,用郵件營銷來針對30歲出頭的客戶。這一營銷方式的差異造成了兩個細分客戶群體的購買轉(zhuǎn)換率的顯著差異蚣录。

在之后的一周割择,你和銷售總監(jiān)又進行了一次會議,幫助她理解你得出的重要結(jié)論包归。她聽了后,問道:“現(xiàn)在從數(shù)據(jù)中我們知道了這些,那么銷售部門應(yīng)該如何采取行動呢公壤?”

作為一名數(shù)據(jù)科學家换可,你的主要工作職責是分析數(shù)據(jù)。但由于你職責的一部分是解讀你所分析的數(shù)據(jù)厦幅,你會經(jīng)常被其他同事要求對如何利用數(shù)據(jù)提出有效的建議沾鳄。

你沉思片刻,回答道:“首先确憨,我會建議用包含有模型預測結(jié)果的工作表來為銷售部門接下來一到兩周銷售工作的導向译荞,指引銷售人員把更多精力花在具有高概率會購買我們產(chǎn)品的潛在客戶身上,并衡量這一策略的業(yè)績表現(xiàn)休弃。這會讓你的銷售團隊變得更有效率吞歼,并且你們在執(zhí)行新的銷售策略后也可以從業(yè)務(wù)的角度對我的模型進行反饋∷”

“其次篙骡,我建議我們應(yīng)該重新審視一下我們的營銷策略,并決定是否用郵件營銷活動來針對20多歲的客戶群體丈甸,或是提高我們社交媒體營銷活動的效率糯俗。”

銷售部門的總監(jiān)非常認可你的建議睦擂,她馬上幫你安排了與營銷部門總監(jiān)的會議讓你能夠在他面前提出你的建議得湘。同時,她也要求你準備一份關(guān)于數(shù)據(jù)挖掘和數(shù)據(jù)建模的演示文稿顿仇,讓她可以在董事會會議上對銷售漏斗優(yōu)化的問題與提高轉(zhuǎn)化率的問題進行匯報淘正。

尾聲

你終于順利完成了你在公司的第一個數(shù)據(jù)科學項目并且通過實踐經(jīng)驗理解了你在學校的導師所說的:數(shù)據(jù)科學的關(guān)鍵并不在于統(tǒng)計,數(shù)學或是算法夺欲,也不在于編程和實施跪帝,數(shù)據(jù)科學的關(guān)鍵在于這是一個交叉學科,需要從業(yè)者具備跨越技術(shù)和業(yè)務(wù)兩個領(lǐng)域的能力些阅。這也是為什么數(shù)據(jù)科學這份職業(yè)是如此有挑戰(zhàn)性伞剑,如此有價值。

參考文獻

  1. https://www.springboard.com/blog/data-science-process/
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末市埋,一起剝皮案震驚了整個濱河市黎泣,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌缤谎,老刑警劉巖抒倚,帶你破解...
    沈念sama閱讀 222,000評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異坷澡,居然都是意外死亡托呕,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,745評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來项郊,“玉大人馅扣,你說我怎么就攤上這事∽沤担” “怎么了差油?”我有些...
    開封第一講書人閱讀 168,561評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長任洞。 經(jīng)常有香客問我蓄喇,道長,這世上最難降的妖魔是什么交掏? 我笑而不...
    開封第一講書人閱讀 59,782評論 1 298
  • 正文 為了忘掉前任妆偏,我火速辦了婚禮,結(jié)果婚禮上耀销,老公的妹妹穿的比我還像新娘楼眷。我一直安慰自己,他們只是感情好熊尉,可當我...
    茶點故事閱讀 68,798評論 6 397
  • 文/花漫 我一把揭開白布罐柳。 她就那樣靜靜地躺著,像睡著了一般狰住。 火紅的嫁衣襯著肌膚如雪张吉。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,394評論 1 310
  • 那天催植,我揣著相機與錄音肮蛹,去河邊找鬼。 笑死创南,一個胖子當著我的面吹牛伦忠,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播稿辙,決...
    沈念sama閱讀 40,952評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼昆码,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了邻储?” 一聲冷哼從身側(cè)響起赋咽,我...
    開封第一講書人閱讀 39,852評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎吨娜,沒想到半個月后脓匿,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,409評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡宦赠,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,483評論 3 341
  • 正文 我和宋清朗相戀三年陪毡,在試婚紗的時候發(fā)現(xiàn)自己被綠了米母。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,615評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡毡琉,死狀恐怖爱咬,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情绊起,我是刑警寧澤,帶...
    沈念sama閱讀 36,303評論 5 350
  • 正文 年R本政府宣布燎斩,位于F島的核電站虱歪,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏栅表。R本人自食惡果不足惜笋鄙,卻給世界環(huán)境...
    茶點故事閱讀 41,979評論 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望怪瓶。 院中可真熱鬧萧落,春花似錦、人聲如沸洗贰。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,470評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽敛滋。三九已至许布,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間绎晃,已是汗流浹背蜜唾。 一陣腳步聲響...
    開封第一講書人閱讀 33,571評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留庶艾,地道東北人袁余。 一個月前我還...
    沈念sama閱讀 49,041評論 3 377
  • 正文 我出身青樓,卻偏偏與公主長得像咱揍,于是被迫代替她去往敵國和親颖榜。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,630評論 2 359