????????很多轉(zhuǎn)行數(shù)據(jù)分析,學(xué)會(huì)一大堆數(shù)據(jù)分析工具货徙,從Excel到Python左权,從PowerBI到Pyecharts,但是分析數(shù)據(jù)還是無(wú)從下手痴颊。究竟要分析什么赏迟,接著分析什么,得出什么結(jié)論蠢棱,常常沒(méi)有頭緒锌杀。而且在換工作面試時(shí),除了SQL泻仙,問(wèn)的最多的就是你會(huì)什么模型糕再,請(qǐng)你詳細(xì)解釋一下怎么用。
????????做過(guò)功課的玉转,回答PEST模型突想、SWOT模型、波士頓矩陣、AARRR模型蒿柳、RFM模型、帕累托模型這些說(shuō)老掉牙的內(nèi)容了漩蟆。不是說(shuō)它們沒(méi)用垒探,而是:一、這些東西沒(méi)什么新意怠李,做數(shù)據(jù)分析師是干嘛的圾叼?就是要你從數(shù)據(jù)里找出別人不知道的東西,大家都知道還需要你分析什么捺癞?畢竟你需要會(huì)點(diǎn)別人不會(huì)的夷蚊;二是對(duì)不同的行業(yè)、不同的公司髓介、不同的發(fā)展階段惕鼓、不同的場(chǎng)景適用的模型都不一樣,你沒(méi)搞清你要工作的這家公司性質(zhì)就胡亂說(shuō)的話反而讓人家知道你很“虛”唐础;三是一些模型作為數(shù)據(jù)分析師身份來(lái)說(shuō)箱歧,既沒(méi)法實(shí)際使用,也沒(méi)機(jī)會(huì)去用一膨,比如波士頓矩陣呀邢、PEST等等。因?yàn)檫@些常常是公司管理層才有資格用豹绪,而且他們不是基于數(shù)據(jù)价淌,更多是基于經(jīng)驗(yàn)判斷。如果你來(lái)用瞒津,你的結(jié)論能可信嗎蝉衣?
????????說(shuō)到底還是你的分析知識(shí)工具庫(kù)太少了。當(dāng)你面對(duì)數(shù)據(jù)的時(shí)候巷蚪,必須能夠快速判斷可以做什么處理买乃、得出什么結(jié)論、結(jié)論是否有可信度這樣一個(gè)分析體系钓辆。我們所說(shuō)的“模型”就是這樣一個(gè)體系剪验,實(shí)際上模型是指對(duì)于某個(gè)問(wèn)題或客觀事物、規(guī)律進(jìn)行抽象后的一種形式化表達(dá)方式前联,模型分類有很多種功戚,有數(shù)學(xué)模型、程序模型似嗤、邏輯模型啸臀、方法模型、數(shù)據(jù)模型、算法模型乘粒、管理模型(來(lái)自"MBA智庫(kù)百科")豌注,而我們這里所說(shuō)的是“模型”不屬于任何一類,對(duì)能納入到數(shù)據(jù)分析決策中的都是我們需要的模型灯萍,主要包括數(shù)學(xué)模型轧铁、數(shù)據(jù)模型、算法模型旦棉、管理模型中的具體模型齿风。
????????下面將要介紹的是經(jīng)過(guò)實(shí)踐檢驗(yàn)的、適用于數(shù)據(jù)分析師的模型绑洛。本文不會(huì)詳細(xì)解釋每個(gè)模型的細(xì)節(jié)救斑,只是企圖先搭建一個(gè)框架,知道有哪些模型真屯、什么場(chǎng)景下使用脸候、說(shuō)得清主要環(huán)節(jié),后續(xù)會(huì)一一結(jié)合可視化工具PowerBI或Python具體實(shí)踐绑蔫。換句話說(shuō)纪他,你知道的足夠多才有優(yōu)勢(shì),具體的用什么學(xué)什么就可以了晾匠。
????????接下來(lái)從利用數(shù)據(jù)程度的角度茶袒,來(lái)介紹28種模型。
第一類凉馆,基于理論邏輯的弱數(shù)據(jù)商業(yè)模型
????????這一類模型來(lái)源于市場(chǎng)營(yíng)銷薪寓、戰(zhàn)略管理領(lǐng)域,是成熟商業(yè)公司澜共、咨詢公司總結(jié)提煉的經(jīng)典模型向叉。面向?qū)ο笸强偛谩EO嗦董,他們對(duì)此類模型的認(rèn)知更加深刻母谎,也只有他們才能推動(dòng)這類模型結(jié)論的實(shí)施。對(duì)于數(shù)據(jù)分析師來(lái)說(shuō)京革,在你的分析過(guò)程中可以使用奇唤,但是往往需要行業(yè)專家的指點(diǎn),因?yàn)檫@些模型是弱數(shù)據(jù)支撐型匹摇,你沒(méi)有行業(yè)和專業(yè)認(rèn)知得出的結(jié)論難具說(shuō)服力咬扇。
1.PEST模型
????????內(nèi)容:PEST模型或者PESTEL模型是從宏觀角度出發(fā)分析企業(yè)的主要外部環(huán)境因素,應(yīng)用于公司設(shè)立或重大業(yè)務(wù)轉(zhuǎn)折時(shí)期廊勃。
????????使用對(duì)象:公司管理層懈贺、戰(zhàn)略咨詢專家、行業(yè)分析研究員。
????????缺陷:該模型角度看似是合理的梭灿,但實(shí)際上少數(shù)幾個(gè)因素就能決定行業(yè)的走向画侣,這些因素影響多大沒(méi)有客觀衡量標(biāo)準(zhǔn),使用時(shí)需要強(qiáng)有力的解釋堡妒。
2.波特五力模型
????????內(nèi)容:這是用于行業(yè)戰(zhàn)略制定的競(jìng)爭(zhēng)力分析模型配乱,應(yīng)用于處于穩(wěn)定成熟期的公司,無(wú)論是提供服務(wù)還是產(chǎn)品涕蚤,此時(shí)已占有市場(chǎng)份額宪卿,但面臨發(fā)展威脅的诵。主要來(lái)自五種力量:同行業(yè)內(nèi)現(xiàn)有競(jìng)爭(zhēng)者的競(jìng)爭(zhēng)能力万栅、潛在競(jìng)爭(zhēng)者進(jìn)入的能力、替代品的替代能力西疤、供應(yīng)商的討價(jià)還價(jià)能力與購(gòu)買者的議價(jià)能力烦粒。
????????使用對(duì)象:公司管理層、戰(zhàn)略咨詢專家代赁。
????????缺陷:該模型更多是一種理論思考工具扰她,而非可以實(shí)際操作的戰(zhàn)略工具。因?yàn)樵撃P突谥贫☉?zhàn)略者需要了解整個(gè)行業(yè)的信息芭碍,顯然現(xiàn)實(shí)中是難于做到的徒役;同行業(yè)之間只有競(jìng)爭(zhēng)關(guān)系,沒(méi)有合作關(guān)系窖壕。但現(xiàn)實(shí)中企業(yè)之間存在多種合作關(guān)系忧勿。
3.SPACE矩陣
????????內(nèi)容:SPACE矩陣有四個(gè)象限分別表示企業(yè)采取的進(jìn)攻、保守瞻讽、防御和競(jìng)爭(zhēng)四種戰(zhàn)略模式鸳吸。這個(gè)矩陣的兩個(gè)數(shù)軸分別代表了企業(yè)的兩個(gè)內(nèi)部因素: 財(cái)務(wù)態(tài)勢(shì)(financial position,F(xiàn)P)和競(jìng)爭(zhēng)優(yōu)勢(shì)(competitive position速勇,CP)晌砾;兩個(gè)外部因素: 環(huán)境穩(wěn)定性態(tài)勢(shì)(stability position,SP)和產(chǎn)業(yè)態(tài)勢(shì)(industry position烦磁,IP)养匈。這四個(gè)因素對(duì)于確定企業(yè)總體戰(zhàn)略地位起決定性作用。
????????使用對(duì)象:公司管理層都伪、戰(zhàn)略咨詢專家
????????缺陷:調(diào)研打分?jǐn)?shù)據(jù)乖寒,考察因素固定,如果想靈活變動(dòng)缺乏理論支持院溺,應(yīng)用到具體案例很難解釋楣嘁。
4.SCP分析模型
????????內(nèi)容:SCP 框架的基本涵義是,市場(chǎng)結(jié)構(gòu)決定企業(yè)在市場(chǎng)中的行為,而企業(yè)行為又決定市場(chǎng)運(yùn)行在各個(gè)方面的經(jīng)濟(jì)績(jī)效逐虚。應(yīng)用在行業(yè)或者企業(yè)受到表面沖擊時(shí)聋溜,分析可能的戰(zhàn)略調(diào)整及行為變化。
????????使用對(duì)象:公司管理層叭爱、戰(zhàn)略咨詢專家
????????缺陷:該框架對(duì)行業(yè)的假設(shè)基本上是靜態(tài)的撮躁,但實(shí)際行業(yè)發(fā)展是隨時(shí)變化的;需精通行業(yè)經(jīng)驗(yàn)。
5.戰(zhàn)略鐘模型
????????內(nèi)容:戰(zhàn)略鐘模型將產(chǎn)品/服務(wù)價(jià)格和產(chǎn)品/服務(wù)附加值綜合在一起考慮,企業(yè)實(shí)際上沿著以下8種途徑中的一種來(lái)完成企業(yè)經(jīng)營(yíng)行為祠挫。其中一些的路線可能是成功的路線淤堵,而另外一些則可能導(dǎo)致企業(yè)的失敗。
????????使用對(duì)象:公司管理層
????????缺陷:該模型也是競(jìng)爭(zhēng)戰(zhàn)略選擇工具技肩,但是比前面幾個(gè)更好操作,更有針對(duì)性,但是數(shù)據(jù)分析師并不經(jīng)常用得到叙赚。
6.三四矩陣
????????內(nèi)容:在一個(gè)穩(wěn)定的競(jìng)爭(zhēng)市場(chǎng)中,參與市場(chǎng)競(jìng)爭(zhēng)的參與者一般分為三類僚饭,領(lǐng)先者震叮、參與者、生存者鳍鸵。優(yōu)勝者一般是指市場(chǎng)占有率在15%以上苇瓣,可以對(duì)市場(chǎng)變化產(chǎn)生重大影響的企業(yè),如在價(jià)格偿乖、產(chǎn)量等方面击罪;參與者一般是指市場(chǎng)占有率介于5%~15%之間的企業(yè),這些企業(yè)雖然不能對(duì)市場(chǎng)產(chǎn)生重大的影響汹想,但是它們是市場(chǎng)競(jìng)爭(zhēng)的有效參與者外邓;生存者一般是局部細(xì)分市場(chǎng)填補(bǔ)者,這些企業(yè)的市場(chǎng)份額都非常低古掏,通常小于5%损话。這個(gè)模型用于分析一個(gè)成熟市場(chǎng)中企業(yè)的競(jìng)爭(zhēng)地位。
????????使用對(duì)象:公司管理層槽唾、行業(yè)研究員
????????缺陷:由內(nèi)容可知該模型一般用于分析競(jìng)爭(zhēng)地位來(lái)確定自己接下來(lái)戰(zhàn)略丧枪,僅具有參考價(jià)值。
????????以上這些模型(1-6)都是戰(zhàn)略管理類模型庞萍,應(yīng)用對(duì)象和使用對(duì)象都是特定的拧烦,使用要求較高。
7.4P/4C理論模型
????????內(nèi)容:4P模型是營(yíng)銷理論模型钝计,即Product恋博、Price齐佳、Place、Promotion债沮。取其開(kāi)頭字母炼吴,意思為產(chǎn)品,價(jià)格疫衩,地點(diǎn)硅蹦,促銷。4C模型是從前者(站在企業(yè)立場(chǎng))轉(zhuǎn)到客戶立場(chǎng)闷煤。
8.波士頓矩陣
????????波士頓矩陣認(rèn)為一般決定產(chǎn)品結(jié)構(gòu)的基本因素有兩個(gè):即市場(chǎng)引力與企業(yè)實(shí)力童芹。最主要的是反映市場(chǎng)引力的綜合指標(biāo)——銷售增長(zhǎng)率,這是決定企業(yè)產(chǎn)品結(jié)構(gòu)是否合理的外在因素鲤拿。企業(yè)實(shí)力包括市場(chǎng)占有率假褪,技術(shù)、設(shè)備皆愉、資金利用能力等嗜价,其中市場(chǎng)占有率是決定企業(yè)產(chǎn)品結(jié)構(gòu)的內(nèi)在要素艇抠,它直接顯示出企業(yè)競(jìng)爭(zhēng)實(shí)力幕庐。銷售增長(zhǎng)率與市場(chǎng)占有率既相互影響,又互為條件:市場(chǎng)引力大家淤,市場(chǎng)占有高异剥,可以顯示產(chǎn)品發(fā)展的良好前景,企業(yè)也具備相應(yīng)的適應(yīng)能力絮重,實(shí)力較強(qiáng)冤寿;如果僅有市場(chǎng)引力大,而沒(méi)有相應(yīng)的高市場(chǎng)占有率青伤,則說(shuō)明企業(yè)尚無(wú)足夠?qū)嵙Χ搅瑒t該種產(chǎn)品也無(wú)法順利發(fā)展。相反狠角,企業(yè)實(shí)力強(qiáng)号杠,而市場(chǎng)引力小的產(chǎn)品也預(yù)示了該產(chǎn)品的市場(chǎng)前景不佳。通過(guò)以上兩個(gè)因素相互作用丰歌,會(huì)出現(xiàn)四種不同性質(zhì)的產(chǎn)品類型姨蟋,形成不同的產(chǎn)品發(fā)展前景:①銷售增長(zhǎng)率和市場(chǎng)占有率“雙高”的產(chǎn)品群(明星類產(chǎn)品);②銷售增長(zhǎng)率和市場(chǎng)占有率“雙低”的產(chǎn)品群(瘦狗類產(chǎn)品)立帖;③銷售增長(zhǎng)率高眼溶、市場(chǎng)占有率低的產(chǎn)品群(問(wèn)題類產(chǎn)品);④銷售增長(zhǎng)率低晓勇、市場(chǎng)占有率高的產(chǎn)品群(金牛類產(chǎn)品)堂飞。
9.GE行業(yè)吸引力矩陣
????????該模型是對(duì)波士頓矩陣的改進(jìn)灌旧,應(yīng)用于投資組合、業(yè)務(wù)組合的企業(yè)經(jīng)營(yíng)模型绰筛。這個(gè)矩陣可以更細(xì)化的說(shuō)明產(chǎn)品所在行業(yè)的狀況(比如波士頓矩陣中节榜,偏向于現(xiàn)金牛的瘦狗中的產(chǎn)品,并不一定制定撤退戰(zhàn)略就是妥善的别智。并且就算明星業(yè)務(wù)中宗苍,靠上的與靠下的所需要投入的投資比重也是不一樣的)。九宮格中一旦企業(yè)在左上方三個(gè)格薄榛,一般情況下采用增長(zhǎng)戰(zhàn)略讳窟,右下方一般采用停止。對(duì)角一般采用調(diào)整敞恋。
10.KANO模型
??????? KANO 模型是對(duì)用戶需求分類和優(yōu)先排序的有用工具丽啡,以分析用戶需求對(duì)用戶滿意的影響為基礎(chǔ),體現(xiàn)了產(chǎn)品性能和用戶滿意之間的非線性關(guān)系硬猫。應(yīng)用于對(duì)顧客的不同需求進(jìn)行區(qū)分處理补箍,幫助企業(yè)找出提高企業(yè)顧客滿意度的切入點(diǎn)。根據(jù)不同類型的屬性特性與顧客滿意度之間的關(guān)系分為五類:基本(必備)型屬性——Must-be Quality/ Basic Quality 期望(意愿)型屬性——One-dimensional Quality/ Performance Quality 興奮(魅力)型屬性—Attractive Quality/ Excitement Quality 無(wú)差異型屬性——Indifferent Quality/Neutral Quality 反向(逆向)型屬性——Reverse Quality啸蜜,亦可以將 'Quality' 翻譯成“質(zhì)量”或“品質(zhì)”坑雅。前三種需求根據(jù)績(jī)效指標(biāo)分類就是基本因素、績(jī)效因素和激勵(lì)因素衬横。
????????缺陷:需求會(huì)因人而異裹粤,要做的是滿足目標(biāo)用戶人群中多數(shù)人的需求;需求會(huì)因?yàn)槲幕町惗煌淞郑鐕?guó)內(nèi)的互聯(lián)網(wǎng)產(chǎn)品比國(guó)外的互聯(lián)網(wǎng)產(chǎn)品要做得好遥诉;需求會(huì)隨著時(shí)間變化。昨天的期望型需求噪叙,甚至魅力型需求矮锈,到今天可能已變成了必備型需求。
????????以上這些模型(7-10)都是市場(chǎng)睁蕾、營(yíng)銷模型苞笨,當(dāng)你知道這些模型基本內(nèi)容和用法,就知道使用模型得知道它的使用背景和定義域惫霸,并不是凡是模型就被數(shù)據(jù)分析拿來(lái)用猫缭。
????????接下來(lái)這幾個(gè)模型是數(shù)據(jù)分析師最常使用,也是最有效的工具模型壹店。說(shuō)它們是模型猜丹,實(shí)際是一種方法,它提供了解決問(wèn)題的思路硅卢。
11.SWOT分析法
??????? SWOT分析方法從某種意義上來(lái)說(shuō)隸屬于企業(yè)內(nèi)部分析方法射窒,即根據(jù)企業(yè)自身的條件在既定內(nèi)進(jìn)行分析藏杖。但是由于它的概念并不限定于企業(yè)分析,在解決任何問(wèn)題都是可以拿來(lái)借鑒使用的脉顿。它將與研究對(duì)象密切相關(guān)的各種主要內(nèi)部?jī)?yōu)勢(shì)S(strengths)蝌麸、劣勢(shì)W (weaknesses)和外部的機(jī)會(huì)O (opportunities)和威脅T (threats)等,通過(guò)調(diào)查列舉出來(lái)艾疟,并依照矩陣形式排列来吩,然后用系統(tǒng)分析的思想,把各種因素相互匹配起來(lái)加以分析蔽莱,從中得出一系列相應(yīng)的結(jié)論弟疆,而結(jié)論通常帶有一定的決策性。
12.邏輯樹(shù)分析法
????????把一個(gè)已知問(wèn)題當(dāng)成樹(shù)干盗冷,然后開(kāi)始考慮這個(gè)問(wèn)題和哪些相關(guān)問(wèn)題或者子任務(wù)有關(guān)怠苔。每想到一點(diǎn),就給這個(gè)問(wèn)題(也就是樹(shù)干)加一個(gè)“樹(shù)枝”仪糖,并標(biāo)明這個(gè)“樹(shù)枝”代表什么問(wèn)題柑司。一個(gè)大的“樹(shù)枝”上還可以有小的“樹(shù)枝”,如此類推锅劝,找出問(wèn)題的所有相關(guān)聯(lián)項(xiàng)目攒驰。邏輯樹(shù)主要是幫助你理清自己的思路,不進(jìn)行重復(fù)和無(wú)關(guān)的思考鸠天。
13.5W2H分析法
????????這種方法又叫七問(wèn)分析法讼育,用五個(gè)以W開(kāi)頭的英語(yǔ)單詞和兩個(gè)以H開(kāi)頭的英語(yǔ)單詞進(jìn)行設(shè)問(wèn)帐姻,發(fā)現(xiàn)解決問(wèn)題的線索稠集。可以說(shuō)是最簡(jiǎn)單又高效的數(shù)據(jù)分析方法饥瓷。
(1)WHAT——是什么剥纷?目的是什么?做什么工作呢铆?
(2)WHY——為什么要做晦鞋?可不可以不做?有沒(méi)有替代方案棺克?
(3)WHO——誰(shuí)悠垛?由誰(shuí)來(lái)做?
(4)WHEN——何時(shí)娜谊?什么時(shí)間做确买?什么時(shí)機(jī)最適宜?
(5)WHERE——何處纱皆?在哪里做湾趾?
(6)HOW ——怎么做芭商?如何提高效率?如何實(shí)施搀缠?方法是什么铛楣?
(7)HOW MUCH——多少?做到什么程度艺普?數(shù)量如何簸州?質(zhì)量水平如何?費(fèi)用產(chǎn)出如何歧譬?
14.麥肯錫七步法
????????這是麥肯錫公司根據(jù)他們做過(guò)的大量案例勿侯,總結(jié)出解決問(wèn)題的思路,它和5W2H同樣是在面對(duì)突發(fā)狀況時(shí)最有效的思路缴罗。
????????以上(11-14)四個(gè)模型不同于前面的商業(yè)模型助琐,而是思維模型。
15.消費(fèi)者行為模型(從AIDMA面氓、AISAS演變到SICAS)
1.AIDMA法則
??????? AIDMA法則兵钮,我們可以理解為,自消費(fèi)者看到廣告信息開(kāi)始舌界,直至進(jìn)行消費(fèi)購(gòu)買行為的心理引導(dǎo)過(guò)程掘譬。首先讓潛在消費(fèi)者“注意”到廣告信息,并使其感到“興趣”而持續(xù)完成廣告信息的接收呻拌,然后產(chǎn)生嘗試購(gòu)買或體驗(yàn)的“欲望”葱轩,進(jìn)而使?jié)撛谙M(fèi)者對(duì)信息的“記憶”更加深刻,直至“行動(dòng)”轉(zhuǎn)化成為購(gòu)買行為藐握。
圖片來(lái)源于網(wǎng)絡(luò)
2.AISAS法則
????????移動(dòng)互聯(lián)網(wǎng)時(shí)代的到來(lái)使大家認(rèn)識(shí)到靴拱,需要更加精準(zhǔn)有效的獲取目標(biāo)消費(fèi)者的注意,可以通過(guò)用戶畫(huà)像實(shí)現(xiàn)興趣的精細(xì)化管理猾普。進(jìn)而達(dá)成袜炕,用戶向著主動(dòng)利用搜索引擎探索、行動(dòng)初家,并產(chǎn)生價(jià)值的分享擴(kuò)散偎窘。而借助移動(dòng)互聯(lián)網(wǎng)的崛起,新媒體也成為了整合營(yíng)銷傳播中的又一主力媒體渠道溜在。
圖片來(lái)源于網(wǎng)絡(luò)
3.SICAS法則
??????? SICAS建立了一套開(kāi)放式的營(yíng)銷效果評(píng)估模型陌知,幫助品牌商家解決“我知道我的廣告費(fèi)浪費(fèi)了一半,但是卻不知道哪一半被浪費(fèi)了!”掖肋,品牌商家首先要基于互聯(lián)網(wǎng)的產(chǎn)品形態(tài)建立全網(wǎng)觸點(diǎn)來(lái)實(shí)時(shí)感知消費(fèi)者行為動(dòng)態(tài)來(lái)敏捷指導(dǎo)仆葡、評(píng)估營(yíng)銷決策,讓品牌信息能及時(shí)出現(xiàn)在消費(fèi)者會(huì)關(guān)心會(huì)消費(fèi)信息的地方培遵,精細(xì)化銷售效果評(píng)估數(shù)據(jù)精確考核ROI浙芙,品牌商家不僅要關(guān)注消費(fèi)者的分享行為登刺,還要參與、引導(dǎo)消費(fèi)者的分享行為嗡呼。
圖片來(lái)源于網(wǎng)絡(luò)
第二類 基于指標(biāo)計(jì)算組合的數(shù)據(jù)商業(yè)模型
16.用戶增長(zhǎng)模型(AARRR模型/AIPL模型)
????????介紹完上面消費(fèi)者行為三個(gè)模型后纸俭,再看下面AARRR模型,你會(huì)發(fā)現(xiàn)很眼熟南窗,這也是現(xiàn)在凡是給你推薦模型的都會(huì)說(shuō)到的用戶增長(zhǎng)模型揍很,又叫海盜模型、漏斗模型万伤。
2.AIPL模型
說(shuō)到AARRR模型不得不說(shuō)網(wǎng)傳阿里巴巴所用的電商分析模型AIPL窒悔,它也來(lái)自上面的AIDMA營(yíng)銷模型的變種。
A(Awareness敌买,認(rèn)知):品牌認(rèn)知人群简珠。包括被品牌廣告觸達(dá)和品類詞搜索的人。
I(Interest虹钮,興趣):品牌興趣人群聋庵。包括廣告點(diǎn)擊、瀏覽品牌/店鋪主頁(yè)芙粱、參與品牌互動(dòng)祭玉、瀏覽產(chǎn)品詳情頁(yè)、品牌詞搜索春畔、領(lǐng)取試用脱货、訂閱/關(guān)注/入會(huì)、加購(gòu)收藏的人律姨。
P(Purchase振峻,購(gòu)買):品牌購(gòu)買人群,指購(gòu)買過(guò)品牌商品的人线召。
L(Loyalty铺韧,忠實(shí)):品牌忠誠(chéng)人群,包括復(fù)購(gòu)缓淹、評(píng)論、分享的人塔逃。
17.用戶價(jià)值模型(RFM模型)
??????? RFM模型是衡量客戶價(jià)值和創(chuàng)利能力的重要工具和標(biāo)準(zhǔn)讯壶,該模型通過(guò)一個(gè)客戶的近期購(gòu)買行為R、購(gòu)買的總體頻率F和花了多少錢M三項(xiàng)指標(biāo)來(lái)描述該客戶的價(jià)值湾盗。
????????以上三個(gè)指標(biāo)會(huì)將維度再細(xì)分出5份伏蚊,這樣就能夠細(xì)分出5x5x5=125類用戶,再根據(jù)每類用戶精準(zhǔn)營(yíng)銷……顯然125類用戶已超出普通人腦的計(jì)算范疇了格粪,更別說(shuō)針對(duì)125類用戶量體定制營(yíng)銷策略躏吊。實(shí)際運(yùn)用上氛改,我們只需要把每個(gè)維度做一次兩分即可,這樣在3個(gè)維度上我們依然得到了8組用戶比伏。這樣胜卤,之前提的四個(gè)問(wèn)題,就能很容易被解讀(編號(hào)次序RFM,1代表高赁项,0代表低)?
重要價(jià)值客戶(111):最近消費(fèi)時(shí)間近葛躏、消費(fèi)頻次和消費(fèi)金額都很高
重要保持客戶(011):最近消費(fèi)時(shí)間較遠(yuǎn),但消費(fèi)頻次和金額都很高悠菜,說(shuō)明這是個(gè)一段時(shí)間沒(méi)來(lái)的忠誠(chéng)客戶舰攒,我們需要主動(dòng)和他保持聯(lián)系。
重要發(fā)展客戶(101):最近消費(fèi)時(shí)間較近悔醋、消費(fèi)金額高摩窃,但頻次不高,忠誠(chéng)度不高芬骄,很有潛力的用戶偶芍,必須重點(diǎn)發(fā)展。
重要挽留客戶(001):最近消費(fèi)時(shí)間較遠(yuǎn)德玫、消費(fèi)頻次不高匪蟀,但消費(fèi)金額高的用戶,可能是將要流失或者已經(jīng)要流失的用戶宰僧,應(yīng)當(dāng)給予挽留措施材彪。
18.帕累托模型
????????很多人都知道世界上20%的人掌握了80%的財(cái)富,這就是著名的二八定律琴儿,它又叫帕累托法則段化,還衍生出了ABC分類法。現(xiàn)在主要用于產(chǎn)品分析造成、庫(kù)存管理显熏、質(zhì)量管理。
第三類 基于運(yùn)籌/統(tǒng)計(jì)的強(qiáng)數(shù)據(jù)數(shù)學(xué)模型
19.ARIMA模型晒屎、GARCH模型
????????對(duì)某一個(gè)或者一組變量進(jìn)行觀察測(cè)量喘蟆,將在一系列時(shí)刻所得到的離散數(shù)字組成的序列集合,稱之為時(shí)間序列鼓鲁。時(shí)間序列分析是根據(jù)系統(tǒng)觀察得到的時(shí)間序列數(shù)據(jù)蕴轨,通過(guò)曲線擬合和參數(shù)估計(jì)來(lái)建立數(shù)學(xué)模型的理論和方法。時(shí)間序列分析常用于國(guó)民宏觀經(jīng)濟(jì)控制骇吭、市場(chǎng)潛力預(yù)測(cè)等方面橙弱。ARIMA模型,是實(shí)際案例中最常用的模型。
20.線性規(guī)劃模型
????????線性規(guī)劃模型是指一種特殊形式的數(shù)學(xué)規(guī)劃模型棘脐,即目標(biāo)函數(shù)和約束條件是待求變量的線性函數(shù)斜筐、線性等式或線性不等式的數(shù)學(xué)規(guī)劃模型。它所描述的典型問(wèn)題是怎樣以最優(yōu)的方式在各項(xiàng)活動(dòng)中間分配有限資源的問(wèn)題蛀缝。應(yīng)用于經(jīng)濟(jì)分析顷链、經(jīng)營(yíng)管理中,為合理地利用有限的人力内斯、物力蕴潦、財(cái)力等資源作出的最優(yōu)決策。下圖中是要找到最佳虛線的表達(dá)式來(lái)使得實(shí)心面積最大俘闯,約束條件就是組成實(shí)心面積的直線方程潭苞。
????????從實(shí)際問(wèn)題中建立線性規(guī)劃模型一般有以下三個(gè)步驟:1.根據(jù)影響所要達(dá)到目的的因素找到?jīng)Q策變量;2.由決策變量和所在達(dá)到目的之間的函數(shù)關(guān)系確定目標(biāo)函數(shù)真朗;3.由決策變量所受的限制條件確定決策變量所要滿足的約束條件此疹。
第四類 基于機(jī)器學(xué)習(xí)的強(qiáng)數(shù)據(jù)算法模型
21.線性回歸模型(linear Regression,LR)
????????線性回歸是利用數(shù)理統(tǒng)計(jì)中回歸分析,來(lái)確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法遮婶,運(yùn)用十分廣泛蝗碎。其表達(dá)形式為y = w'x+e,e為誤差服從均值為0的正態(tài)分布旗扑。通過(guò)最小二乘法或者梯度下降法求解出系數(shù)矩陣蹦骑,從而得到線性回歸方程來(lái)對(duì)新樣本進(jìn)行預(yù)測(cè)。線性回歸模型與線性規(guī)劃模型有什么區(qū)別呢臀防?其實(shí)都是在求線性方程表達(dá)式眠菇,但是應(yīng)用對(duì)象不同、求解目的不同袱衷。
????????上面這個(gè)模型表示的是通過(guò)圖上的數(shù)據(jù)(過(guò)去數(shù)據(jù))來(lái)擬合一個(gè)線性回歸表達(dá)式捎废,如果給你新的數(shù)據(jù)x,可以通過(guò)這個(gè)表達(dá)式預(yù)測(cè)出y是多少致燥。
22.邏輯回歸(Logistic Regression, LR)模型
????????邏輯回歸模型是在線性回歸的基礎(chǔ)上加了一個(gè)激活函數(shù)SGMOID登疗,使得原本回歸求得的結(jié)果縮小到(0,1)之間,從而實(shí)現(xiàn)分類預(yù)測(cè)的作用嫌蚤。
????????從上面左圖可以看到深藍(lán)色點(diǎn)代表類別為0辐益,淺藍(lán)色點(diǎn)代表類別為1,雖然我們將這些點(diǎn)畫(huà)出散點(diǎn)圖也通過(guò)顏色知道它的類別搬葬,但是我們用什么標(biāo)準(zhǔn)還衡量它為什么為0或1呢荷腊?如果來(lái)了新的點(diǎn)怎么預(yù)測(cè)他的類別呢?靠直觀感受是不行的急凰,因此用數(shù)學(xué)表達(dá)式來(lái)作為衡量模型:
????????第一步,對(duì)左邊的數(shù)據(jù)點(diǎn)擬合一個(gè)線性回歸表達(dá)式;
????????第二步抡锈,將表達(dá)式整理變換得到z疾忍,再將z帶入到SIGMOD函數(shù)(也叫激活函數(shù))中,得到0到1之間的值床三,將這個(gè)值看作概率一罩,離1越近表示越有可能分類為1,離0越近表示越有可能分類為0撇簿。
????????其實(shí)用左圖直觀感受可知直線上方的點(diǎn)離直線越遠(yuǎn)聂渊,它被分為1或0的證據(jù)就越強(qiáng)烈。
23.KNN模型(K個(gè)最近鄰nearest neighbor)
??????? KNN模型的模型思想可以簡(jiǎn)單歸結(jié)為“物以類聚四瘫,人以群分”汉嗽,上面邏輯回歸對(duì)分類不同的點(diǎn)通過(guò)SIGMOD函數(shù)來(lái)區(qū)分。而這個(gè)模型則是通過(guò)點(diǎn)與點(diǎn)之間距離遠(yuǎn)近來(lái)區(qū)分找蜜。對(duì)上面同一批數(shù)據(jù)點(diǎn)用KNN來(lái)劃分:
????????第一步饼暑,先選取n個(gè)中心點(diǎn)(一般有多少個(gè)類選多少個(gè),當(dāng)然也可以選擇多個(gè)洗做,這里選4個(gè))弓叛,計(jì)算所有數(shù)據(jù)與這四個(gè)點(diǎn)的距離;
????????第二步诚纸,將每個(gè)距離從大到小排序撰筷,越大離這個(gè)點(diǎn)近,越有可能跟這個(gè)中心點(diǎn)類別相同畦徘,我們就把中心點(diǎn)的類別賦值給這個(gè)點(diǎn)毕籽。但是不是簡(jiǎn)單通過(guò)一個(gè)中心點(diǎn)判斷,你可以選擇K個(gè)離它最近的中心點(diǎn)旧烧,采用投票法或平均法得出它的類別影钉。
????????上面的圖表名,KNN把大部分點(diǎn)都能分對(duì)掘剪,但是對(duì)處于兩圓交界或者異常點(diǎn)區(qū)分能力很差平委。所以在實(shí)際分類建模時(shí)一般效果不如邏輯回歸。
24.貝葉斯模型(Bayes)
????????這是來(lái)自統(tǒng)計(jì)學(xué)的數(shù)據(jù)分析模型夺谁,基于著名的貝葉斯定理廉赔。在我們?nèi)粘W鰶Q策的時(shí)候,往往都會(huì)有這樣一種感覺(jué)匾鸥,當(dāng)我對(duì)問(wèn)題一無(wú)所知的時(shí)候蜡塌,對(duì)做決策毫無(wú)把握,全靠猜勿负,但是給了你一些信息之后馏艾,你對(duì)某個(gè)答案的把握就大一些。但是怎么衡量你的把握大小呢?貝葉斯定理說(shuō)的就是你這個(gè)做決策過(guò)程的量化琅摩。
????????這個(gè)模型沒(méi)有明確的表達(dá)形式铁孵,它依據(jù)的就是圖上的貝葉斯定理公式。它主要應(yīng)用于隨機(jī)變量x,y為離散型變量房资。
25.SVM模型(支持向量機(jī),support vector machine)
????????這是來(lái)自數(shù)學(xué)領(lǐng)域的數(shù)據(jù)分析模型蜕劝,是計(jì)算復(fù)雜度、理解復(fù)雜度都很高的模型轰异。
????????與線性回歸一樣岖沛,都是求出一條直線作為分割線,但是這個(gè)表達(dá)式的求解不是用線性回歸的方式搭独,這里的系數(shù)(1.088婴削,-1)也是錯(cuò)誤的,實(shí)際是未知的戳稽,可以用(a,b)代替馆蠕;它也像線性規(guī)劃問(wèn)題,需要同時(shí)滿足約束條件才能求出系數(shù)惊奇,但是又不是簡(jiǎn)單的線性約束互躬。
????????那它是怎么求出這個(gè)表達(dá)式的系數(shù)(a,b)呢?颂郎,實(shí)際上是通過(guò)計(jì)算離分割線最近的點(diǎn)吼渡,使得這些點(diǎn)到分割線的距離之和最大,上面的圖可以看到計(jì)算點(diǎn)到直線的距離就是關(guān)于系數(shù)(a,b)的函數(shù)乓序。為什么要使得這些點(diǎn)到分割線的距離之和最大寺酪?這些點(diǎn)是哪些點(diǎn)?
????????上面這張圖可以看到替劈,從分割線1到分割線3寄雀,隨著分割線的不斷移動(dòng),點(diǎn)到直線的距離之和越來(lái)越性上住(圖上可能不直觀但是實(shí)際計(jì)算可知)盒犹,但是分類的錯(cuò)誤數(shù)卻是在增加的,這說(shuō)明在這個(gè)二維平面上有很多可以將這些點(diǎn)分隔開(kāi)的線眨业,但是把點(diǎn)盡可能多的分開(kāi)的線只有一條急膀,那就是點(diǎn)到直線的距離之和最小的直線,而這些點(diǎn)叫支持向量龄捡,它們是在計(jì)算過(guò)程中不斷迭代找到的卓嫂。
????????實(shí)際上后面的求解過(guò)程還很復(fù)雜,在這里無(wú)法一一解釋清楚聘殖,感興趣的可以進(jìn)一步了解晨雳。通過(guò)與前面幾個(gè)分類模型相比行瑞,你也可以看到它不僅找出分割線,還力求找到最佳的那一條悍募,因此它在深度學(xué)習(xí)模型研究大火之前是最佳數(shù)據(jù)挖掘模型之一蘑辑。
26.決策樹(shù)模型(decision tree,DT)
????????決策樹(shù)模型的使用的原理跟貝葉斯定理很像洋机,但是它使用的不是條件概率而是條件經(jīng)驗(yàn)熵坠宴,它也不是像貝葉斯模型那樣一次性求出所有條件概率乘積,得到結(jié)果為1的概率和結(jié)果為0的概率绷旗,兩者相比較喜鼓,而是一步一步篩選哪些條件是最有效的,其次是哪個(gè)衔肢,無(wú)效的條件就丟掉庄岖,這樣既提高準(zhǔn)確率,也提高效率角骤。這跟我們的決策行為也是相符的隅忿,雖然我們從一無(wú)所知到知道一些信息,但是對(duì)這些信息也需要加以甄別邦尊,哪個(gè)是對(duì)結(jié)論支持最有力的證據(jù)才使用哪個(gè)背桐。
????????可以看到?jīng)Q策樹(shù)模型和之前的決策樹(shù)七步法思考方式有相似性,都是一步一步判斷得到最終結(jié)論蝉揍,但是前者是感性判斷链峭,這里是通過(guò)數(shù)值計(jì)算。
27.集成學(xué)習(xí)模型(ensemble learning,EL)
????????集成學(xué)習(xí)模型實(shí)際上不是具體算法又沾,而是一種策略弊仪,是在前面幾種模型基礎(chǔ)上集合而成的,前面都是單個(gè)模型杖刷,而集成學(xué)習(xí)就是將多個(gè)單模型放在一起進(jìn)行分類預(yù)測(cè)励饵。俗話說(shuō)就是:“三個(gè)臭皮匠定個(gè)諸葛亮”。一個(gè)單模型可能預(yù)測(cè)不準(zhǔn)滑燃,但是多個(gè)模型通過(guò)投票或者平均役听,就能提高分類準(zhǔn)確率。集成模型也是在深度學(xué)習(xí)模型研究大火之前是最佳數(shù)據(jù)挖掘模型之一不瓶。
28.神經(jīng)網(wǎng)絡(luò)模型(neural network,NN)
????????神經(jīng)網(wǎng)絡(luò)模型源自計(jì)算機(jī)科學(xué)家對(duì)生物學(xué)領(lǐng)域的神經(jīng)網(wǎng)絡(luò)得到的啟發(fā)禾嫉,人類大腦有著復(fù)雜的神經(jīng)網(wǎng)絡(luò),每個(gè)神經(jīng)元連著很多神經(jīng)蚊丐,當(dāng)腦子有一個(gè)想法會(huì)產(chǎn)生電信號(hào)熙参,電信號(hào)在神經(jīng)中傳導(dǎo)到達(dá)神經(jīng)元經(jīng)過(guò)神經(jīng)元細(xì)胞的處理轉(zhuǎn)化得到另一個(gè)信號(hào)再通過(guò)神經(jīng)網(wǎng)絡(luò)傳給下一個(gè)神經(jīng)元,這樣一層一層傳遞就能調(diào)動(dòng)身體各部分配合來(lái)完成動(dòng)作麦备。
????????因此孽椰,神經(jīng)網(wǎng)絡(luò)把每個(gè)因素(又叫特征昭娩、隨機(jī)變量,就是前面例子說(shuō)的x,y)當(dāng)做電信號(hào)黍匾,系數(shù)矩陣當(dāng)做傳導(dǎo)神經(jīng)栏渺,激活函數(shù)當(dāng)做神經(jīng)元。如下圖:
????????可以看到三層神經(jīng)網(wǎng)絡(luò)跟邏輯回歸模型很像锐涯,可以把邏輯回歸模型看作是單層神經(jīng)網(wǎng)絡(luò)來(lái)理解磕诊,多層神經(jīng)網(wǎng)絡(luò)就是不斷增肌神經(jīng)元,擴(kuò)大系數(shù)矩陣纹腌。邏輯回歸模型我們是要得到一個(gè)系數(shù)a和偏值b霎终,但是我們要得到的神經(jīng)網(wǎng)絡(luò)模型,就是得到很多個(gè)a和b升薯,叫做系數(shù)矩陣W莱褒,有了系數(shù)矩陣W就固定了表達(dá)式形式。神經(jīng)網(wǎng)絡(luò)模型的形式是曲線涎劈。不像線性回歸广凸,它可以更好的擬合所有數(shù)據(jù),從而達(dá)到更準(zhǔn)確的分類蛛枚。
????????如果要枚舉所有模型谅海,那是不現(xiàn)實(shí)的,數(shù)據(jù)分析和挖掘還有很多模型可用坤候,這里只是列舉了常見(jiàn)的28種胁赢。對(duì)于初學(xué)者來(lái)說(shuō)足夠了,也可以作為參考白筹,隨時(shí)查看智末。
????????最后總結(jié)一下:
第一類,基于理論邏輯的弱數(shù)據(jù)商業(yè)模型徒河,可以在分析內(nèi)外部因素時(shí)使用系馆,更多偏重理論和思維。
第二類顽照,基于指標(biāo)計(jì)算組合的數(shù)據(jù)商業(yè)模型由蘑,用在具體的用戶、產(chǎn)品方面的分析代兵,使用簡(jiǎn)單又有理論支持尼酿。
第三類,基于運(yùn)籌/統(tǒng)計(jì)的強(qiáng)數(shù)據(jù)數(shù)學(xué)模型植影,這類模型使用約束條件嚴(yán)格裳擎,往往效果不會(huì)太好,用于銷量預(yù)測(cè)思币、成本控制鹿响。
第四類羡微,基于機(jī)器學(xué)習(xí)的強(qiáng)數(shù)據(jù)算法模型,這類模型常常用作回歸和分類預(yù)測(cè)惶我,完全基于數(shù)據(jù)計(jì)算得出結(jié)論妈倔,數(shù)據(jù)量大和質(zhì)量好會(huì)得到很有效的結(jié)論,是現(xiàn)在使用越來(lái)越多的模型绸贡。
????????最后歡迎大家關(guān)注我盯蝴,我是拾陸,搜索公眾號(hào)“二八Data”恃轩,更多技術(shù)干貨持續(xù)奉獻(xiàn)结洼。