《深入淺出數(shù)據分析》寺渗,輕松入門數(shù)據分析匿情!

如今,數(shù)據分析在各行各業(yè)中都扮演著非常重要的角色信殊。工作的需要使得很多小白開始自學數(shù)據分析了炬称!其實數(shù)據分析不像很多人想的那樣高深莫測,留心工作涡拘,處處有數(shù)據玲躯,處處有分析!

如果你是想要入門數(shù)據分析的小白鳄乏,很推薦豆瓣高分入門書籍《深入淺出數(shù)據分析》跷车。這本書用職場中常見的場景,來表達什么是數(shù)據分析橱野,如何做分析朽缴,以及好用的分析工具。這本書對小白非常友好水援,簡單易懂密强,大多是用插畫茅郎、圖表等形式表達要點。

二刷這本書或渤,深受啟發(fā)系冗,梳理了這本書的精要內容,在這里分享給大家劳坑,希望大家能快速入門毕谴!

第1章:數(shù)據分析引言-分解數(shù)據

數(shù)據分析流程圖

1. 數(shù)據分析流程

1)確定:通過與客戶溝通,確定問題

2)分解:將問題劃分為可管理距芬、可解決的組塊

3)評估:評估分解組塊的關鍵就是比較

4)決策:將分析形成報表涝开,供制定決策

2. 反思心智模型,開始新一輪分析

分析過程中的錯誤或不完整信息框仔,會導致決策失誤舀武。而這些信息是源于個人對外界的假設和確信的觀點,也就是心智模型离斩。因此银舱,需要盡量明確你的心智模型,仔細斟酌各類影響因素跛梗。更重要的是寻馏,要基于數(shù)據得出觀點,而不是個人猜想核偿。在進一步明確數(shù)據和信息后诚欠,可以按照上述的數(shù)據分析流程開始新一輪的分析啦!

第2章:實驗-檢驗你的理論

咖啡銷量下滑原因及應對策略分析

1. 咖啡銷量下滑原因分析

1)提出問題:在過去半年里漾岳,星巴仕銷量持續(xù)下降轰绵,原因是什么????

2)數(shù)據來源:市場客戶調查尼荆,邀請客戶對影響銷量的五個因素(選址左腔、咖啡溫度、員工熱情捅儒、咖啡價值液样、偏愛去處)進行打分。

3)數(shù)據分析:利用比較法得出野芒,咖啡價值得分一落千丈蓄愁!

4)得出結論:咖啡價值的下降導致銷量下降。

問題來了狞悲!Soho區(qū)是一個富人區(qū)撮抓,區(qū)經理認為這里沒有人認為星巴仕缺乏價值。哪里出現(xiàn)了問題摇锋?是觀察分析法中的混雜因素!

混雜因素就是研究對象的個人差異丹拯,它們不是你試圖進行比較的因素站超,但會導致分析結果的敏感性變差。本例中的混雜因素是店址乖酬。也就說死相,不同店址客戶對五因素的評分傾向是不同的,比如Soho富人區(qū)的咖啡價值得分明顯高于其他區(qū)域咬像。因此算撮,要分區(qū)域來重新審視數(shù)據,發(fā)現(xiàn)東岸區(qū)的價值感得分最低县昂,Soho區(qū)則一切正常肮柜,其他區(qū)域在一定范圍內波動。現(xiàn)在最重要的問題是倒彰,采取哪種策略能夠有效提高銷量审洞?記得采用控制變量法,排除混雜因素待讳!

2. 咖啡銷量下滑策略分析

1)目的:驗證哪種策略最有效芒澜,策略一為降價,策略二為游說顧客“星巴仕很有價值”创淡;

2)分組:將大的地理區(qū)域分成小的地理區(qū)域痴晦,隨機將這些微區(qū)域分成控制組和實驗組;

3)實驗:控制組維持現(xiàn)狀一個月琳彩,實驗組1降價一個月阅酪,實驗組2游說顧客一個月;

4)結果:控制組與實驗組1的營業(yè)收入持平汁针,實驗組2的收入立即上升。

第3章:最優(yōu)化-尋找最大值

1. 利潤最大化問題

我們的橡膠夠生產500只橡皮鴨或400條橡皮魚砚尽,我們的時間夠用來生產400只橡皮鴨或300條橡皮魚施无。如果想讓產品在下個月上架銷售,我們的產量都不會高于400只橡皮鴨和300條橡皮魚必孤。每只橡皮鴨的利潤是5美元猾骡,每條橡皮魚的利潤是4美元,求如何安排橡皮鴨和橡皮魚的產量才能使得利潤最高敷搪?

解:設橡皮鴨數(shù)量為X只兴想,橡皮魚數(shù)量為Y條

目標函數(shù):Z=5X+4Y

約束條件:X≤400,Y≤300, 0.8X+Y≤400

求解工具:Excel的求解器(solver)

2. 按照分析目標校正假設

上述的利潤最大化問題分析看似完整,但實際利潤卻跌穿地板赡勘!由于其約束條件對實際情況進行了簡化嫂便,當缺失某一個重要的假設條件,分析結果就可能毀掉闸与。而上述問題恰好忽略了人們的需求偏好毙替,導致分析結果不盡人意岸售。

現(xiàn)在,觀察近年來橡皮鴨和橡皮魚的銷量情況厂画,發(fā)現(xiàn)橡皮魚的銷量一般不超過50條凸丸。在完善約束條件后,重新求得最優(yōu)解袱院。

第4章:數(shù)據圖形化-圖形讓你更精明

1) 畫圖前提:準備數(shù)據屎慢,若數(shù)據過于龐雜,只須記住目標忽洛,目光停留在和目標有關的數(shù)據上腻惠,無視其他。

2) 畫圖目的:數(shù)據圖形化的根本在于正確比較脐瑰,其意義在于圖片中隱含的數(shù)據妖枚,而不是炫目的設計。

3) 畫圖進階:圖形多元化苍在,優(yōu)秀的圖形都是多元圖形绝页,即對3個以上的變量進行比較。

4) 畫圖工具:R

第5章:假設檢驗-假設并非如此

1. 問題

電膚公司是一家手機“皮膚”制造商寂恬。手機巨頭Podphone公司即將發(fā)布一款手機续誉,時間待定。電膚公司必須在手機發(fā)布前的一個月開始生產手機皮膚初肉,才能趕上手機銷售的第一波酷鸦。當前的任務是電膚公司何時生產新手機皮膚?

2. 搜集證據

通過搜集產品發(fā)布信息牙咏,梳理這些信息中體現(xiàn)的變量關系臼隔,分為正相關和負相關關系。

信息中的變量關系

3. 提出假設

新產品發(fā)布假設

4. 假設檢驗

1)假設檢驗的核心是證偽妄壶,即剔除無法證實的假設摔握,排除錯誤假設。

根據資料可排除1和假設5

2)對于假設2-4丁寄,借助診斷法找出否定性最小的假設氨淌,判定哪個假設最強。

基于診斷法的假設判定

得出假設3為最強假設

3)新證據來了:Podphone公司召開了新手機打樣慶祝會伊磺,新證據使得假設2變?yōu)樽顝娂僭O盛正!

4)根據最新分析結果采取行動吧!

第6章:貝葉斯統(tǒng)計-穿越第一關

1. 條件概率與貝葉斯規(guī)則—蜥蜴流感病毒案例

研究表明總人口中有1%的人患有蜥蜴流感屑埋。已知若某人已患蜥蜴流感豪筝,試驗結果為陽性的概率為90%,若某人未患蜥蜴流感,試驗結果為陽性的概率為9%壤蚜。假定以1000人為基礎進行計算:

蜥蜴流感病毒案例分析

2. 回憶貝葉斯公式P(B_i/A)=P(B_i)P(A/B_i)/\sum\nolimits_{j=1}^n P(B_j )P(A/B_j)

這個公式看似復雜即寡,但在實際應用中,n一般為2袜刷,也就是說把B劃分為正反兩面聪富,情況就簡化很多了。另一方面著蟹,要熟記一個公式:P(B/A)=P(AB)/P(A),這個條件概率公式簡單好記墩蔓,應用廣泛,且有助于理解貝葉斯公式萧豆!

條件概率形象化

第7章:主觀概率-信念數(shù)字化

信念數(shù)字化與圖形化

1. 問題

投資公司的分析師們對投資計劃的分歧很大奸披,分歧主要體現(xiàn)在六個方面:(1)俄羅斯下一季是否會補貼石油業(yè)?2)俄羅斯是否會收購歐航航空公司涮雷?3)越南今年是否會減稅阵面?4)越南今年是否會鼓勵外國投資?5)印尼旅游業(yè)今年是否會翻身洪鸭?6)印尼政府是否會投資生態(tài)旅游样刷?

分析師們對這六個方面的判斷不同,眾說紛紜览爵,爭論越發(fā)激烈置鼻。他們對這六個假設的用詞有:可能,極不可能蜓竹,可能性更大箕母,有可能,可能不俱济,不可能嘶是。。蛛碌。如何讓概率用詞更精確俊啼?分析師們的觀點是否真的差異巨大?

2. 用主觀概率體現(xiàn)信念

主觀概率是指個人對某事的確認程度左医,一般用于預測孤立事件但缺乏可靠數(shù)據的情況下。現(xiàn)在同木,需要將各種說法轉換為數(shù)據浮梢!

分析師們的猜想數(shù)據化

接著,可以用圖形(如散點圖)直觀表現(xiàn)每一種說法的概率傾向彤路。同時秕硝,可以用“標準偏差”分析數(shù)據點與平均值的差距。主觀概率偏離平均值的標準偏差越大洲尊,分析師們在假設成立的可能性方面的分歧越大远豺。

3. 新的消息改變初始概率

最新消息:俄羅斯宣布售出所有油田奈偏,稱對商業(yè)失去了信心。這條新聞可能會導致投資價值大幅縮水躯护,降低假設一的主觀概率惊来,另一方面,這個新聞可能只是俄羅斯的一種策略棺滞,實際上他們并不打算出售油田裁蚁。接下來,要確定在得到這條消息的前提下继准,分析師們對假設一的概率會有什么變化枉证?

貝葉斯規(guī)則是修正主觀概率的好辦法:H代表俄羅斯會(不會)補貼石油業(yè),E代表新的證據移必。則:

P(H/E)=P(H)P(E/H)/[(P(H)P(E/H)+P(-H)P(E/-H)]

拿到新的數(shù)據后室谚,重新分析~

第8章:啟發(fā)法-憑人類的天性做分析

1. 問題

邋遢集是由數(shù)據邦市市政府資助的一個非盈利團體,他們進行公開宣傳崔泵,勸說人們不要亂扔垃圾秒赤。他們把最近的工作結果匯報給了市政府,但市政府需要知道垃圾量減少了多少管削,否則就會削減資金倒脓!

2.難題

難題是垃圾量的減少無法定量計算出來,沒有一個統(tǒng)一的散亂垃圾計量模型含思。垃圾的定量計算看似走不通崎弃。

3. 方法

基于啟發(fā)法的發(fā)散式思維

人們以極快速度作出的決定或不憑借任何數(shù)據作出的決定,往往靠的是直覺含潘,直覺一般看到的只有一個選項饲做。通過發(fā)散式思維的思考,即啟發(fā)法遏弱,可以得出多個選項∨杈現(xiàn)在用啟發(fā)法確定用哪些變量分析能夠更全面地描述邋遢集的績效。

基于啟發(fā)法的邋遢集績效描述變量確定

站在市議員的角度考慮他們會如何評估邋遢集的工作漱逸,用啟發(fā)法構思如下:

基于啟發(fā)法的工作評估

在利用啟發(fā)法確定重要因素后泪姨,搜集數(shù)據,包括環(huán)衛(wèi)工人問卷饰抒、公眾問卷等肮砾。給市議員一個定量的報告和回復。

第9-11章:加薪要求分析

第9章到11章都是圍繞加薪問題展開地袋坑。第9章基于源數(shù)據來分析主動提出加薪要求是否有利于提高加薪幅度仗处;第10章利用散點圖和回歸方程分析了提出多高的加薪幅度比較合適;第11章則對回歸分析的誤差和改善提出了建議。三章之間的關系如思維圖所示婆誓,思維圖下面則是對每一章重點的提煉吃环。

加薪要求分析

第九章:直方圖-數(shù)字的形狀

1. 問題描述

年底了,星巴仕的員工希望加薪洋幻,但他們不確定是否應該主動提出加薪要求郁轻,想要通過研究進行加薪結果預測。現(xiàn)在手頭有歷年加薪記錄的數(shù)據鞋屈,包括員工的編號范咨、得到的加薪幅度、性別厂庇、年份渠啊、是否提出過加薪等字段。

2. 數(shù)據處理

1)提取并匯總數(shù)據权旷。即從總數(shù)據中提取信息替蛉,將數(shù)據分解成易于管理的較小數(shù)據塊。在該例中拄氯,得出加薪幅度躲查、性別、年份等有用字段译柏。

2)數(shù)據圖形化镣煮。直方圖是一種功能強大的圖形,它可以顯示出數(shù)據點在數(shù)值范圍內的分布情況鄙麦。在該例中典唇,直方圖顯示出了獲得每種加薪幅度的有多少人。

3)直方圖描繪工具胯府。用R繪制加薪幅度的頻數(shù)分布直方圖介衔,分析了不同年份的加薪幅度、不同性別的加薪幅度骂因、是否主動提出過加薪要求下的加薪幅度等情況炎咖。

4)得出結論。對加薪數(shù)據的不同子集進行直方圖分析后寒波,看得出獲得大幅度加薪全靠提要求乘盼。

第十章:回歸-預測

1. 問題

在確定了要提出加薪之后,下一個關鍵問題是該提出多少的加薪幅度呢俄烁?員工需要一個“加薪計算器”來預測加薪幅度绸栅。

2. 基于散點圖的回歸分析

每一個員工的要求加薪幅度和實際加薪幅度是一個數(shù)據點,這些數(shù)據點可以畫出散點圖猴娩。在散點圖中用回歸線(最準確地貫穿數(shù)據點的一條線)來表現(xiàn)要求加薪與實際加薪之間的關系,并得出回歸方程:Y=2.3+0.7X,其中卷中,X代表要求加薪幅度矛双,Y代表實際加薪幅度。

3. 基于回歸方程的預測

上述的回歸方程可以預測人們的實際加薪幅度蟆豫,“加薪計算器”設計完成议忽!

第十一章:誤差-合理誤差

1. 問題

員工根據回歸方程的預測向老板提出加薪要求,但員工們收到的反饋卻差異很大十减。A員工要求5%栈幸,結果加了10%;B員工要求8%帮辟,結果加了7%速址;C員工要求25%,結果加了0%由驹。這是哪里出現(xiàn)了問題芍锚?回歸方程是否靠譜?

2. 原因分析

不管多優(yōu)秀的預測模型蔓榄,都會存在偏差并炮,我們把這種實際結果與預測結果之間的偏差叫做機會誤差,又稱為殘差甥郑。而對殘差的分析是優(yōu)秀的統(tǒng)計模型的核心逃魄。首先我們分析殘差存在的原因:

1)源數(shù)據不全面:我們是從源數(shù)據得出回歸方程,源數(shù)據的“要求加薪幅度”字段并沒有超過22%的例子澜搅。因此伍俘,該回歸方程也不適用于要求加薪幅度超過22%的員工。問題描述里的C員工要求加薪幅度為25%店展,顯然超出了模型的預測范圍养篓。

2)回歸線的貼合程度差異:在加薪幅度低于10%的時候,該回歸線與數(shù)據的貼合程度很高赂蕴。而加薪幅度在10%到22%的區(qū)間柳弄,該回歸線便與數(shù)據點有較大的偏移。因此概说,對于要求加薪幅度在10%以上的員工碧注,該回歸方程的預測準確度會降低。

3. 優(yōu)化方法

1)定量地指出誤差:我們需要一個統(tǒng)計值來體現(xiàn)數(shù)據點與回歸線的平均偏移量糖赔。均方根誤差描述的了回歸線周圍的分布情況萍丐,有了均方根誤差,就能告訴客戶實際結果與預測結果之間可能有多大差距放典。通過R計算均方根誤差為2.5%逝变,這時可以在回歸方程下方備注:該公式只在加薪要求介于0%到22%之間時有效基茵。大部分加薪結果都會落在高于或低于預測結果2.5%的范圍內。

2)分割方程來管理誤差:由于要求加薪在0%-10%之間的數(shù)據與回歸線的重合程度較高壳影,而10%以上的數(shù)據與回歸線的貼合程度很低拱层。可以以10%為分界線宴咧,建立兩個回歸方程根灯,即:當要求加薪幅度低于10%,使用公式1(Y=0.8+0.9X)掺栅;當要求加薪幅度高于10%烙肺,使用公式2 (Y=7.8+0.3X),同時注明兩個方程的誤差范圍。

第12章:關系數(shù)據庫-你能關聯(lián)么氧卧?

雜志銷量與文章數(shù)量的關系分析

1.? 問題描述

《數(shù)據邦新聞》雜志社想找出在每一期刊物上刊登文章的最優(yōu)數(shù)量桃笙。

2.? 問題分析

1)源數(shù)據獲取:現(xiàn)有四張獨立的電子表格假抄,分別是銷量(期號和銷量)怎栽、期數(shù)(期號和出版日期)、文章(文章編號宿饱、期號熏瞄、)、作者谬以。他們之間是相互關聯(lián)的强饮。

2)關聯(lián)比較對象:我們的目的是對比不同文章數(shù)量對銷量的影響,因此为黎,再數(shù)據庫管理軟件中邮丰,通過“期刊”表將“銷量”表與“文章”表關聯(lián)起來。

3)分析比較對象:利用散點圖描述文章數(shù)和銷量之間的關系铭乾。

第13章:整理數(shù)據-井然有序

數(shù)據管理步驟

這本書是數(shù)據分析的入門書籍剪廉,沒有難懂的技術與理論,而是分析生活中的實際問題炕檩,輕松易懂斗蒋!但若要深入學習數(shù)據分析,這恐怕是遠遠不夠的笛质,需要我們在實踐中進步了泉沾,加油吧!

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末妇押,一起剝皮案震驚了整個濱河市跷究,隨后出現(xiàn)的幾起案子今野,更是在濱河造成了極大的恐慌机蔗,老刑警劉巖绳慎,帶你破解...
    沈念sama閱讀 207,113評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件敷存,死亡現(xiàn)場離奇詭異,居然都是意外死亡柴我,警方通過查閱死者的電腦和手機柱嫌,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評論 2 381
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來屯换,“玉大人,你說我怎么就攤上這事与学⊥冢” “怎么了?”我有些...
    開封第一講書人閱讀 153,340評論 0 344
  • 文/不壞的土叔 我叫張陵索守,是天一觀的道長晕窑。 經常有香客問我,道長卵佛,這世上最難降的妖魔是什么杨赤? 我笑而不...
    開封第一講書人閱讀 55,449評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮截汪,結果婚禮上疾牲,老公的妹妹穿的比我還像新娘。我一直安慰自己衙解,他們只是感情好阳柔,可當我...
    茶點故事閱讀 64,445評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著蚓峦,像睡著了一般舌剂。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上暑椰,一...
    開封第一講書人閱讀 49,166評論 1 284
  • 那天霍转,我揣著相機與錄音,去河邊找鬼一汽。 笑死避消,一個胖子當著我的面吹牛,可吹牛的內容都是我干的角虫。 我是一名探鬼主播沾谓,決...
    沈念sama閱讀 38,442評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼戳鹅!你這毒婦竟也來了均驶?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 37,105評論 0 261
  • 序言:老撾萬榮一對情侶失蹤枫虏,失蹤者是張志新(化名)和其女友劉穎妇穴,沒想到半個月后爬虱,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 43,601評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡腾它,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,066評論 2 325
  • 正文 我和宋清朗相戀三年跑筝,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片瞒滴。...
    茶點故事閱讀 38,161評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡曲梗,死狀恐怖,靈堂內的尸體忽然破棺而出妓忍,到底是詐尸還是另有隱情虏两,我是刑警寧澤,帶...
    沈念sama閱讀 33,792評論 4 323
  • 正文 年R本政府宣布世剖,位于F島的核電站定罢,受9級特大地震影響,放射性物質發(fā)生泄漏旁瘫。R本人自食惡果不足惜祖凫,卻給世界環(huán)境...
    茶點故事閱讀 39,351評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望酬凳。 院中可真熱鬧惠况,春花似錦、人聲如沸宁仔。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,352評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽台诗。三九已至完箩,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間拉队,已是汗流浹背弊知。 一陣腳步聲響...
    開封第一講書人閱讀 31,584評論 1 261
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留粱快,地道東北人秩彤。 一個月前我還...
    沈念sama閱讀 45,618評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像事哭,于是被迫代替她去往敵國和親漫雷。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,916評論 2 344

推薦閱讀更多精彩內容