如今,數(shù)據分析在各行各業(yè)中都扮演著非常重要的角色信殊。工作的需要使得很多小白開始自學數(shù)據分析了炬称!其實數(shù)據分析不像很多人想的那樣高深莫測,留心工作涡拘,處處有數(shù)據玲躯,處處有分析!
如果你是想要入門數(shù)據分析的小白鳄乏,很推薦豆瓣高分入門書籍《深入淺出數(shù)據分析》跷车。這本書用職場中常見的場景,來表達什么是數(shù)據分析橱野,如何做分析朽缴,以及好用的分析工具。這本書對小白非常友好水援,簡單易懂密强,大多是用插畫茅郎、圖表等形式表達要點。
二刷這本書或渤,深受啟發(fā)系冗,梳理了這本書的精要內容,在這里分享給大家劳坑,希望大家能快速入門毕谴!
第1章:數(shù)據分析引言-分解數(shù)據
1. 數(shù)據分析流程
1)確定:通過與客戶溝通,確定問題
2)分解:將問題劃分為可管理距芬、可解決的組塊
3)評估:評估分解組塊的關鍵就是比較
4)決策:將分析形成報表涝开,供制定決策
2. 反思心智模型,開始新一輪分析
分析過程中的錯誤或不完整信息框仔,會導致決策失誤舀武。而這些信息是源于個人對外界的假設和確信的觀點,也就是心智模型离斩。因此银舱,需要盡量明確你的心智模型,仔細斟酌各類影響因素跛梗。更重要的是寻馏,要基于數(shù)據得出觀點,而不是個人猜想核偿。在進一步明確數(shù)據和信息后诚欠,可以按照上述的數(shù)據分析流程開始新一輪的分析啦!
第2章:實驗-檢驗你的理論
1. 咖啡銷量下滑原因分析
1)提出問題:在過去半年里漾岳,星巴仕銷量持續(xù)下降轰绵,原因是什么????
2)數(shù)據來源:市場客戶調查尼荆,邀請客戶對影響銷量的五個因素(選址左腔、咖啡溫度、員工熱情捅儒、咖啡價值液样、偏愛去處)進行打分。
3)數(shù)據分析:利用比較法得出野芒,咖啡價值得分一落千丈蓄愁!
4)得出結論:咖啡價值的下降導致銷量下降。
問題來了狞悲!Soho區(qū)是一個富人區(qū)撮抓,區(qū)經理認為這里沒有人認為星巴仕缺乏價值。哪里出現(xiàn)了問題摇锋?是觀察分析法中的混雜因素!
混雜因素就是研究對象的個人差異丹拯,它們不是你試圖進行比較的因素站超,但會導致分析結果的敏感性變差。本例中的混雜因素是店址乖酬。也就說死相,不同店址客戶對五因素的評分傾向是不同的,比如Soho富人區(qū)的咖啡價值得分明顯高于其他區(qū)域咬像。因此算撮,要分區(qū)域來重新審視數(shù)據,發(fā)現(xiàn)東岸區(qū)的價值感得分最低县昂,Soho區(qū)則一切正常肮柜,其他區(qū)域在一定范圍內波動。現(xiàn)在最重要的問題是倒彰,采取哪種策略能夠有效提高銷量审洞?記得采用控制變量法,排除混雜因素待讳!
2. 咖啡銷量下滑策略分析
1)目的:驗證哪種策略最有效芒澜,策略一為降價,策略二為游說顧客“星巴仕很有價值”创淡;
2)分組:將大的地理區(qū)域分成小的地理區(qū)域痴晦,隨機將這些微區(qū)域分成控制組和實驗組;
3)實驗:控制組維持現(xiàn)狀一個月琳彩,實驗組1降價一個月阅酪,實驗組2游說顧客一個月;
4)結果:控制組與實驗組1的營業(yè)收入持平汁针,實驗組2的收入立即上升。
第3章:最優(yōu)化-尋找最大值
1. 利潤最大化問題
我們的橡膠夠生產500只橡皮鴨或400條橡皮魚砚尽,我們的時間夠用來生產400只橡皮鴨或300條橡皮魚施无。如果想讓產品在下個月上架銷售,我們的產量都不會高于400只橡皮鴨和300條橡皮魚必孤。每只橡皮鴨的利潤是5美元猾骡,每條橡皮魚的利潤是4美元,求如何安排橡皮鴨和橡皮魚的產量才能使得利潤最高敷搪?
解:設橡皮鴨數(shù)量為X只兴想,橡皮魚數(shù)量為Y條
目標函數(shù):
約束條件:
求解工具:Excel的求解器(solver)
2. 按照分析目標校正假設
上述的利潤最大化問題分析看似完整,但實際利潤卻跌穿地板赡勘!由于其約束條件對實際情況進行了簡化嫂便,當缺失某一個重要的假設條件,分析結果就可能毀掉闸与。而上述問題恰好忽略了人們的需求偏好毙替,導致分析結果不盡人意岸售。
現(xiàn)在,觀察近年來橡皮鴨和橡皮魚的銷量情況厂画,發(fā)現(xiàn)橡皮魚的銷量一般不超過50條凸丸。在完善約束條件后,重新求得最優(yōu)解袱院。
第4章:數(shù)據圖形化-圖形讓你更精明
1) 畫圖前提:準備數(shù)據屎慢,若數(shù)據過于龐雜,只須記住目標忽洛,目光停留在和目標有關的數(shù)據上腻惠,無視其他。
2) 畫圖目的:數(shù)據圖形化的根本在于正確比較脐瑰,其意義在于圖片中隱含的數(shù)據妖枚,而不是炫目的設計。
3) 畫圖進階:圖形多元化苍在,優(yōu)秀的圖形都是多元圖形绝页,即對3個以上的變量進行比較。
4) 畫圖工具:R
第5章:假設檢驗-假設并非如此
1. 問題
電膚公司是一家手機“皮膚”制造商寂恬。手機巨頭Podphone公司即將發(fā)布一款手機续誉,時間待定。電膚公司必須在手機發(fā)布前的一個月開始生產手機皮膚初肉,才能趕上手機銷售的第一波酷鸦。當前的任務是電膚公司何時生產新手機皮膚?
2. 搜集證據
通過搜集產品發(fā)布信息牙咏,梳理這些信息中體現(xiàn)的變量關系臼隔,分為正相關和負相關關系。
3. 提出假設
4. 假設檢驗
1)假設檢驗的核心是證偽妄壶,即剔除無法證實的假設摔握,排除錯誤假設。
根據資料可排除1和假設5
2)對于假設2-4丁寄,借助診斷法找出否定性最小的假設氨淌,判定哪個假設最強。
得出假設3為最強假設
3)新證據來了:Podphone公司召開了新手機打樣慶祝會伊磺,新證據使得假設2變?yōu)樽顝娂僭O盛正!
4)根據最新分析結果采取行動吧!
第6章:貝葉斯統(tǒng)計-穿越第一關
1. 條件概率與貝葉斯規(guī)則—蜥蜴流感病毒案例
研究表明總人口中有1%的人患有蜥蜴流感屑埋。已知若某人已患蜥蜴流感豪筝,試驗結果為陽性的概率為90%,若某人未患蜥蜴流感,試驗結果為陽性的概率為9%壤蚜。假定以1000人為基礎進行計算:
2. 回憶貝葉斯公式:
這個公式看似復雜即寡,但在實際應用中,n一般為2袜刷,也就是說把B劃分為正反兩面聪富,情況就簡化很多了。另一方面著蟹,要熟記一個公式:,這個條件概率公式簡單好記墩蔓,應用廣泛,且有助于理解貝葉斯公式萧豆!
第7章:主觀概率-信念數(shù)字化
1. 問題
投資公司的分析師們對投資計劃的分歧很大奸披,分歧主要體現(xiàn)在六個方面:(1)俄羅斯下一季是否會補貼石油業(yè)?2)俄羅斯是否會收購歐航航空公司涮雷?3)越南今年是否會減稅阵面?4)越南今年是否會鼓勵外國投資?5)印尼旅游業(yè)今年是否會翻身洪鸭?6)印尼政府是否會投資生態(tài)旅游样刷?
分析師們對這六個方面的判斷不同,眾說紛紜览爵,爭論越發(fā)激烈置鼻。他們對這六個假設的用詞有:可能,極不可能蜓竹,可能性更大箕母,有可能,可能不俱济,不可能嘶是。。蛛碌。如何讓概率用詞更精確俊啼?分析師們的觀點是否真的差異巨大?
2. 用主觀概率體現(xiàn)信念
主觀概率是指個人對某事的確認程度左医,一般用于預測孤立事件但缺乏可靠數(shù)據的情況下。現(xiàn)在同木,需要將各種說法轉換為數(shù)據浮梢!
接著,可以用圖形(如散點圖)直觀表現(xiàn)每一種說法的概率傾向彤路。同時秕硝,可以用“標準偏差”分析數(shù)據點與平均值的差距。主觀概率偏離平均值的標準偏差越大洲尊,分析師們在假設成立的可能性方面的分歧越大远豺。
3. 新的消息改變初始概率
最新消息:俄羅斯宣布售出所有油田奈偏,稱對商業(yè)失去了信心。這條新聞可能會導致投資價值大幅縮水躯护,降低假設一的主觀概率惊来,另一方面,這個新聞可能只是俄羅斯的一種策略棺滞,實際上他們并不打算出售油田裁蚁。接下來,要確定在得到這條消息的前提下继准,分析師們對假設一的概率會有什么變化枉证?
貝葉斯規(guī)則是修正主觀概率的好辦法:H代表俄羅斯會(不會)補貼石油業(yè),E代表新的證據移必。則:
拿到新的數(shù)據后室谚,重新分析~
第8章:啟發(fā)法-憑人類的天性做分析
1. 問題
邋遢集是由數(shù)據邦市市政府資助的一個非盈利團體,他們進行公開宣傳崔泵,勸說人們不要亂扔垃圾秒赤。他們把最近的工作結果匯報給了市政府,但市政府需要知道垃圾量減少了多少管削,否則就會削減資金倒脓!
2.難題
難題是垃圾量的減少無法定量計算出來,沒有一個統(tǒng)一的散亂垃圾計量模型含思。垃圾的定量計算看似走不通崎弃。
3. 方法
人們以極快速度作出的決定或不憑借任何數(shù)據作出的決定,往往靠的是直覺含潘,直覺一般看到的只有一個選項饲做。通過發(fā)散式思維的思考,即啟發(fā)法遏弱,可以得出多個選項∨杈現(xiàn)在用啟發(fā)法確定用哪些變量分析能夠更全面地描述邋遢集的績效。
站在市議員的角度考慮他們會如何評估邋遢集的工作漱逸,用啟發(fā)法構思如下:
在利用啟發(fā)法確定重要因素后泪姨,搜集數(shù)據,包括環(huán)衛(wèi)工人問卷饰抒、公眾問卷等肮砾。給市議員一個定量的報告和回復。
第9-11章:加薪要求分析
第9章到11章都是圍繞加薪問題展開地袋坑。第9章基于源數(shù)據來分析主動提出加薪要求是否有利于提高加薪幅度仗处;第10章利用散點圖和回歸方程分析了提出多高的加薪幅度比較合適;第11章則對回歸分析的誤差和改善提出了建議。三章之間的關系如思維圖所示婆誓,思維圖下面則是對每一章重點的提煉吃环。
第九章:直方圖-數(shù)字的形狀
1. 問題描述
年底了,星巴仕的員工希望加薪洋幻,但他們不確定是否應該主動提出加薪要求郁轻,想要通過研究進行加薪結果預測。現(xiàn)在手頭有歷年加薪記錄的數(shù)據鞋屈,包括員工的編號范咨、得到的加薪幅度、性別厂庇、年份渠啊、是否提出過加薪等字段。
2. 數(shù)據處理
1)提取并匯總數(shù)據权旷。即從總數(shù)據中提取信息替蛉,將數(shù)據分解成易于管理的較小數(shù)據塊。在該例中拄氯,得出加薪幅度躲查、性別、年份等有用字段译柏。
2)數(shù)據圖形化镣煮。直方圖是一種功能強大的圖形,它可以顯示出數(shù)據點在數(shù)值范圍內的分布情況鄙麦。在該例中典唇,直方圖顯示出了獲得每種加薪幅度的有多少人。
3)直方圖描繪工具胯府。用R繪制加薪幅度的頻數(shù)分布直方圖介衔,分析了不同年份的加薪幅度、不同性別的加薪幅度骂因、是否主動提出過加薪要求下的加薪幅度等情況炎咖。
4)得出結論。對加薪數(shù)據的不同子集進行直方圖分析后寒波,看得出獲得大幅度加薪全靠提要求乘盼。
第十章:回歸-預測
1. 問題
在確定了要提出加薪之后,下一個關鍵問題是該提出多少的加薪幅度呢俄烁?員工需要一個“加薪計算器”來預測加薪幅度绸栅。
2. 基于散點圖的回歸分析
每一個員工的要求加薪幅度和實際加薪幅度是一個數(shù)據點,這些數(shù)據點可以畫出散點圖猴娩。在散點圖中用回歸線(最準確地貫穿數(shù)據點的一條線)來表現(xiàn)要求加薪與實際加薪之間的關系,并得出回歸方程:,其中卷中,X代表要求加薪幅度矛双,Y代表實際加薪幅度。
3. 基于回歸方程的預測
上述的回歸方程可以預測人們的實際加薪幅度蟆豫,“加薪計算器”設計完成议忽!
第十一章:誤差-合理誤差
1. 問題
員工根據回歸方程的預測向老板提出加薪要求,但員工們收到的反饋卻差異很大十减。A員工要求5%栈幸,結果加了10%;B員工要求8%帮辟,結果加了7%速址;C員工要求25%,結果加了0%由驹。這是哪里出現(xiàn)了問題芍锚?回歸方程是否靠譜?
2. 原因分析
不管多優(yōu)秀的預測模型蔓榄,都會存在偏差并炮,我們把這種實際結果與預測結果之間的偏差叫做機會誤差,又稱為殘差甥郑。而對殘差的分析是優(yōu)秀的統(tǒng)計模型的核心逃魄。首先我們分析殘差存在的原因:
1)源數(shù)據不全面:我們是從源數(shù)據得出回歸方程,源數(shù)據的“要求加薪幅度”字段并沒有超過22%的例子澜搅。因此伍俘,該回歸方程也不適用于要求加薪幅度超過22%的員工。問題描述里的C員工要求加薪幅度為25%店展,顯然超出了模型的預測范圍养篓。
2)回歸線的貼合程度差異:在加薪幅度低于10%的時候,該回歸線與數(shù)據的貼合程度很高赂蕴。而加薪幅度在10%到22%的區(qū)間柳弄,該回歸線便與數(shù)據點有較大的偏移。因此概说,對于要求加薪幅度在10%以上的員工碧注,該回歸方程的預測準確度會降低。
3. 優(yōu)化方法
1)定量地指出誤差:我們需要一個統(tǒng)計值來體現(xiàn)數(shù)據點與回歸線的平均偏移量糖赔。均方根誤差描述的了回歸線周圍的分布情況萍丐,有了均方根誤差,就能告訴客戶實際結果與預測結果之間可能有多大差距放典。通過R計算均方根誤差為2.5%逝变,這時可以在回歸方程下方備注:該公式只在加薪要求介于0%到22%之間時有效基茵。大部分加薪結果都會落在高于或低于預測結果2.5%的范圍內。
2)分割方程來管理誤差:由于要求加薪在0%-10%之間的數(shù)據與回歸線的重合程度較高壳影,而10%以上的數(shù)據與回歸線的貼合程度很低拱层。可以以10%為分界線宴咧,建立兩個回歸方程根灯,即:當要求加薪幅度低于10%,使用公式1掺栅;當要求加薪幅度高于10%烙肺,使用公式2 ,同時注明兩個方程的誤差范圍。
第12章:關系數(shù)據庫-你能關聯(lián)么氧卧?
1.? 問題描述
《數(shù)據邦新聞》雜志社想找出在每一期刊物上刊登文章的最優(yōu)數(shù)量桃笙。
2.? 問題分析
1)源數(shù)據獲取:現(xiàn)有四張獨立的電子表格假抄,分別是銷量(期號和銷量)怎栽、期數(shù)(期號和出版日期)、文章(文章編號宿饱、期號熏瞄、)、作者谬以。他們之間是相互關聯(lián)的强饮。
2)關聯(lián)比較對象:我們的目的是對比不同文章數(shù)量對銷量的影響,因此为黎,再數(shù)據庫管理軟件中邮丰,通過“期刊”表將“銷量”表與“文章”表關聯(lián)起來。
3)分析比較對象:利用散點圖描述文章數(shù)和銷量之間的關系铭乾。
第13章:整理數(shù)據-井然有序
這本書是數(shù)據分析的入門書籍剪廉,沒有難懂的技術與理論,而是分析生活中的實際問題炕檩,輕松易懂斗蒋!但若要深入學習數(shù)據分析,這恐怕是遠遠不夠的笛质,需要我們在實踐中進步了泉沾,加油吧!