無(wú)小意
個(gè)人博客:無(wú)小意
知乎主頁(yè):無(wú)小意丶
公眾號(hào): 數(shù)據(jù)路(shuju_lu)
百日計(jì)劃第一周總結(jié)
1. 計(jì)劃
1.徹底結(jié)束之前預(yù)定暑假完成的天善學(xué)院課程《七周數(shù)據(jù)分析師》
2.總結(jié)《七周數(shù)據(jù)分析師》。
2. 完成情況
1.完成《七周成為數(shù)據(jù)分析師》任務(wù)
2.周總結(jié)與《七周數(shù)據(jù)分析師》一起完成躏筏。
《七周數(shù)據(jù)分析師》總結(jié)
本文是通過(guò)對(duì)秦路的課程七周成為數(shù)據(jù)分析師進(jìn)行整體總結(jié)與補(bǔ)充。
可以通過(guò)本文崔列,對(duì)數(shù)據(jù)分析師這個(gè)職業(yè)有個(gè)基本的了解
課程詳細(xì)資料請(qǐng)自行查詢。
第一周:數(shù)據(jù)分析思維
1.核心數(shù)據(jù)分析思維
- 結(jié)構(gòu)化
- 公式化
- 業(yè)務(wù)化
2.數(shù)據(jù)分析思維七大技巧
- 象限法
- 多維法
- 假設(shè)法
- 指數(shù)法
- 80/20法則(帕累托法則)
- 對(duì)比法
- 漏斗法
3.數(shù)據(jù)分析思維鍛煉方法
- 好奇心调煎!
- 案例分析
- 啤酒與尿布
- 去思考生活中商業(yè)案例的表現(xiàn)蔫磨,背后的原理、擺放方法和數(shù)據(jù)差異
- 生活中的練習(xí)
- 例如夜市主穗,一天的人流量泻拦?一人的流量?營(yíng)業(yè)額忽媒?數(shù)據(jù)的分析方式争拐?
- 換做你是商家,如何提高店面的利潤(rùn)晦雨?
- 工作中的練習(xí)
- 為什么領(lǐng)導(dǎo)和同事不認(rèn)可架曹?
- 如果我職位更高,我會(huì)怎么分析金赦?
- 復(fù)盤音瓷,對(duì)于一個(gè)月,一年前等等的案例進(jìn)行對(duì)比夹抗。需要,每個(gè)案例有記筆記的習(xí)慣纵竖,效果更好
- 歷史分析漠烧,用這三種分析思維,分析更多的事情靡砌。結(jié)構(gòu)化已脓,公式化,業(yè)務(wù)化通殃。
4.總結(jié)
- 核心思維為重點(diǎn)度液!結(jié)合案例理解了厕宗,這三種思維的重要性,運(yùn)用范圍極廣堕担,對(duì)于問(wèn)題的思考都可以從這三方面開(kāi)展已慢。
- 七大技巧,展示了具體的分析技巧霹购,但是需要配合分析工具如Python佑惠、excel中去實(shí)現(xiàn)他,需要記住特點(diǎn)齐疙,在需要時(shí)運(yùn)用到數(shù)據(jù)分析中
- 數(shù)據(jù)分析思維的鍛煉膜楷,來(lái)自于長(zhǎng)期的思考習(xí)慣,從生活贞奋、案例和工作中日積月累的思考與積累赌厅,通過(guò)自己真正“思考”出來(lái)的結(jié)果,才是“真正”理解的思維轿塔。
第二周:業(yè)務(wù)篇-指標(biāo)
1.為什么業(yè)務(wù)重要
唯有理解業(yè)務(wù)察蹲,才能建立完整的一套體系,簡(jiǎn)稱業(yè)務(wù)數(shù)據(jù)模型催训。
想進(jìn)入某個(gè)行業(yè)的數(shù)據(jù)分析洽议,盡量需要一些業(yè)務(wù)知識(shí),敲門磚漫拭。
2.經(jīng)典的業(yè)務(wù)分析指標(biāo)
模型未動(dòng)亚兄,指標(biāo)先行。
如果你不能衡量它采驻,你就不能無(wú)法增長(zhǎng)它
運(yùn)用第一周的核心思維:結(jié)構(gòu)化审胚、公式化和業(yè)務(wù)化,形成指標(biāo)礼旅。
指標(biāo)建立的要點(diǎn):
- 核心指標(biāo)(公司和部門都認(rèn)同的大目標(biāo)膳叨,根據(jù)實(shí)際公司情況而認(rèn)定)
- 好的指標(biāo)應(yīng)該是比率
- 好的指標(biāo)能帶來(lái)顯著效果
- 好的指標(biāo)不應(yīng)該虛榮(如投入的錢很多,新增用戶量大)
- 好的指標(biāo)不應(yīng)該復(fù)雜
3.市場(chǎng)營(yíng)銷指標(biāo)
市場(chǎng)營(yíng)銷領(lǐng)域:
1.客戶/用戶生命周期
- 企業(yè)/產(chǎn)品和消費(fèi)者再整個(gè)業(yè)務(wù)關(guān)系階段的周期痘系。
- 不同業(yè)務(wù)劃分的階段不同菲嘴。傳統(tǒng)營(yíng)銷中,分為潛在用戶汰翠,興趣用戶龄坪,新客戶,老客戶复唤,流失客戶健田。
2.用戶價(jià)值
- 業(yè)務(wù)領(lǐng)域千千萬(wàn)萬(wàn),怎樣定義最有效用戶佛纫?
- 用戶貢獻(xiàn)=產(chǎn)出量/投入量*100%
- 用戶價(jià)值=貢獻(xiàn)1+貢獻(xiàn)2+...
- 金融行業(yè)的用戶價(jià)值妓局,大概可以為存款+貸款+信用卡+年費(fèi)+...-風(fēng)險(xiǎn)
- RFM模型
- 具體看業(yè)務(wù)背景总放,確立RFM模型中的重心,進(jìn)行更改和修正好爬。
- 用戶分群局雄,營(yíng)銷矩陣
- 提取用戶的幾個(gè)核心維度,例如RFM抵拘,用象限法將其歸納和分類
3. 產(chǎn)品運(yùn)營(yíng)指標(biāo)
AARRR框架
用戶獲取哎榴,用戶活躍,用戶留存僵蛛,營(yíng)收尚蝌,傳播
1.用戶獲取
- 渠道到達(dá)量:俗稱曝光量。有多少人看到產(chǎn)品推廣相關(guān)的線索充尉。
- 渠道轉(zhuǎn)換率:有多少用戶因?yàn)槠毓舛膭?dòng)Cost Per飘言,包含CPM、CPC驼侠、CPS姿鸿、CPD和CPT等。
- 渠道ROI:推廣營(yíng)銷的熟悉KPI倒源,投資回報(bào)率苛预,利潤(rùn)/投資* 100
- 日應(yīng)用下載量:App的下載量,這里指點(diǎn)擊下載笋熬,不代表下載完成热某。
- 日新增用戶數(shù):以用戶注冊(cè)提交資料為基準(zhǔn)
- 獲客成本:為獲取一位用戶需要支付的成本
- 一次會(huì)話用戶數(shù)占比:指新用戶下載完App,僅打開(kāi)過(guò)產(chǎn)品一次胳螟,且該次使用時(shí)長(zhǎng)在2分鐘以內(nèi)昔馋。(衡量渠道可靠程度)
2.用戶活躍
- 日/周/月活躍用戶應(yīng)用下載量:活躍標(biāo)準(zhǔn)是用戶用過(guò)的產(chǎn)品,廣義上糖耸,網(wǎng)頁(yè)游覽內(nèi)容算用秘遏,公眾號(hào)下單算用,不限于打開(kāi)APP嘉竟。
- 活躍用戶占比:活躍用戶數(shù)再總用戶數(shù)的比例邦危,衡量的是產(chǎn)品健康程度
- 用戶會(huì)話session次數(shù):用戶打開(kāi)產(chǎn)品操作和使用,直到推出產(chǎn)品的整個(gè)周期周拐。5分鐘無(wú)操作铡俐,默認(rèn)結(jié)束
- 用戶訪問(wèn)時(shí)長(zhǎng):一次會(huì)話的持續(xù)時(shí)間。
- 用戶平均訪問(wèn)次數(shù):一段時(shí)間內(nèi)的用戶平均產(chǎn)生會(huì)話次數(shù)妥粟。
3.用戶留存
用戶在某段時(shí)間內(nèi)使用產(chǎn)品,過(guò)了一段時(shí)間后仍舊繼續(xù)使用的用戶吏够。
4.營(yíng)收
- 付費(fèi)用戶數(shù):花了錢的
- 付費(fèi)用戶數(shù)占比:每日付費(fèi)用戶占活躍用戶數(shù)比勾给,也可以計(jì)算總付費(fèi)用戶占總用戶數(shù)比
- ARPU:某個(gè)時(shí)間段內(nèi)滩报,每位用戶平均收入
- ARPPU:某時(shí)間段內(nèi)每位付費(fèi)用戶平均收入,排除了未付費(fèi)播急。
- 客單價(jià):每一位用戶平均購(gòu)買商品的金額脓钾。銷量總額/顧客總數(shù)
- LTV:用戶生命價(jià)值周期,和市場(chǎng)營(yíng)銷的客戶價(jià)值接近桩警,經(jīng)常用在游戲運(yùn)營(yíng)電商運(yùn)營(yíng)中可训。
- LTV(經(jīng)驗(yàn)公式):ARPU*1/流失率(比如說(shuō),一月份有一百個(gè)用戶捶枢,這個(gè)月用戶流失率0.3握截,那么1/流失率=3.3,那么一月份這批客戶在3.3個(gè)月后流失光烂叔,這段時(shí)間的LTV=ARPU(用戶的平均消費(fèi)100元) *3.3 =330元)谨胞,適合敏捷項(xiàng)目
5.傳播
- K因子:每一個(gè)用戶能夠帶來(lái)幾個(gè)新用戶
- K因子=用戶數(shù)平均邀請(qǐng)人=人數(shù)邀請(qǐng)轉(zhuǎn)換率
- 用戶分享率:某功能/界面中,分享用戶數(shù)占游覽頁(yè)面人數(shù)占比
- 活動(dòng)/邀請(qǐng)曝光量:線上傳播活動(dòng)中蒜鸡,該活動(dòng)被曝光的次數(shù)
4. 用戶行為指標(biāo)
1.用戶行為
- 沒(méi)有特別重要的框架胯努,主要在于理解與應(yīng)用。
- 功能使用率:使用某功能的用戶占活動(dòng)總活躍數(shù)之比逢防。(比如點(diǎn)贊叶沛、評(píng)論、收藏忘朝、搜索等等)
- 用戶會(huì)話:會(huì)話(session)灰署,是用戶在一次訪問(wèn)過(guò)程中,從開(kāi)始到結(jié)束的整個(gè)過(guò)程辜伟。在網(wǎng)頁(yè)端氓侧,30分鐘內(nèi)沒(méi)有操作,默認(rèn)會(huì)話操作結(jié)束
2.用戶路徑
路徑圖:用戶在一次會(huì)話的過(guò)程中导狡,其訪問(wèn)產(chǎn)品內(nèi)部的游覽軌跡约巷,通過(guò)此,可以加工出關(guān)鍵路徑轉(zhuǎn)換率旱捧。
全產(chǎn)品路徑如上独郎,但是關(guān)注關(guān)鍵路徑才重要。比如下單的路徑枚赡,觀察各個(gè)路徑的情況氓癌,進(jìn)行優(yōu)化。
5.電子商務(wù)指標(biāo)
購(gòu)物籃分析
- 筆單價(jià):用戶每次購(gòu)買支付的金額贫橙,即每筆訂單的支出贪婉,對(duì)應(yīng)客單價(jià)
- 件單價(jià):商品的平均價(jià)格
- 成交率:支付成功的用戶在總的客流量中的占比
- 購(gòu)物籃系數(shù):平均每筆訂單中,賣出了多少商品卢肃,與商品關(guān)聯(lián)規(guī)則有關(guān)疲迂。
- 復(fù)購(gòu)率:一段時(shí)間內(nèi)多次消費(fèi)的用戶占到總消費(fèi)用戶數(shù)之比(忠誠(chéng)度)
- 回購(gòu)率:一段時(shí)間內(nèi)消費(fèi)過(guò)的用戶才顿,在下一段時(shí)間內(nèi)仍然有消費(fèi)行為的占比(消費(fèi)欲望)
6. 流量指標(biāo)
1.游覽量和訪客量
PV:游覽次數(shù)。以發(fā)起請(qǐng)求次數(shù)來(lái)判定
-
UV:一定時(shí)間內(nèi)訪問(wèn)網(wǎng)頁(yè)的人數(shù)尤蒿,UV會(huì)通過(guò)cookie或IP的訪問(wèn)次數(shù)來(lái)判定次數(shù)
? 微信中的網(wǎng)頁(yè)郑气,UV是不準(zhǔn)確的,微信不會(huì)保存cookies腰池。
2.訪客行為
- 新老客戶占比:衡量網(wǎng)站的生命力(適宜就好尾组,過(guò)高過(guò)低就不行)
- 訪客時(shí)間:衡量?jī)?nèi)容質(zhì)量,不是看內(nèi)容的UV示弓,而是內(nèi)容的訪問(wèn)時(shí)間讳侨。
- 訪客平均訪問(wèn)頁(yè)數(shù):衡量網(wǎng)站對(duì)訪客的吸引力,是訪問(wèn)的深度
- 來(lái)源:與多維分析相關(guān)避乏,訪客從哪里來(lái)爷耀,游覽方式?手機(jī)機(jī)型拍皮?通過(guò)來(lái)源網(wǎng)站的參數(shù)提取歹叮。
- 退出率:從該頁(yè)退出的頁(yè)面訪問(wèn)數(shù)/進(jìn)入該頁(yè)的訪問(wèn)數(shù)(衡量網(wǎng)頁(yè)產(chǎn)品結(jié)構(gòu))
- 跳出率:游覽單頁(yè)即退出的次數(shù)/訪問(wèn)次數(shù)(衡量落地頁(yè)、營(yíng)銷頁(yè))
7.怎么生存指標(biāo)
組合铆帽!
- 訪客訪問(wèn)時(shí)長(zhǎng)+UV=重度訪問(wèn)用戶占比(游覽時(shí)間五分鐘以上的用戶占比)
- 用戶會(huì)話次數(shù)+成交率=有效消費(fèi)會(huì)話占比(用戶在所有的會(huì)話中咆耿,其中有多少次有消費(fèi)?)
- 機(jī)器學(xué)習(xí)爹橱,PCA學(xué)習(xí)萨螺,指數(shù)法,生成指標(biāo)愧驱。(偏應(yīng)用)
8.總結(jié)
- 通過(guò)三大核心思維慰技,分解-理解-尋找,得到重要的指標(biāo)组砚。
- 根據(jù)不同行業(yè)吻商,運(yùn)用不同合適的模型
- 公司在不同時(shí)期、階段和模式都有不同的指標(biāo)糟红,需要有根據(jù)目的艾帐,從更高層次去尋找有效的指標(biāo)。
第二周:業(yè)務(wù)篇-框架與模型
1.業(yè)務(wù)的分析框架
- 從第一周數(shù)據(jù)分析思維盆偿,核心技巧柒爸,工具,都為了這部分做鋪墊事扭。
- 讓指標(biāo)形成閉環(huán)捎稚,成為真正靠譜的模型
從三個(gè)角度出發(fā)
- 從指標(biāo)的角度出發(fā)
- 從業(yè)務(wù)的角度出發(fā)
- 從流程的角度出發(fā)
2.市場(chǎng)營(yíng)銷模型
本質(zhì)是樹(shù)形結(jié)構(gòu),從樹(shù)形思維導(dǎo)圖演變而來(lái),但是加入閉環(huán)的循環(huán)結(jié)構(gòu)阳藻。
3.AARRR模型
- 核心是形成閉環(huán)晰奖。
- 例子:餓了嗎紅包谈撒。
- 二次激活:推送激活率腥泥、有效推送到達(dá)率、用戶打開(kāi)率啃匿、不用推送的轉(zhuǎn)化率(可以使用漏斗圖)
4.用戶行為模型(內(nèi)容平臺(tái))
- 例如蛔外,知乎。完整閉環(huán)溯乒,各個(gè)環(huán)節(jié)都能進(jìn)行分析
- 點(diǎn)贊/評(píng)論/收藏分析:點(diǎn)贊/評(píng)論/收藏用戶活躍占比夹厌、內(nèi)容指數(shù)等等
5.電子商務(wù)模型
遇到結(jié)構(gòu)外的分析內(nèi)容,在外面額外添加就行裆悄,如右上角矛纹。
分析各個(gè)節(jié)點(diǎn),得到指標(biāo)光稼。例如或南,購(gòu)物車分析:
- 不用商品類別的占比(對(duì)比法)
- 不同價(jià)格檔次的占比(象限法)
- 不同商品的下單支付率(漏斗法)
6.流量模型
指標(biāo)結(jié)構(gòu)框架如上,分析各個(gè)要點(diǎn)艾君。
分析搜索流量:
有些指標(biāo)在其他模型也有,模型之間沒(méi)有嚴(yán)格界限,可以共同使用相同指標(biāo)
怎么從空白數(shù)據(jù)分析需求開(kāi)始随闪?
- 設(shè)立核心指標(biāo)
- 經(jīng)過(guò)三種核心思維
- 聚合成樹(shù)形圖
- 形成大量指標(biāo)
- 將指標(biāo)變成分析框架捻勉,閉環(huán)模型圖,例如上面案例
- 每個(gè)節(jié)點(diǎn)都能分析虹茶,利用上周的七大分析工具逝薪。
7.如何應(yīng)對(duì)各類業(yè)務(wù)場(chǎng)景
新手,面對(duì)數(shù)據(jù)分析依然是沒(méi)有思路進(jìn)行分析蝴罪?
-
練習(xí)
重點(diǎn)董济,在于練習(xí)。參考上面洲炊,如何鍛煉數(shù)據(jù)分析思維感局。
例如,出門的夜市商鋪暂衡、京東的電商產(chǎn)品框架询微、閱讀資訊軟件。
-
熟悉業(yè)務(wù)
從熟悉的入手培養(yǎng)業(yè)務(wù)sense
-
應(yīng)用三種核心思維
打開(kāi)Xmind思維導(dǎo)圖狂巢,開(kāi)始畫畫撑毛。
-
歸納和整理出指標(biāo)
對(duì)于基本完整的思維導(dǎo)圖,提煉出,復(fù)購(gòu)率藻雌、活躍度和用戶行為等等基本指標(biāo)結(jié)合雌续。
-
畫出框架
PPT,等等其他軟件胯杭。
-
檢查驯杜、應(yīng)用、修正
沒(méi)有框架是完美的做个,在時(shí)間維度上需要檢查鸽心。
-
應(yīng)用和迭代
在工作中應(yīng)用,先從小問(wèn)題開(kāi)始居暖,再把各個(gè)小問(wèn)題組合成大問(wèn)題顽频。
8.如何應(yīng)對(duì)業(yè)務(wù)場(chǎng)景(實(shí)踐測(cè)試)
以科賽數(shù)據(jù)分析平臺(tái)為例子,參考視頻太闺,設(shè)計(jì)了一個(gè)分析體系糯景。
9. 數(shù)據(jù)管理
- 30%數(shù)據(jù)統(tǒng)計(jì),70%數(shù)據(jù)管理
- 數(shù)據(jù)管理省骂,重中之重蟀淮。一直銘記,以后一定會(huì)在數(shù)據(jù)這條路上走的更遠(yuǎn)冀宴。
10.總結(jié)
- 框架灭贷,在某種程度上,是思維之下最高的體現(xiàn)略贮。
- 框架盡量先形成閉環(huán)(樹(shù)形圖為核心)甚疟,再逐點(diǎn)分析突破
- 通過(guò)設(shè)計(jì)框架,運(yùn)用合適的指標(biāo)逃延,形成模型览妖,實(shí)現(xiàn)最終的業(yè)務(wù)目標(biāo)。
第三周:Excel篇
Excel常用于敏捷揽祥,快速讽膏,需要短時(shí)間相應(yīng)的場(chǎng)景下是非常便捷的數(shù)據(jù)處理工具。
相對(duì)于語(yǔ)言類例如python和R等則用于常規(guī)的拄丰,規(guī)律的場(chǎng)景中應(yīng)用府树,便于形成日常規(guī)則統(tǒng)計(jì)分析。
對(duì)于學(xué)習(xí)的路徑:Excel函數(shù)--->SQL函數(shù)------>python
必知必會(huì)內(nèi)容:保證使用版本是2013+料按;培養(yǎng)好的數(shù)據(jù)表格習(xí)慣奄侠;主動(dòng)性的搜索;多練習(xí)
Excel常見(jiàn)函數(shù)
1.文本函數(shù)
- 查找文本位置:find(“字符”载矿,位置)垄潮,常與left()提取所需要的位數(shù)組合使用。
- 文本拼接函數(shù):concatenate
- 文本替換函數(shù):replace
- 刪除字符串中多余的(前后的)空格:trim
- 文本長(zhǎng)度:len()
2.關(guān)聯(lián)匹配函數(shù)
LOOKUP
VLOOKUP
INDEX:相當(dāng)于數(shù)組定位
MATCH:查找數(shù)據(jù)在數(shù)組中的位置
OFFSET:偏移函數(shù)
ROW
COLUMN
HYPERLINK:去掉超鏈接
3.邏輯運(yùn)算函數(shù)
- ture----1 false-----0 判斷是真是假
- 通常配合其他函數(shù)進(jìn)行判斷,相加判斷滿足條件的個(gè)數(shù)
- if函數(shù)
- is系列函數(shù)
4.計(jì)算統(tǒng)計(jì)函數(shù)
- sum
- sumproduct:特殊用法----直接累加對(duì)應(yīng)相乘
- count
- max / min
- rank:查找排名
- rand randbetween
- average
- quartile:分位數(shù)弯洗,第幾分位數(shù)
- stdev
- substotal:功能豐富旅急,號(hào)稱“瑞士軍刀”
- int:向下取整函數(shù)
- round:四舍五入取整函數(shù)(可在小數(shù)點(diǎn)位置取整數(shù))
rand:隨機(jī)數(shù)字,用來(lái)隨機(jī)抽樣使用
多條件就和和多條件計(jì)數(shù)的情況下是非常多的牡整,所以countifs和sumifs用的是非常的多藐吮,基本能搞定所有的統(tǒng)計(jì)報(bào)表,達(dá)到實(shí)時(shí)統(tǒng)計(jì)果正。缺點(diǎn)就是數(shù)據(jù)量達(dá)到一定程度后炎码,Excel運(yùn)行會(huì)比較慢
5.時(shí)間序列
時(shí)間的本質(zhì)是數(shù)字
周函數(shù)中,中國(guó)的習(xí)慣方式參數(shù)常選擇2
常用時(shí)間序列函數(shù)有:
- year
- month
- day
- date
- weekday
- now
- weeknum
- today
6.Excel使用常見(jiàn)技巧
快捷鍵
- ctrl+方向鍵秋泳,光標(biāo)快速移動(dòng)
- ctrl+shift+方向鍵,快速框選
- ctrl+空格鍵攒菠,選定整列
- shift+空格鍵迫皱,選定整行
- ctrl+A 選擇整張表
- alt+enter 換行
功能
- 分裂功能;查找替換辖众;數(shù)據(jù)條(可視化)卓起;數(shù)據(jù)透視表(水晶表);凍結(jié)首行凹炸;
7.Excel常見(jiàn)工具
-
數(shù)據(jù)切片:進(jìn)行快速篩選(一般和多維分析關(guān)聯(lián)在一起的)戏阅,可以和作圖工具進(jìn)行相關(guān)聯(lián)
應(yīng)用場(chǎng)景:做統(tǒng)計(jì)報(bào)表和儀表盤的統(tǒng)計(jì)篩選功能
數(shù)據(jù)分析:直接對(duì)多想進(jìn)行描述性統(tǒng)計(jì)
自定義名稱:再次使用可對(duì)其直接引用
刪除重復(fù)值:
下拉列表:
迷你圖:
8.總結(jié)
? 個(gè)人覺(jué)得主要還是在于實(shí)踐當(dāng)中的靈活運(yùn)用,作為學(xué)習(xí)啤它,掌握有什么樣的函數(shù)用來(lái)做什么就可以了奕筐,工作中遇到的時(shí)候可能忘了怎么拼,但是能直接搜索把函數(shù)找出來(lái)用知道在哪里面找就好变骡。當(dāng)然离赫,記得更多的函數(shù)好處就是能迅速的通過(guò)函數(shù)的用法把函數(shù)靈活的組合去解決問(wèn)題。其實(shí)最重要的也是通過(guò)邏輯關(guān)系把各種函數(shù)進(jìn)行組合去解決問(wèn)題塌碌。
第四周:數(shù)據(jù)可視化
1.有用的圖表
? 對(duì)于數(shù)據(jù)可視化渊胸,大多數(shù)人下意識(shí)是要好看,下意識(shí)的去追求美感台妆,覺(jué)得高大尚翎猛。其實(shí),美麗的圖表應(yīng)該是有用的圖表接剩。
? 數(shù)據(jù)可視化的目的是讓數(shù)據(jù)更高效切厘,讓讀者更高效的進(jìn)行閱讀,而不是自己使用搂漠。好的可視化能突出背后的規(guī)律迂卢,突出重要的因素,最后才是美觀。
? 數(shù)據(jù)可視化的最終目的:數(shù)據(jù)作用的最大化而克。
2.常見(jiàn)的圖表
1.散點(diǎn)圖
核心:展現(xiàn)數(shù)據(jù)之間的規(guī)律
呈現(xiàn)出一定規(guī)律的散點(diǎn)圖可增加趨勢(shì)線靶壮,并通過(guò)選項(xiàng)將規(guī)律用公式表示出來(lái)。
改進(jìn)圖:
- 氣泡圖:散點(diǎn)圖的變種员萍,引入第三個(gè)度量單位作為氣泡的大小
- 單軸散點(diǎn)圖
2.折線圖
3.柱形圖
4.餅形圖
用面積區(qū)分大小腾降,很多情況下肉眼是很難區(qū)分的,上圖為玫瑰圖---餅圖的變種
5.漏斗圖
6.雷達(dá)圖
3.高級(jí)圖表
1.樹(shù)形圖
數(shù)據(jù)量較大碎绎、數(shù)據(jù)類別較多時(shí)螃壤,能更好的體現(xiàn)數(shù)據(jù)分類情況。
2.山钐基圖
繪制流量變動(dòng)最開(kāi)始奸晴,網(wǎng)站的流量,監(jiān)視用戶的行為分析日麸,表示用戶在網(wǎng)站上的行為軌跡寄啼,一對(duì)多或多對(duì)一的關(guān)系
3.熱力圖
數(shù)據(jù)上下波動(dòng)可用折線圖觀察,但是中間的某種關(guān)系展示揭示特殊關(guān)系使用熱力圖則可看出來(lái)代箭。
4.關(guān)系圖
社交墩划,社會(huì)媒體,微博的傳播嗡综,用戶和用戶之間的關(guān)注等
5.箱線圖
揭示數(shù)據(jù)的分布情況
6.標(biāo)靶圖
7.詞云圖
8.地理圖
數(shù)據(jù)和空間的關(guān)系
4.圖表繪制工具與技巧
1.繪制工具
- 初級(jí)---Excel
- 中高級(jí)---編程python乙帮、R和BI工具
2.繪制技巧
1.顏色搭配
color.adobe.com上有多種主流顏色搭配
2.顏色搭配原則
- 把需要聚焦的數(shù)據(jù)進(jìn)行顏色凸顯
- 去掉多余沒(méi)有用的元素
- 橫縱輔助線如果對(duì)肉眼觀察無(wú)幫助則去掉
- 在報(bào)告中,內(nèi)容交給單元格來(lái)解決
- 有設(shè)計(jì)規(guī)范
3.次坐標(biāo)軸的使用极景,使得數(shù)據(jù)能體現(xiàn)更多細(xì)節(jié)察净。
3.杜邦分析法
5.Power BI
1.BI基本功能要素
- 單一圖表沒(méi)有意義,三表成虎戴陡,通過(guò)多表多因素展現(xiàn)分析塞绿。注意設(shè)計(jì)的表格揭示的是現(xiàn)象?還是原因恤批?
- BI中异吻,power BI和Tableau是最著名的BI軟件。其中,Power BI免費(fèi)易用適合新手入門喜庞。
BI中的數(shù)據(jù)鏈接诀浪,最好直接連接數(shù)據(jù)庫(kù)或者CSV文件,盡量不要xls文件延都。
power BI 的功能特點(diǎn):
- 制作的圖表可以進(jìn)行聯(lián)動(dòng)
- 多對(duì)對(duì)的關(guān)系不能進(jìn)行關(guān)聯(lián)
- power BI內(nèi)的函數(shù)使用與Excel的函數(shù)應(yīng)用基本一致雷猪,不建議話太多的精力去學(xué)power BI里面的函數(shù)。
- 建議使用Excel將數(shù)據(jù)進(jìn)行清洗后晰房,再已.csv的形式導(dǎo)入BI內(nèi)進(jìn)行操作求摇。
- power BI可以引入第三方的一些高級(jí)功能(80%都是微軟自己的)來(lái)滿足使用者需求射沟,例如添加更多的圖表形式,詞云圖等等与境。
2.Dashbord
- 布局和設(shè)計(jì)要素:主次分明+貼合場(chǎng)景+指標(biāo)結(jié)構(gòu)
- 建議先自己規(guī)劃好(自己用草稿紙動(dòng)手去畫验夯,思路會(huì)更好的捋順清楚)
1.場(chǎng)景案例
- 考慮是誰(shuí)在使用?
- 用戶的目的是什么摔刁?
- 是希望進(jìn)行監(jiān)控挥转?還是希望分析?
- 用戶怎么使用共屈?
- 怎么改善BI绑谣?很多BI是有監(jiān)控的,看使用人都干什么拗引,使用那些報(bào)表借宵,會(huì)使用后臺(tái)監(jiān)控日志去調(diào)整改善BI的布局
2.指標(biāo)結(jié)構(gòu)案例
Dashbord是一個(gè)不斷迭代的設(shè)計(jì)過(guò)程,需要根據(jù)目的寺擂,不斷進(jìn)化暇务。
第五周:Mysql
這里先放上菜鳥(niǎo)教程的Mysql:http://www.runoob.com/mysql/mysql-tutorial.html
遇到不會(huì)的內(nèi)容,可以再進(jìn)行查找復(fù)習(xí)怔软。
1.數(shù)據(jù)庫(kù)的概念
- Mysql是最流行的關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)
- 數(shù)據(jù)庫(kù)(Database)是按照數(shù)據(jù)結(jié)構(gòu)來(lái)組織、存儲(chǔ)和管理數(shù)據(jù)的倉(cāng)庫(kù)择镇,
- RDBMS即關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(Relational Database Management System)的特點(diǎn):
- 1.數(shù)據(jù)以表格的形式出現(xiàn)
- 2.每行為各種記錄名稱
- 3.每列為記錄名稱所對(duì)應(yīng)的數(shù)據(jù)域
- 4.許多的行和列組成一張表單
- 5.若干的表單組成database
- 數(shù)據(jù)庫(kù)的基本類型:char--文本 int--整數(shù) float--小數(shù) date--日期 timestamp--秒或者毫秒
2.基本語(yǔ)法
- 以下是基本通用的select語(yǔ)法:
SELECT column_name,column_name
FROM table_name
[WHERE Clause]
[LIMIT N][ OFFSET M]
select*form data.表名稱 *挡逼,為通配符,代表全部
limit 20腻豌,限制搜索結(jié)果
order by家坎,排序依據(jù),可以設(shè)置多個(gè)依據(jù)吝梅。
where虱疏,對(duì)搜索結(jié)果進(jìn)行一次過(guò)濾。其中可使用各種邏輯判斷條件苏携。模糊查找“%京%”
-
跨表分析做瞪,需要利用子查詢。join可以用來(lái)跨表整合右冻,join left常用
-
對(duì)于數(shù)據(jù)類型的改變装蓬,可以在select一行進(jìn)行設(shè)置。
3.總結(jié)
- 對(duì)于SQL語(yǔ)法纱扭,可能是個(gè)人記性或者SQL太過(guò)生疏牍帚,2倍速度看過(guò)的視頻,回頭總結(jié)時(shí)語(yǔ)法都忘記了乳蛾。
- 加上其他人的經(jīng)驗(yàn)暗赶,SQL應(yīng)該是需要到實(shí)踐中去記憶與進(jìn)步鄙币。
- https://leetcode.com/ 刷題地址在這里,面試前刷一些蹂随。
第六周:統(tǒng)計(jì)學(xué)
1.描述性統(tǒng)計(jì)學(xué)
- 分類數(shù)據(jù)的描述性統(tǒng)計(jì):?jiǎn)渭冇?jì)數(shù)就可以
- 數(shù)據(jù)描述統(tǒng)計(jì):
- 統(tǒng)計(jì)度量:平均數(shù)--數(shù)據(jù)分布比較均勻的情況下進(jìn)行十嘿,中位數(shù),眾數(shù)糙及,分位數(shù)(4分位详幽、10分位、百分位)
- 圖形:
- 權(quán)重預(yù)估(分位數(shù))
- 數(shù)據(jù)分布(波動(dòng)情況浸锨,標(biāo)準(zhǔn)差唇聘,方差)
- 數(shù)據(jù)標(biāo)準(zhǔn)化:
在實(shí)際用用的時(shí)候,有很多情況量綱不一致(即數(shù)據(jù)單位不一樣)導(dǎo)致差異很大無(wú)法進(jìn)行比較
用數(shù)據(jù)標(biāo)準(zhǔn)化將數(shù)據(jù)進(jìn)行一定范圍的壓縮柱搜,得到的結(jié)果與數(shù)據(jù)業(yè)務(wù)意義無(wú)關(guān)迟郎,純粹是數(shù)據(jù)上的波動(dòng)達(dá)到可進(jìn)行對(duì)比。
xi:數(shù)據(jù)的具體值
u:平均值
σ:標(biāo)準(zhǔn)差
- 標(biāo)準(zhǔn)化之后一般都是在0上下直接按波動(dòng)的數(shù)字聪蘸,就可以反應(yīng)原始數(shù)據(jù)的典型特征進(jìn)行分析宪肖。
- 但是,標(biāo)準(zhǔn)化的辦法還需要根據(jù)實(shí)際數(shù)據(jù)類型確認(rèn)健爬,不同標(biāo)準(zhǔn)化辦法的實(shí)際標(biāo)準(zhǔn)化意義不同控乾。
- 關(guān)于銷量等特征與時(shí)間的關(guān)系,需要從多個(gè)時(shí)間維度去分析才能得到更多結(jié)論娜遵。如蜕衡,周期、月份和年份设拟。
- 切比雪夫定理是一個(gè)經(jīng)驗(yàn)定理慨仿,可以用來(lái)排除大部分異常值。數(shù)據(jù)量越大纳胧,精確度更高镰吆。
2.描述統(tǒng)計(jì)可視化
1.箱線圖:描述一組數(shù)據(jù)的分布情況。
Excel中能直接對(duì)數(shù)據(jù)進(jìn)行作圖跑慕,并且還能添加許多對(duì)比條件万皿。
2.直方圖:數(shù)值數(shù)據(jù)分布的精確圖形表示
- 標(biāo)準(zhǔn)型:分布均勻,出現(xiàn)在大多數(shù)場(chǎng)景下相赁。
- 陡壁型:比較容易出現(xiàn)在收費(fèi)領(lǐng)域
- 鋸齒型:說(shuō)明數(shù)據(jù)不夠穩(wěn)定
- 孤島型:要研究分析孤島產(chǎn)生的原因
- 偏峰型:銷售數(shù)據(jù)一般會(huì)產(chǎn)生偏鋒相寇,一般會(huì)出現(xiàn)長(zhǎng)尾(或左或右)
- 雙峰型:兩者數(shù)據(jù)混合一般會(huì)形成雙峰
直方圖引出另外一個(gè)概念:偏度,統(tǒng)計(jì)數(shù)據(jù)分布偏斜方向和程度的度量
正態(tài)分布:也稱“常態(tài)分布”
以上公式成立是钮科,有標(biāo)準(zhǔn)正態(tài)分布唤衫。
可以用來(lái)進(jìn)行異常值排查,或者假設(shè)的數(shù)據(jù)分布绵脯。
3.概率推斷統(tǒng)計(jì)
統(tǒng)計(jì)推斷(statistical inference)佳励,指根據(jù)帶隨機(jī)性的觀測(cè)數(shù)據(jù)(樣本)以及問(wèn)題的條件和假定(模型)休里,而對(duì)未知事物作出的,以概率形式表述的推斷赃承。
重要概念:貝葉斯定理
在知道結(jié)果A已經(jīng)發(fā)生妙黍,想要推導(dǎo)出各種原因發(fā)生的可能性情況。
貝葉斯分析的思路對(duì)于由證據(jù)的積累來(lái)推測(cè)一個(gè)事物發(fā)生的概率具有重大作用瞧剖, 它告訴我們當(dāng)我們要預(yù)測(cè)一個(gè)事物拭嫁, 我們需要的是首先根據(jù)已有的經(jīng)驗(yàn)和知識(shí)推斷一個(gè)先驗(yàn)概率, 然后在新證據(jù)不斷積累的情況下調(diào)整這個(gè)概率抓于。整個(gè)通過(guò)積累證據(jù)來(lái)得到一個(gè)事件發(fā)生概率的過(guò)程我們稱為貝葉斯分析做粤。
第七周:Python
1.Python基本功能
1.利用Python寫腳本
2.excel可視化有性能瓶頸,需要Python來(lái)實(shí)現(xiàn)捉撮。
3.Python安裝與數(shù)據(jù)分析相關(guān)如下
- Python的數(shù)據(jù)科學(xué)環(huán)境
- Python基礎(chǔ)
- Numpy和Pandas
- 數(shù)據(jù)可視化
- 數(shù)據(jù)分析案例
- 數(shù)據(jù)分析平臺(tái)(輕量級(jí)BI)
2.Numpy和pandas
1.Python groupby
mysql不支持分組排序
2.concat和merge
concat是強(qiáng)行耦合
merge怕品,是有共同名,優(yōu)先表進(jìn)行耦合
3.多重索引4.文本函數(shù)
填充空值巾遭,None需要用np.nan肉康,c語(yǔ)言形式的控制
pd.dropna()去除所有還有空值的行
5.Python pandas apply
6.聚合 apply
7。pandas數(shù)據(jù)透視
7.python連接數(shù)據(jù)庫(kù)
Pandas中讀取數(shù)據(jù)庫(kù):
conn=pymysql.connect(
host='localhost',
user='root',
password='123456',
db='data_kejilie',
port=3306,
charset='utf8'
)
def reader(query,db):
sql=query
engine=create_engine('mysql+pymysql://root:123456@localhost/{0}?charset=utf8').format(db))
df=pd.read_sql(sql,engine)
return df
reader
cur.execute('select * from article_link ')
data=cur.fetchall()
cur.close()
conn.commit()
3.數(shù)據(jù)可視化
可視化課程沒(méi)有進(jìn)行記錄灼舍,詳情可以參照
https://www.kesci.com/apps/home/project/5a6cac37afceb51770d6ee9f
中的可視化代碼展示吼和。
4.案例實(shí)戰(zhàn)分析
https://www.kesci.com/apps/home/project/5aa687afcbc87e3f21332885
利用課程提供的數(shù)據(jù)集,簡(jiǎn)單分析練手了一下骑素。
5.數(shù)據(jù)分析平臺(tái)
本次使用的是Python中的superset庫(kù)纹安,基于web的數(shù)據(jù)分析平臺(tái)。
嚴(yán)重提示:安裝這個(gè)庫(kù)一定要新建一個(gè)虛擬環(huán)境后再進(jìn)行pip安裝砂豌,不然會(huì)使得依賴庫(kù)和Anaconda中的部分庫(kù)沖突,使得原環(huán)境的庫(kù)無(wú)法正常調(diào)用
使用邏輯:
- 先加載數(shù)據(jù)庫(kù)或者數(shù)據(jù)文件
- 寫好sql語(yǔ)法光督,進(jìn)行一定編輯數(shù)據(jù)集阳距。
- 在silces里面對(duì)于數(shù)據(jù)集,進(jìn)行一個(gè)個(gè)圖的繪畫與調(diào)整
- Dashboard里進(jìn)行最后圖表的匯合。
詳情安裝可以參考這篇文章:
http://blog.csdn.net/qq273681448/article/details/75050513
總結(jié)
? 《七周成為數(shù)據(jù)分析師》課程終于學(xué)習(xí)完,整理苟跪、總結(jié)并且回顧了一遍燕侠,寫下這一篇文章。課程整體偏向整體性的介紹嘲玫,對(duì)常用部分才做一個(gè)實(shí)現(xiàn)與技巧的具體講解,整體有輕有重,對(duì)于完成的新手來(lái)說(shuō)還是比較不錯(cuò)的課程進(jìn)行入門了解與基礎(chǔ)學(xué)習(xí)馍管。
? 前兩周的內(nèi)容,個(gè)人認(rèn)為是比較重要的薪韩,數(shù)據(jù)分析的思維在每一周的學(xué)習(xí)中都能有所體現(xiàn)确沸。前面兩周捌锭,我是按照正常速度進(jìn)行觀看,并且做一定筆記罗捎。但是观谦,在到了Excel部分后發(fā)現(xiàn)視頻的節(jié)奏有些慢,自己的耐心也有了一些降低桨菜,后來(lái)自己嘗試將視頻播放速度調(diào)整至兩倍豁状,對(duì)于學(xué)習(xí)的注意力集中起到了不錯(cuò)的效果,推薦各位可以嘗試使用這種方法倒得。
? 《七周成為數(shù)據(jù)分析師》這個(gè)課程從寒假2月份就決定要學(xué)泻红,計(jì)劃3月5號(hào)即開(kāi)學(xué)前完成,但是直到3-11開(kāi)學(xué)后一周才徹底完成屎暇。對(duì)于計(jì)劃的執(zhí)行情況不好承桥,需要在以后學(xué)習(xí)中繼續(xù)調(diào)整規(guī)劃策略,端正態(tài)度根悼。但是凶异,最后還是把規(guī)劃完成了!還是給自己點(diǎn)個(gè)贊挤巡,哈哈剩彬。
? 寫成總結(jié)文章也是希望有需要的人能通過(guò)此得到些幫助,自己也能從中總結(jié)與整理知識(shí)矿卑。本文會(huì)發(fā)布在個(gè)人公眾號(hào):數(shù)據(jù)路(shuju_lu)喉恋,知乎:無(wú)小意丶,博客:無(wú)小意母廷。以后也會(huì)繼續(xù)在這些平臺(tái)上轻黑,輸出更多有價(jià)值的內(nèi)容,歡迎討論與學(xué)習(xí)琴昆。