【面經(jīng)】數(shù)據(jù)分析崗_面試題整理總結(jié)
必問問題
訂單/流量波動(dòng)(【業(yè)務(wù)理解(指標(biāo)定義施无,如DAU怎么才是活躍)-指標(biāo)口徑(渠道)-數(shù)據(jù)產(chǎn)出鏈路(哪份日志、哪些過濾清洗得來的)】喧笔;是否存在惡意的刷流量)福贞、三個(gè)常用的app、商業(yè)模式(之前產(chǎn)品的cpc和cpm)
1捆憎、訂單/流量波動(dòng)(【業(yè)務(wù)理解(指標(biāo)定義,如DAU怎么才是活躍)-指標(biāo)口徑(渠道)-數(shù)據(jù)產(chǎn)出鏈路(哪份日志梭纹、哪些過濾清洗得來的)】躲惰;是否存在惡意的刷流量)
1、判斷是正常变抽?異常础拨?:數(shù)據(jù)產(chǎn)生鏈路氮块、拉長(zhǎng)時(shí)間軸;2诡宗、最大概率法則歸因:假期滔蝉、熱點(diǎn)、雙11塔沃、政策蝠引;3、形成閉環(huán):持續(xù)跟蹤蛀柴、文檔化!!!螃概、郵件化。
2鸽疾、常用app:
網(wǎng)易云音樂(喜歡每日推薦吊洼,吐槽沒有聽歌識(shí)曲和語音輸入,以及下面的熱門搜索跟我的畫像不匹配)肮韧、知乎融蹂。
如何解決吐槽點(diǎn)?先看熱門搜索的點(diǎn)擊量弄企,如果較低的話說明雖然位置有曝光但沒人點(diǎn)擊超燃、確實(shí)有問題。
怎樣評(píng)估這樣做帶來指標(biāo)的提升拘领?先小流量(灰度-5%)AB測(cè)試意乓,然后慢慢放量,如果效果還不錯(cuò)就全量约素。
3届良、工具類產(chǎn)品如何商業(yè)化:墨跡天氣(首頁的天氣button是主流量入口、下拉出現(xiàn)咨訊圣猎、里面有較多的廣告app下載鏈接士葫,這是一個(gè)app帶量商業(yè)化;時(shí)景button有景點(diǎn)送悔、住宿app下載推薦慢显,這是一個(gè)自身app高相關(guān)的商業(yè)化推薦;Me這個(gè)button欠啤,分生活荚藻、娛樂、休閑和游戲四大板塊)洁段。
方法論:AB測(cè)試(正交性)应狱、最大概率法則、幸存者偏差(當(dāng)取得資訊的渠道祠丝,僅來自于幸存者時(shí)(因?yàn)樗廊瞬粫?huì)說話)疾呻,此資訊可能會(huì)存在與實(shí)際情況不同的偏差除嘹。用 對(duì)照試驗(yàn) 和 貝葉斯公式 來消除幸存者偏差;拋掉對(duì)個(gè)案的迷信罐韩,全面系統(tǒng)的了解才能克服這個(gè)偏差)憾赁、相關(guān)性分析(子產(chǎn)品對(duì)大盤的貢獻(xiàn)度或影響度——>相關(guān)性,并可以進(jìn)一步作回歸分析)等散吵。
二、四大行業(yè)數(shù)據(jù)分析
電商
電商零售的北極星指標(biāo):交易額(北極星指標(biāo))蟆肆、首頁分發(fā)效率矾睦、核心轉(zhuǎn)化率/漏斗分析、新用戶獲取的場(chǎng)景分析炎功;
-
首頁分發(fā)效率:CTR【CTR = 點(diǎn)擊UV / 曝光UV】和人均訪問(點(diǎn)擊)頁面數(shù)【=總方位頁面數(shù) PV / 總訪問UV】枚冗;發(fā)布新版本更需要關(guān)注上述兩個(gè)指標(biāo)。
首頁分發(fā)效率
互聯(lián)網(wǎng)金融(數(shù)據(jù)建模師)
模型的離線效果(實(shí)際工作蛇损,還是壞賬率這個(gè)指標(biāo)最重要)
游戲行業(yè)
-
流失分析:滲透率都是針對(duì)具體的功能模塊赁温。流失定義
- 商業(yè)分析(變現(xiàn)):看中收入 + 體驗(yàn)游戲
傳統(tǒng)銷售行業(yè)
核心指標(biāo):銷售額完成率。
三淤齐、具體方法論
1股囊、指標(biāo)體系搭建方法論:
日功能滲透率=該功能的日點(diǎn)擊人數(shù) / 日活
功能滲透率=功能滲透率 / 大盤用戶數(shù)。
核心指標(biāo)(日活 VS 有效用戶量:打開后幾秒算活躍)
2更啄、流量分析方法論(渠道稚疹、轉(zhuǎn)化、價(jià)值祭务、波動(dòng))
前期看有效用戶數(shù)(排除刷量柳沙,即除了看量級(jí),還要看主動(dòng)行為的用戶)拌倍、次留赂鲤;中期看次日、7日贰拿、30日留存蛤袒;后期看ROI
數(shù)有沒有錯(cuò)(數(shù)據(jù)采集與統(tǒng)計(jì)口徑)珍德;用戶行為练般、內(nèi)容與功能/產(chǎn)品;
3锈候、路徑分析(漏斗分析不能滿足實(shí)際需求)方法論
4薄料、產(chǎn)品分析(競(jìng)品分析)方法論
畫像
產(chǎn)品:生孩子;運(yùn)營(yíng)(用戶運(yùn)營(yíng):提新增泵琳、拉留存摄职、降流失;用戶運(yùn)營(yíng)需要內(nèi)容運(yùn)營(yíng)和活動(dòng)運(yùn)營(yíng)來支撐):養(yǎng)孩子获列;數(shù)據(jù)分析:持續(xù)觀察孩子的指標(biāo)谷市。
5、營(yíng)銷活動(dòng)(拉新击孩、促活迫悠、帶?巩梢?)分析方法論
數(shù)據(jù)分析師主導(dǎo)埋點(diǎn)(含字段名创泄、埋點(diǎn)位置、上報(bào)方式)
建議指標(biāo):新增括蝠、首次鞠抑、低活(結(jié)合業(yè)務(wù)來定義)帶動(dòng);并關(guān)注上述用戶的后續(xù)留存又跛。
6碍拆、用戶流失分析(增長(zhǎng)分析)方法論——摩拜和滴滴的案例(漏斗思維分析獲客和激活;留存與活躍)
增長(zhǎng)黑客AARRR轉(zhuǎn)化漏斗(建立產(chǎn)品壁壘):
- 拉新角度(流量思維慨蓝、渠道思維感混;燒錢、野蠻增長(zhǎng)的時(shí)代):AARRR轉(zhuǎn)化漏斗
- 留存角度(產(chǎn)品 / 用戶思維:做好產(chǎn)品與運(yùn)營(yíng)服務(wù)):留存——變現(xiàn)——推薦——拉新——激活礼烈。
- ROI思維(未來資本越來越理性):變現(xiàn)——推薦——拉新——激活——留存弧满。
分析師的任務(wù):做規(guī)模和帶收入(獨(dú)立思考,跳出現(xiàn)有模型)此熬、多研究用戶數(shù)據(jù)庭呜。
常用的用戶增長(zhǎng)方法:魔法數(shù)字;優(yōu)化渠道結(jié)構(gòu)犀忱、提升新增用戶留存募谎;流失用戶召回。
實(shí)際很好的2個(gè)增長(zhǎng)思維:北極星指標(biāo):MAU=新增+老=本月新增+上月新增留存+上月老用戶留存+上月老用戶回流阴汇;AB測(cè)試数冬。
四、專題分析標(biāo)準(zhǔn)化流程
思維(建立邏輯樹)搀庶、技術(shù)拐纱、時(shí)間管理铜异、ppt、演講能力秸架。
問題定義與拆解:用戶下跌原因的邏輯樹拆解
分析角度
結(jié)構(gòu)分析(各渠道)揍庄、對(duì)比分析(含AB測(cè)試)、時(shí)間序列分析(二次拆解找波動(dòng)項(xiàng))东抹、相關(guān)性分析蚂子、機(jī)器學(xué)習(xí)。實(shí)際上所有的分析都是基于用戶的基礎(chǔ)屬性和行為屬性缭黔。
真實(shí)專題報(bào)告撰寫
PPT要有數(shù)據(jù)結(jié)論寞蚌,結(jié)論是基于業(yè)務(wù)方給出的落地項(xiàng)田巴,落地項(xiàng)要非常具體(含時(shí)間、人和語氣效果)挟秤∫疾福——基于XX數(shù)據(jù),發(fā)現(xiàn)XX結(jié)論艘刚,基于這個(gè)結(jié)論的建議是XX管宵,基于這個(gè)建議的產(chǎn)品落地項(xiàng)是XX。
五攀甚、數(shù)據(jù)分析師的個(gè)人素養(yǎng)
行業(yè)分析
界定范圍(產(chǎn)業(yè)鏈圖譜箩朴,在全局視野下找切入點(diǎn))、市場(chǎng)規(guī)模(交易額GMV描述秋度、用戶數(shù)描述)炸庞、社會(huì)熱點(diǎn)事件、頭部玩家(產(chǎn)品分析荚斯、用戶分析)埠居、未來預(yù)測(cè)。
數(shù)據(jù)倉庫
- 埋點(diǎn)(主動(dòng)性+文檔化):APP日志采集中的埋點(diǎn)事期,前期建立埋點(diǎn)規(guī)范滥壕,后期不投入太多時(shí)間、但要文檔化兽泣;數(shù)據(jù)分析師主導(dǎo)埋點(diǎn)(含字段名绎橘、埋點(diǎn)位置、上報(bào)方式)撞叨。
-
建模:建模步驟頭條的ODS層數(shù)據(jù)(即日志)頭條的DWS層數(shù)據(jù)頭條的DM層數(shù)據(jù)
-
數(shù)據(jù)管理
計(jì)算管理金踪;存儲(chǔ)管理浊洞;權(quán)限管理。
計(jì)算管理胡岔;存儲(chǔ)管理法希;權(quán)限管理
用戶研究(快輸出——2周內(nèi);線上 / 線下調(diào)研)
橫坐標(biāo)是態(tài)度和行為靶瘸、縱坐標(biāo)是定量與定性(定性研究側(cè)重用戶分類苫亦、定量研究側(cè)重樣本量和代表性)來劃分四象限。
時(shí)間管理
略
非常好的博客:Spring數(shù)據(jù)分析思維課
【數(shù)據(jù)分析師八大能力】
分析思維 第二篇:數(shù)據(jù)指標(biāo)體系
[轉(zhuǎn)帖]AARRR已是過去式怨咪,而RARRA才是更好的增長(zhǎng)黑客模型
【互聯(lián)網(wǎng)產(chǎn)品經(jīng)理入門】
A/B測(cè)試與假設(shè)檢驗(yàn)
分流模型:通常網(wǎng)站會(huì)利用分域屋剑、分層(將流量復(fù)用)、分桶(圈定用戶群:保證用戶的完全隨機(jī)且互斥)的機(jī)制保證流量高可用以及分流的靈活性和科學(xué)性诗眨。
- 分桶(圈定用戶群:保證用戶的完全隨機(jī)且互斥):
做實(shí)驗(yàn)很重要的一點(diǎn)就是圈定用戶群匠楚,要圈定兩組完全隨機(jī)且互斥的用戶巍膘,一組分配給A,一組分配給B 芋簿,比較初期的一種做法是根據(jù)用戶唯一tag(一般使用userid峡懈、deviceid,cookie等)對(duì)1000取模分成1000個(gè)桶,然后選擇不同的桶分配給A和B与斤。
流量是有限的肪康,實(shí)驗(yàn)數(shù)量可以無限的,如果我們選用了60%的流量做了實(shí)驗(yàn)一撩穿,那只剩下40%的流量做實(shí)驗(yàn)二磷支,那實(shí)驗(yàn)三怎么辦呢? - 分層(將流量復(fù)用):
分層是為了將流量復(fù)用冗锁,即一個(gè)用戶可以處在多個(gè)不同的層上齐唆,不同的層的流量完全打散,互不影響冻河。具體來說箍邮,在上一層001桶的所有流量,理論上應(yīng)該均勻地隨機(jī)地分布在下一層的1000個(gè)桶中叨叙。常用做法是通過頁面來分層锭弊。
所以在實(shí)驗(yàn)設(shè)計(jì)時(shí):一般將不同頁面的多個(gè)功能實(shí)驗(yàn)(一般互無影響),放在不同的層上擂错;
而將同一頁面的多個(gè)功能實(shí)驗(yàn)(一般互有影響)味滞,放在同一層上的不同實(shí)驗(yàn);從而保持兩個(gè)實(shí)驗(yàn)的流量完全獨(dú)立;通過可重疊的分層分桶方法剑鞍,一份流量可通過N層可以同時(shí)參與N個(gè)實(shí)驗(yàn)昨凡,而且實(shí)驗(yàn)之間互不干擾,顯著提升流量利用率蚁署。
通常在做實(shí)驗(yàn)時(shí)我們會(huì)考慮一些先決條件便脊,例如我只針對(duì)上海地區(qū)的用戶做實(shí)驗(yàn)?此時(shí)該怎么控制呢光戈? - 分域:
在正常的實(shí)驗(yàn)過程中哪痰,我們一般會(huì)從總體流量中按照一定的維度去劃分一個(gè)個(gè)流量區(qū)域,來做實(shí)驗(yàn)久妆,比如一部分實(shí)驗(yàn)針對(duì)北京用戶晌杰,一部分針對(duì)上海用戶。如此筷弦,就引出了另外一個(gè)概念肋演,“域”。這里劃分出的流量池就是一個(gè)域烂琴,在這個(gè)域里還可以進(jìn)行分層實(shí)驗(yàn)惋啃,不同域之間流量隔離,所有的流量域加起來共享100%流量监右。
抽樣:應(yīng)該保證同時(shí)性(分流應(yīng)該是同時(shí)的,測(cè)試的進(jìn)行也應(yīng)該是同時(shí)的)异希、同質(zhì)性(設(shè)備特征健盒、用戶屬性、用戶行為称簿、用戶付費(fèi)特征(消費(fèi)習(xí)慣及貢獻(xiàn)度))扣癣、唯一性(要求用戶不被重復(fù)計(jì)入測(cè)試)、均勻性憨降。
如何判斷是不是真的同質(zhì)父虑?可以采用AAB測(cè)試。抽出兩份流量進(jìn)行A版本的測(cè)試授药,進(jìn)行AA測(cè)試士嚎,并分別與B版本進(jìn)行AB測(cè)試。通過考察A1和A2組是否存在顯著性差異悔叽,就可以確定試驗(yàn)的分流是否同質(zhì)了莱衩。
確定檢驗(yàn)類型:在判斷用什么檢驗(yàn)的時(shí)候,首要考慮的條件是樣本量(檢驗(yàn)類型:小于30即T檢驗(yàn))娇澎,其次是總體服從的分布(抽樣分布類型:是否正態(tài)分布)笨蚁。
樣本容量大時(shí)(統(tǒng)計(jì)學(xué)上一般認(rèn)為 n≥30),總體的均值和標(biāo)準(zhǔn)差未知,不要求總體近似服從正態(tài)分布括细。根據(jù)中心極限定理伪很,樣本容量大,則樣本均值的抽樣分布服從正態(tài)分布奋单,總體標(biāo)準(zhǔn)差可以用樣本標(biāo)準(zhǔn)差來估計(jì)锉试,可用Z檢驗(yàn);
當(dāng)樣本容量小于30辱匿,且滿足總體近似服從正態(tài)分布時(shí)键痛,如果總體標(biāo)準(zhǔn)差已知,可用Z檢驗(yàn)匾七;
當(dāng)樣本容量小于30絮短,且滿足總體近似服從正態(tài)分布時(shí),如果總體標(biāo)準(zhǔn)差未知昨忆,可以用樣本標(biāo)準(zhǔn)差去估計(jì)總體標(biāo)準(zhǔn)差丁频,由此可用T檢驗(yàn);
當(dāng)樣本容量小于30邑贴,且不滿足總體近似服從正態(tài)分布席里,不能用Z檢驗(yàn)和T檢驗(yàn)。
改進(jìn)版:若總體標(biāo)準(zhǔn)差已知(無論樣本大新<荨)都用Z檢驗(yàn)奖磁;若總體標(biāo)準(zhǔn)差未知,都用T檢驗(yàn)繁疤。不過當(dāng)樣本量夠大的時(shí)候咖为,T分布也近似于Z分布了,所以最后的結(jié)果不會(huì)差很多稠腊。T分布其實(shí)是小樣本的Z分布躁染。一個(gè)樣本的自由度越大,樣本方差就越接近總體方差架忌,T分布也就越接近Z分布吞彤。因此T分布的形狀隨自由度的變化而變化,自由度越大叹放,越接近正態(tài)分布
T檢驗(yàn)的類型
①單樣本的T檢驗(yàn):
檢驗(yàn)單個(gè)樣本的平均值是否等于目標(biāo)值饰恕。例如:某大學(xué)的學(xué)生平均身高是否大于全國平均身高167cm;
②配對(duì)樣本均數(shù)T檢驗(yàn):
檢驗(yàn)相關(guān)或配對(duì)觀測(cè)之差的平均值是否等于目標(biāo)值井仰。例如:為了檢測(cè)減肥藥是否起作用懂盐,隨機(jī)抽樣出20名測(cè)試對(duì)象,記錄每個(gè)人服藥前和服藥后的體重糕档。(同一組樣本莉恼。問題:有殘留效應(yīng))拌喉;
③兩獨(dú)立樣本均數(shù)T檢驗(yàn):
檢驗(yàn)兩個(gè)獨(dú)立樣本的平均值之差是否等于目標(biāo)值。檢驗(yàn)闖關(guān)游戲教學(xué)方法是否有效俐银,分別在兩組學(xué)生上進(jìn)行效果測(cè)試尿背。
指標(biāo)選定
- 轉(zhuǎn)化率檢驗(yàn)(卡方檢驗(yàn)) eg:展現(xiàn)點(diǎn)擊轉(zhuǎn)化率,留存……
- 均值檢驗(yàn)(T檢驗(yàn)) eg:人均使用時(shí)長(zhǎng)……
實(shí)驗(yàn)周期
一般兩周捶惜。前3天在實(shí)驗(yàn)階段田藐,參考價(jià)值不大(不過能看出實(shí)驗(yàn)是否有問題);4-10天數(shù)據(jù)相對(duì)穩(wěn)定吱七,可作為測(cè)試結(jié)論汽久。
結(jié)果比較
最后根據(jù)假設(shè)檢驗(yàn)的結(jié)果,判斷哪些版本較之原版有統(tǒng)計(jì)意義上的差異踊餐,并根據(jù)效應(yīng)量選出其中表現(xiàn)最好的版本景醇。
測(cè)試存檔(復(fù)盤)
指標(biāo)體系與統(tǒng)計(jì)口徑
AB測(cè)試-假設(shè)檢驗(yàn)的示例
案例1:今日頭條app界面的廣告位,放在第四位比較好吝岭。
項(xiàng)目簡(jiǎn)介:案例數(shù)據(jù)是對(duì)web新舊頁面的A/B測(cè)試結(jié)果三痰,目標(biāo)是判斷新舊兩版頁面在用戶的轉(zhuǎn)化情況上是否有顯著區(qū)別。
數(shù)據(jù)描述與來源:數(shù)據(jù)來自Udacity的示例案例窜管,數(shù)據(jù)共計(jì)近30萬條散劫,可能有意制造了一些臟數(shù)據(jù)。數(shù)據(jù)集含5個(gè)字段:用戶的 user_id幕帆、時(shí)間戳 timestamp获搏、分組 group(實(shí)驗(yàn)組or對(duì)照組)、展示的頁面版本landing_page(新版or舊版)失乾、該用戶是否轉(zhuǎn)化 converted(0-未轉(zhuǎn)化 or 1-轉(zhuǎn)化)颜凯。
假設(shè)檢驗(yàn)(A/B測(cè)試)
AB test的一些了解
【數(shù)據(jù)分析專題】-常見框架(模型)
案例1之異常值:抖音新用戶留存整體分析
競(jìng)品分析、營(yíng)銷活動(dòng)分析仗扬、用戶流失分析