偏統(tǒng)計理論知識
1. 撲克牌54張,平均分成2份,求這2份都有2張A的概率。
- M表示兩個牌堆各有2個A的情況:M=4(25!25!)
N表示兩個牌堆完全隨機(jī)的情況:N=27!27!
所以概率為:M/N = 926/53*17
2.男生點(diǎn)擊率增加,女生點(diǎn)擊率增加搪哪,總體為何減少?
- 因為男女的點(diǎn)擊率可能有較大差異,同時低點(diǎn)擊率群體的占比增大坪圾。
如原來男性20人晓折,點(diǎn)擊1人;女性100人兽泄,點(diǎn)擊99人漓概,總點(diǎn)擊率100/120。
現(xiàn)在男性100人病梢,點(diǎn)擊6人胃珍;女性20人,點(diǎn)擊20人蜓陌,總點(diǎn)擊率26/120觅彰。
即那個段子“A系中智商最低的人去讀B,同時提高了A系和B系的平均智商护奈〉蘖”
3. 參數(shù)估計
用樣本統(tǒng)計量去估計總體的參數(shù)哥纫。
可參考https://blog.csdn.net/liuyuemaicha/article/details/52497512
4. 假設(shè)檢驗
參數(shù)估計和假設(shè)檢驗是統(tǒng)計推斷的兩個組成部分霉旗,它們都是利用樣本對總體進(jìn)行某種推斷,但推斷的角度不同蛀骇。
參數(shù)估計討論的是用樣本估計總體參數(shù)的方法厌秒,總體參數(shù)μ在估計前是未知的。
而在假設(shè)檢驗中擅憔,則是先對μ的值提出一個假設(shè)鸵闪,然后利用樣本信息去檢驗這個假設(shè)是否成立。
可參考https://www.zhihu.com/question/23149768/answer/282842210
5. 置信度暑诸、置信區(qū)間
置信區(qū)間是我們所計算出的變量存在的范圍蚌讼,之心水平就是我們對于這個數(shù)值存在于我們計算出的這個范圍的可信程度辟灰。
舉例來講,有95%的把握篡石,真正的數(shù)值在我們所計算的范圍里芥喇。
在這里,95%是置信水平凰萨,而計算出的范圍继控,就是置信區(qū)間。
如果置信度為95%胖眷, 則抽取100個樣本來估計總體的均值武通,由100個樣本所構(gòu)造的100個區(qū)間中,約有95個區(qū)間包含總體均值珊搀。
可參考http://www.360doc.com/content/18/0317/16/15033922_737796626.shtml
6. 協(xié)方差與相關(guān)系數(shù)的區(qū)別和聯(lián)系冶忱。
協(xié)方差:
協(xié)方差表示的是兩個變量的總體的誤差,這與只表示一個變量誤差的方差不同食棕。 如果兩個變量的變化趨勢一致朗和,也就是說如果其中一個大于自身的期望值,另外一個也大于自身的期望值簿晓,那么兩個變量之間的協(xié)方差就是正值眶拉。 如果兩個變量的變化趨勢相反,即其中一個大于自身的期望值憔儿,另外一個卻小于自身的期望值忆植,那么兩個變量之間的協(xié)方差就是負(fù)值。
相關(guān)系數(shù):
研究變量之間線性相關(guān)程度的量谒臼,取值范圍是[-1,1]朝刊。相關(guān)系數(shù)也可以看成協(xié)方差:一種剔除了兩個變量量綱影響、標(biāo)準(zhǔn)化后的特殊協(xié)方差蜈缤。
可參考http://blog.sina.com.cn/s/blog_6aa3b1010102xkp5.html
7. 中心極限定理
- 中心極限定理定義:
(1)任何一個樣本的平均值將會約等于其所在總體的平均值拾氓。
(2)不管總體是什么分布,任意一個總體的樣本平均值都會圍繞在總體的平均值周圍底哥,并且呈正態(tài)分布咙鞍。 - 中心極限定理作用:
(1)在沒有辦法得到總體全部數(shù)據(jù)的情況下,我們可以用樣本來估計總體趾徽。
(2)根據(jù)總體的平均值和標(biāo)準(zhǔn)差续滋,判斷某個樣本是否屬于總體。
可參考https://www.zhihu.com/question/22913867/answer/250046834
8. p值的含義孵奶。
- 基本原理只有3個: 1疲酌、一個命題只能證偽,不能證明為真 2、在一次觀測中朗恳,小概率事件不可能發(fā)生 3湿颅、在一次觀測中,如果小概率事件發(fā)生了粥诫,那就是假設(shè)命題為假
- 證明邏輯就是:我要證明命題為真->證明該命題的否命題為假->在否命題的假設(shè)下肖爵,觀察到小概率事件發(fā)生了->否命題被推翻->原命題為真->搞定。
結(jié)合這個例子來看:證明A是合格的投手-》證明“A不是合格投手”的命題為假-》觀察到一個事件(比如A連續(xù)10次投中10環(huán))臀脏,而這個事件在“A不是合格投手”的假設(shè)下劝堪,概率為p,小于0.05->小概率事件發(fā)生揉稚,否命題被推翻秒啦。
可以看到p越小-》這個事件越是小概率事件-》否命題越可能被推翻-》原命題越可信
--
作者:吉米多維奇
鏈接:https://www.zhihu.com/question/23149768/answer/31704861
9.時間序列分析
是同一現(xiàn)象在不同時間上的相繼觀察值排列而成的序列。
9.怎么向小孩子解釋正態(tài)分布
(隨口追問了一句小孩子的智力水平搀玖,面試官說七八歲余境,能數(shù)數(shù))
- 拿出小朋友班級的成績表,每隔2分統(tǒng)計一下人數(shù)(因為小學(xué)一年級大家成績很接近)灌诅,畫出鐘形芳来。然后說這就是正態(tài)分布,大多數(shù)的人都集中在中間猜拾,只有少數(shù)特別好和不夠好
- 拿出隔壁班的成績表即舌,讓小朋友自己畫畫看,發(fā)現(xiàn)也是這樣的現(xiàn)象
- 然后拿出班級的身高表挎袜,發(fā)現(xiàn)也是這個樣子的
- 大部分人之間是沒有太大差別的顽聂,只有少數(shù)人特別好和不夠好,這是生活里普遍看到的現(xiàn)象盯仪,這就是正態(tài)分布
10. 下面對于“預(yù)測變量間可能存在較嚴(yán)重的多重共線性”的論述中錯誤的是紊搪?
A. 回歸系數(shù)的符號與專家經(jīng)驗知識不符(對)
B. 方差膨脹因子(VIF)<5(錯,大于10認(rèn)為有嚴(yán)重多重共線性)
C. 其中兩個預(yù)測變量的相關(guān)系數(shù)>=0.85(對)
D. 變量重要性與專家經(jīng)驗嚴(yán)重違背(對)
11. PCA為什么要中心化全景?PCA的主成分是什么耀石?
因為要算協(xié)方差。
單純的線性變換只是產(chǎn)生了倍數(shù)縮放爸黄,無法消除量綱對協(xié)方差的影響滞伟,而協(xié)方差是為了讓投影后方差最大。在統(tǒng)計學(xué)中馆纳,主成分分析(PCA)是一種簡化數(shù)據(jù)集的技術(shù)诗良。它是一個線性變換汹桦。這個變換把數(shù)據(jù)變換到一個新的坐標(biāo)系統(tǒng)中鲁驶,使得任何數(shù)據(jù)投影的第一大方差在第一個坐標(biāo)(稱為第一主成分)上,第二大方差在第二個坐標(biāo)(第二主成分)上舞骆,依次類推钥弯。主成分分析經(jīng)常用減少數(shù)據(jù)集的維數(shù)径荔,同時保持?jǐn)?shù)據(jù)集的對方差貢獻(xiàn)最大的特征。這是通過保留低階主成分脆霎,忽略高階主成分做到的总处。這樣低階成分往往能夠保留住數(shù)據(jù)的最重要方面。但是睛蛛,這也不是一定的鹦马,要視具體應(yīng)用而定。
主成分分析的原理是設(shè)法將原來變量重新組合成一組新的相互無關(guān)的幾個綜合變量忆肾,同時根據(jù)實際需要從中可以取出幾個較少的綜合變量盡可能多地反映原來變量的信息的統(tǒng)計方法叫做主成分分析或稱主分量分析荸频,也是數(shù)學(xué)上處理降維的一種方法。主成分分析是設(shè)法將原來眾多具有一定相關(guān)性(比如P個指標(biāo))客冈,重新組合成一組新的互相無關(guān)的綜合指標(biāo)來代替原來的指標(biāo)旭从。通常數(shù)學(xué)上的處理就是將原來P個指標(biāo)作線性組合,作為新的綜合指標(biāo)场仲。最經(jīng)典的做法就是用F1(選取的第一個線性組合和悦,即第一個綜合指標(biāo))的方差來表達(dá),即Va(rF1)越大渠缕,表示F1包含的信息越多鸽素。因此在所有的線性組合中選取的F1應(yīng)該是方差最大的,故稱F1為第一主成分亦鳞。如果第一主成分不足以代表原來P個指標(biāo)的信息付鹿,再考慮選取F2即選第二個線性組合,為了有效地反映原來信息蚜迅,F(xiàn)1已有的信息就不需要再出現(xiàn)再F2中舵匾,用數(shù)學(xué)語言表達(dá)就是要求Cov(F1,F2)=0,則稱F2為第二主成分谁不,依此類推可以構(gòu)造出第三坐梯、第四,……刹帕,第P個主成分吵血。
15. 極大似然估計
利用已知的樣本結(jié)果,反推最有可能(最大概率)導(dǎo)致這樣結(jié)果的參數(shù)值偷溺。
參考https://blog.csdn.net/zengxiantao1994/article/details/72787849
偏業(yè)務(wù)思維邏輯
1. 不用任何公開參考資料蹋辅,估算今年新生兒出生數(shù)量。
- 采用兩層模型(人群畫像x人群轉(zhuǎn)化):新生兒出生數(shù)=Σ各年齡層育齡女性數(shù)量*各年齡層生育比率
(一般面試中采用這種方法挫掏,即費(fèi)米估計問題侦另,可以參考《這也能想到?——巧妙解答無厘頭問題》)
- 從數(shù)字到數(shù)字:如果有前幾年新生兒出生數(shù)量數(shù)據(jù),建立時間序列模型(需要考慮到二胎放開的突變事件)進(jìn)行預(yù)測
- 找先兆指標(biāo),如嬰兒類用品的新增活躍用戶數(shù)量X表示新生兒家庭用戶褒傅。Xn/新生兒n為該年新生兒家庭用戶的轉(zhuǎn)化率弃锐,如X2007/新生兒2007為2007年新生兒家庭用戶的轉(zhuǎn)化率。該轉(zhuǎn)化率會隨平臺發(fā)展而發(fā)展殿托,可以根據(jù)往年數(shù)量推出今年的大致轉(zhuǎn)化率霹菊,并根據(jù)今年新增新生兒家庭用戶數(shù)量推出今年估計的新生兒數(shù)量。
2. 如果次日用戶留存率下降了 5%該怎么分析支竹?
- 首先采用“兩層模型”分析:對用戶進(jìn)行細(xì)分旋廷,包括新老、渠道礼搁、活動柳洋、畫像等多個維度,然后分別計算每個維度下不同用戶的次日留存率叹坦。通過這種方法定位到導(dǎo)致留存率下降的用戶群體是誰熊镣。
- 對于目標(biāo)群體次日留存下降問題,具體情況具體分析募书。具體分析可以采用“內(nèi)部-外部”因素考慮绪囱。
a. 內(nèi)部因素分為獲客(渠道質(zhì)量低、活動獲取非目標(biāo)用戶)莹捡、滿足需求(新功能改動引發(fā)某類用戶不滿)鬼吵、提活手段(簽到等提活手段沒達(dá)成目標(biāo)、產(chǎn)品自然使用周期低導(dǎo)致上次獲得的大量用戶短期內(nèi)不需要再使用等)篮赢;
b. 外部因素采用PEST分析(宏觀經(jīng)濟(jì)環(huán)境分析)齿椅,政治(政策影響)、經(jīng)濟(jì)(短期內(nèi)主要是競爭環(huán)境启泣,如對競爭對手的活動)涣脚、社會(輿論壓力、用戶生活方式變化寥茫、消費(fèi)心理變化遣蚀、價值觀變化等偏好變化)、技術(shù)(創(chuàng)新解決方案的出現(xiàn)纱耻、分銷渠道變化等)芭梯。
3. 賣玉米如何提高收益?價格提高多少才能獲取最大收益弄喘?
- 收益 = 單價*銷售量玖喘,那么我們的策略是提高單位溢價或者提高銷售規(guī)模。
- 提高單位溢價的方法:
(1)品牌打造獲得長期溢價蘑志,但缺陷是需要大量前期營銷投入累奈;
(2)加工商品占據(jù)價值鏈更多環(huán)節(jié)贬派,如熟玉米、玉米汁费尽、玉米蛋白粉;重定位商品羊始,如禮品化等旱幼;
(3)價格歧視,根據(jù)價格敏感度對不同用戶采用不同定價突委。 - 銷售量=流量x轉(zhuǎn)化率柏卤,上述提高單位溢價的方法可能對流量產(chǎn)生影響,也可能對轉(zhuǎn)化率產(chǎn)生影響匀油。
- 提高單位溢價的方法:
- 收益 = 單價x流量x轉(zhuǎn)化率缘缚,短期內(nèi)能規(guī)模化采用的應(yīng)該是進(jìn)行價格歧視敌蚜,如不同時間桥滨、不同商圈的玉米價格不同,采取高定價弛车,然后對價格敏感的用戶提供優(yōu)惠券等齐媒。
4. 類比到頭條的收益,頭條放多少廣告可以獲得最大收益纷跛,不需要真的計算喻括,只要有個思路就行。
- 收益 = 出價x流量x點(diǎn)擊率x有效轉(zhuǎn)化率贫奠,放廣告的數(shù)量會提高流量唬血,但會降低匹配程度,因此降低點(diǎn)擊率唤崭。最大收益是找到這個乘積的最大值拷恨,是一個有約束條件的最優(yōu)化問題。
同時參考價格歧視方案谢肾,可以對不同的用戶投放不同數(shù)量的廣告挑随。
5.APP激活量的來源渠道很多,怎樣對來源渠道變化大的進(jìn)行預(yù)警勒叠?
- 如果渠道使用時間較長兜挨,認(rèn)為渠道的app激活量滿足一個分布,比較可能是正態(tài)分布眯分。求平均值和標(biāo)準(zhǔn)差拌汇,對于今日數(shù)值與均值差大于3/2/1個標(biāo)準(zhǔn)差的渠道進(jìn)行預(yù)警。
- 對于短期的新渠道弊决,直接與均值進(jìn)行對比噪舀。
6.用戶剛進(jìn)來APP的時候會選擇屬性魁淳,怎樣在保證有完整用戶信息的同時讓用戶流失減少?
- 采用技術(shù)接受模型(TAM)來分析与倡,影響用戶接受選擇屬性這件事的主要因素有:
技術(shù)接受模型提出了兩個主要的決定因素:
①感知的有用性(perceived usefulness)界逛,反映一個人認(rèn)為使用一個具體的系統(tǒng)對他工作業(yè)績提高的程度;
②感知的易用性(perceived ease of use)纺座,反映一個人認(rèn)為容易使用一個具體的系統(tǒng)的程度息拜。
(1)感知有用性:
a. 文案告知用戶選擇屬性能給用戶帶來的好處
(2)感知易用性:
a. 關(guān)聯(lián)用戶第三方賬號(如微博),可以冷啟動階段匹配用戶更有可能選擇的屬性净响,推薦用戶選擇少欺。
b. 交互性做好。
(3)使用者態(tài)度:用戶對填寫信息的態(tài)度
a. 這里需要允許用戶跳過馋贤,后續(xù)再提醒用戶填寫
b. 告知用戶填寫的信息會受到很好的保護(hù)
(4)行為意圖:用戶使用APP的目的性赞别,難以控制
(5)外部變量:如操作時間、操作環(huán)境等配乓,這里難以控制
7.如何識別作弊用戶(爬蟲程序仿滔, 或者渠道偽造的假用戶)
- 分類問題可以用機(jī)器學(xué)習(xí)的方法去解決,下面是我目前想到的特征:
(1)渠道特征:渠道犹芹、渠道次日留存率堤撵、渠道流量以及各種比率特征
(2)環(huán)境特征:設(shè)備(一般偽造假用戶的工作坊以低端機(jī)為主)、系統(tǒng)(刷量工作坊一般系統(tǒng)更新較慢)羽莺、wifi使用情況实昨、使用時間、來源地區(qū)盐固、ip是否進(jìn)過黑名單
(3)用戶行為特征:訪問時長荒给、訪問頁面、使用間隔刁卜、次日留存志电、活躍時間、頁面跳轉(zhuǎn)行為(假用戶的行為要么過于一致蛔趴,要么過于隨機(jī))挑辆、頁面使用行為(正常用戶對圖片的點(diǎn)擊也是有分布的,假用戶的行為容易過于隨機(jī))
(4)異常特征:設(shè)備號異常(頻繁重置idfa)孝情、ip異常(異地訪問)鱼蝉、行為異常(突然大量點(diǎn)擊廣告、點(diǎn)贊)箫荡、數(shù)據(jù)包不完整等
8.怎么做惡意刷單檢測?
- 分類問題用機(jī)器學(xué)習(xí)方法建模解決魁亦,我想到的特征有:
(1)商家特征:商家歷史銷量、信用羔挡、產(chǎn)品類別洁奈、發(fā)貨快遞公司等
(2)用戶行為特征:用戶信用间唉、下單量、轉(zhuǎn)化率利术、下單路徑呈野、瀏覽店鋪行為、支付賬號
(3)環(huán)境特征(主要是避免機(jī)器刷單):地區(qū)印叁、ip被冒、手機(jī)型號等
(4)異常檢測:ip地址經(jīng)常變動、經(jīng)常清空cookie信息喉钢、賬號近期交易成功率上升等
(5)評論文本檢測:刷單的評論文本可能套路較為一致姆打,計算與已標(biāo)注評論文本的相似度作為特征
(6)圖片相似度檢測:同理良姆,刷單可能重復(fù)利用圖片進(jìn)行評論
9.一個網(wǎng)站銷售額變低肠虽,你從哪幾個方面去考量?
- 首先要定位到現(xiàn)象真正發(fā)生的位置玛追,到底是誰的銷售額變低了税课?這里劃分的維度有:
a. 用戶(畫像、來源地區(qū)痊剖、新老韩玩、渠道等)
b. 產(chǎn)品或欄目
c. 訪問時段 - 定位到發(fā)生未知后,進(jìn)行問題拆解陆馁,關(guān)注目標(biāo)群體中哪個指標(biāo)下降導(dǎo)致網(wǎng)站銷售額下降:
a. 銷售額=入站流量x下單率x客單價
b. 入站流量 = Σ各來源流量x轉(zhuǎn)化率
c. 下單率 = 頁面訪問量x轉(zhuǎn)化率
d. 客單價 = 商品數(shù)量x商品價格 - 確定問題源頭后找颓,對問題原因進(jìn)行分析,如采用內(nèi)外部框架:
a. 內(nèi)部:網(wǎng)站改版叮贩、產(chǎn)品更新击狮、廣告投放
b. 外部:用戶偏好變化、媒體新聞益老、經(jīng)濟(jì)壞境彪蓬、競品行為等
10.用戶流失的分析,新用戶流失和老用戶流失有什么不同捺萌?
(1)用戶流失分析:
- 兩層模型:細(xì)分用戶档冬、產(chǎn)品、渠道桃纯,看到底是哪里用戶流失了酷誓。注意由于是用戶流失問題,所以這里細(xì)分用戶時可以細(xì)分用戶處在生命周期的哪個階段态坦。
- 指標(biāo)拆解:用戶流失數(shù)量 = 該群體用戶數(shù)量*流失率呛牲。拆解,看是因為到了這個階段的用戶數(shù)量多了(比如說大部分用戶到了衰退期)驮配,還是這個用戶群體的流失率比較高
- 內(nèi)外部分析:
a. 內(nèi)部:新手上手難度大娘扩、收費(fèi)不合理着茸、產(chǎn)品服務(wù)出現(xiàn)重大問題、活動質(zhì)量低琐旁、缺少留存手段涮阔、用戶參與度低等
b. 外部:市場、競爭對手灰殴、社會環(huán)境敬特、節(jié)假日等
(2)新用戶流失和老用戶流失有什么不同:
- 新用戶流失:原因可能有非目標(biāo)用戶(剛性流失)、產(chǎn)品不滿足需求(自然流失)牺陶、產(chǎn)品難以上手(受挫流失)和競爭產(chǎn)品影響(市場流失)伟阔。
新用戶要考慮如何在較少的數(shù)據(jù)支撐下做流失用戶識別,提前防止用戶流失掰伸,并如何對有效的新用戶進(jìn)行挽回皱炉。 - 老用戶流失:原因可能有到達(dá)用戶生命周期衰退期(自然流失)、過度拉升arpu導(dǎo)致低端用戶驅(qū)逐(剛性流失)狮鸭、社交蒸發(fā)難以滿足前期用戶需求(受挫流失)和競爭產(chǎn)品影響(市場流失)合搅。
老用戶有較多的數(shù)據(jù),更容易進(jìn)行流失用戶識別歧蕉,做好防止用戶流失更重要灾部。當(dāng)用戶流失后,要考慮用戶生命周期剩余價值惯退,是否需要進(jìn)行挽回赌髓。
(參考@王瑋 的回答:https://www.zhihu.com/question/26225801)
11.GMV升了20%怎么分析?
(我噼里啪啦分析了一通面試官笑嘻嘻地告訴我是數(shù)據(jù)錯了催跪,因為面試較緊張沒有意識到這個問題锁蠕,現(xiàn)在想想真是個大坑啊)
- 參考該面試者經(jīng)驗叠荠,應(yīng)該先估算一下數(shù)字有沒有問題
- 同樣的套路:
(1)兩層模型:進(jìn)行用戶群體匿沛、產(chǎn)品、渠道細(xì)分榛鼎,發(fā)現(xiàn)到底是誰的GMV提升了
(2)指標(biāo)拆解:將GMV拆解成乘法模型逃呼,如GMV=廣告投放數(shù)量廣告點(diǎn)擊率產(chǎn)品瀏覽量放入購物車率交易成功率*客單價,檢查哪一步有顯著變化導(dǎo)致了GMV上升
(3)內(nèi)外部分析:
a. 內(nèi)部:網(wǎng)站者娱、產(chǎn)品抡笼、廣告投放、活動等
b. 外部:套PEST等框架也行黄鳍,或者直接分析也行推姻,注意MEMC即可
這一題要注意,GMV流水包括取消的訂單金額和退貨/拒收的訂單金額框沟,還有一種原因是商家刷單然后退貨藏古,雖然GMV上去了增炭,但是實際成交量并沒有那么多。
11.如果現(xiàn)在有個情景拧晕,我們有一款游戲收入下降了隙姿,你怎么分析。
- 兩層模型:細(xì)分用戶、渠道、產(chǎn)品啡莉,看到底是哪里的收入下降了
- 指標(biāo)拆解:收入 = 玩家數(shù)量 * 活躍占比 * 付費(fèi)轉(zhuǎn)化率 * 付費(fèi)次數(shù) * 客單價
進(jìn)一步細(xì)分,如玩家數(shù)量 = 老玩家數(shù)量 * 活躍度 + 新玩家數(shù)量 * 留存率等欲鹏。然后對各個指標(biāo)與以往的數(shù)據(jù)進(jìn)行對比,發(fā)現(xiàn)哪些環(huán)節(jié)導(dǎo)致收入下降 - 原因分析:
a. 內(nèi)部:產(chǎn)品變化臭墨、促活活動赔嚎、拉新活動、定價策略裙犹、運(yùn)營策略尽狠、服務(wù)器故障等
b. 外部:用戶偏好變化衔憨、市場環(huán)境變化叶圃、輿論環(huán)境變化、競爭對手行為践图、外部渠道變化等 - 如何提高:基于乘法模型掺冠,可以采用上限分析,從前往后依次將指標(biāo)提升到投入足夠精力(假設(shè)優(yōu)先分配人力码党、經(jīng)費(fèi)與渠道)后的上限德崭,然后分析“收入”指標(biāo)的數(shù)值提升。找到數(shù)值提升最快的那個階段揖盘,就是我們提高收入的關(guān)鍵任務(wù)
12.現(xiàn)在有一個游戲測試的環(huán)節(jié)眉厨,游戲測試結(jié)束后需要根據(jù)數(shù)據(jù)提交一份PPT,這個PPT你會如何安排兽狭?包括什么內(nèi)容憾股?
這里可以套AARRR模型:
獲取用戶(Acquisition)
提高活躍度(Activation)
提高留存率(Retention)
獲取收入(Revenue)
自傳播(Refer)
- 獲取:我們的用戶是誰箕慧?用戶規(guī)模多大服球?
a. 用戶分層 - 激活:游戲是否吸引玩家?哪個渠道獲取的用戶有質(zhì)量(如次日留存高颠焦、首日停留時間長等)斩熊?
- 留存:用戶能否持續(xù)留存?哪些用戶可以留存伐庭?
- 轉(zhuǎn)化:用戶的游戲行為如何粉渠?能否進(jìn)行轉(zhuǎn)化分冈?能否持續(xù)轉(zhuǎn)化?
- 自傳播:用戶是否會向他人推薦該游戲霸株?哪種方式能有效鼓勵用戶推薦該游戲丈秩?傳播k因子是否大于1?
13.比如你對樓市不熟悉淳衙,現(xiàn)在要你去做一個像58同城之類的蘑秽,賣房的中介,電商箫攀,你會如何進(jìn)行分析肠牲。
(1)商業(yè)模式分析:中介做的是雙邊市場生意,通過解決市場信息不對稱下的信息流動問題靴跛,降低買方和賣方的交易成本缀雳,從而創(chuàng)造盈利空間
(2)需求分析:
a. 買方需求分析:低價買好房,對時間的需求有快的和慢的
b. 賣方需求分析:房子賣高價梢睛,對時間的需求有快的和慢的
(3)進(jìn)入條件分析(套SWOT分析法(態(tài)勢分析法)也行):
a. 自身條件
b. 競爭對手
c. 市場增長規(guī)模
(4)進(jìn)入策略分析:
a. 自身目標(biāo)
b. 目標(biāo)拆解
c. 分析目標(biāo)達(dá)成的可能性肥印,預(yù)估將來一段時間,好/正常/壞條件下的目標(biāo)達(dá)成情況
d. 得出結(jié)論:是否進(jìn)入該市場
14. 某業(yè)務(wù)部門在上周結(jié)束了為期一周的大促绝葡,作為業(yè)務(wù)對口分析師深碱,需要你對活動進(jìn)行一次評估,你會從哪幾方面進(jìn)行分析?
(1) 確定大促的目的:拉新藏畅?促活敷硅?清庫存?
(2) 根據(jù)目的確定核心指標(biāo)愉阎。
(3) 效果評估:
a. 自身比較:活動前與活動中比較
b. 與預(yù)定目標(biāo)比
c. 與同期其它活動比
d. 與往期同類活動比
(4)持續(xù)監(jiān)控:
a. 檢查活動后情況绞蹦,避免透支消費(fèi)情況發(fā)生
b. 如果是拉新等活動,根據(jù)后續(xù)數(shù)據(jù)檢驗這批新客的質(zhì)量
偏機(jī)器學(xué)習(xí)榜旦、數(shù)據(jù)挖掘
1. 給你一個無序數(shù)組幽七,怎么才能合理采樣?
- 無序數(shù)組是相對有序數(shù)組而言的溅呢,無序數(shù)組并不等于隨機(jī)澡屡,我們要做的是將無序數(shù)組洗牌,得到隨機(jī)排列藕届。
對于無序數(shù)組挪蹭,n個元素能產(chǎn)生n!種排序休偶。如果洗牌算法能產(chǎn)生n梁厉!種不同的結(jié)果,并且這些結(jié)果產(chǎn)生的概率相等,那么這個洗牌算法是正確的词顾。
方法:for i in range(len(n)): swap(arr[i], arr[random(i,n)])
這段代碼是對隨機(jī)確定數(shù)組第一位的值八秃,然后遞歸對剩余的數(shù)組進(jìn)行相同的過程,可以產(chǎn)生n肉盹!中等可能的排序情況昔驱。
參考資料:https://blog.csdn.net/rtian001/article/details/50348999;https://blog.csdn.net/jiang_zzz/article/details/53786999
2. 常用的Python庫有哪些?
- numpy:矩陣運(yùn)算
- sklearn:常用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘工具庫
- scipy:基于numpy做高效的數(shù)學(xué)計算上忍,如積分骤肛、線性代數(shù)、稀疏矩陣等
- pandas:將數(shù)據(jù)用表的形式進(jìn)行操作
- matplotlib:數(shù)據(jù)可視化工具
- seaborn:數(shù)據(jù)可視化工具
- keras/tensorflow/theano:深度學(xué)習(xí)工具包
- NLTK:自然語言處理工具包
- beautifulsoap:網(wǎng)頁文檔解析工具
3. 行存儲和列存儲的區(qū)別窍蓝。
- (1)行存儲:傳統(tǒng)數(shù)據(jù)庫的存儲方式腋颠,同一張表內(nèi)的數(shù)據(jù)放在一起,插入更新很快吓笙。缺點(diǎn)是每次查詢即使只涉及幾列淑玫,也要把所有數(shù)據(jù)讀取.
(2)列存儲:OLAP等情況下,將數(shù)據(jù)按照列存儲會更高效面睛,每一列都可以成為索引絮蒿,投影很高效。缺點(diǎn)是查詢是選擇完成時叁鉴,需要對選擇的列進(jìn)行重新組裝土涝。
“當(dāng)你的核心業(yè)務(wù)是 OLTP 時,一個行式數(shù)據(jù)庫亲茅,再加上優(yōu)化操作回铛,可能是個最好的選擇狗准。
當(dāng)你的核心業(yè)務(wù)是 OLAP 時克锣,一個列式數(shù)據(jù)庫,絕對是更好的選擇”
參考:https://blog.csdn.net/qq_26091271/article/details/51778675腔长;https://www.zhihu.com/question/29380943
4.K-Means算法原理及改進(jìn)袭祟,遇到異常值怎么辦?評估算法的指標(biāo)有哪些捞附?
-
k-means原理:
在給定K值和K個初始類簇中心點(diǎn)的情況下巾乳,把每個點(diǎn)(亦即數(shù)據(jù)記錄)分到離其最近的類簇中心點(diǎn)所代表的類簇中,所有點(diǎn)分配完畢之后鸟召,根據(jù)一個類簇內(nèi)的所有點(diǎn)重新計算該類簇的中心點(diǎn)(取平均值)胆绊,然后再迭代的進(jìn)行分配點(diǎn)和更新類簇中心點(diǎn)的步驟,直至類簇中心點(diǎn)的變化很小欧募,或者達(dá)到指定的迭代次數(shù)压状。 -
改進(jìn):
a. kmeans++:初始隨機(jī)點(diǎn)選擇盡可能遠(yuǎn),避免陷入局部解。方法是n+1個中心點(diǎn)選擇時种冬,對于離前n個點(diǎn)選擇到的概率更大
b. mini batch kmeans:每次只用一個子集做重入類并找到類心(提高訓(xùn)練速度)
c. ISODATA:對于難以確定k的時候镣丑,使用該方法。思路是當(dāng)類下的樣本小時娱两,剔除莺匠;類下樣本數(shù)量多時,拆分
d. kernel kmeans:kmeans用歐氏距離計算相似度十兢,也可以使用kernel映射到高維空間再聚類 -
遇到異常值:
a. 有條件的話使用密度聚類或者一些軟聚類的方式先聚類趣竣,剔除異常值。不過本來用kmeans就是為了快旱物,這么做有些南轅北轍了
b. 局部異常因子LOF:如果點(diǎn)p的密度明顯小于其鄰域點(diǎn)的密度期贫,那么點(diǎn)p可能是異常值
(參考:https://blog.csdn.net/wangyibo0201/article/details/51705966)
c. 多元高斯分布異常點(diǎn)檢測
d. 使用PCA或自動編碼機(jī)進(jìn)行異常點(diǎn)檢測:使用降維后的維度作為新的特征空間,其降維結(jié)果可以認(rèn)為剔除了異常值的影響(因為過程是保留使投影后方差最大的投影方向)
e. isolation forest:基本思路是建立樹模型异袄,一個節(jié)點(diǎn)所在的樹深度越低通砍,說明將其從樣本空間劃分出去越容易,因此越可能是異常值烤蜕。是一種無監(jiān)督的方法封孙,隨機(jī)選擇n個sumsampe,隨機(jī)選擇一個特征一個值讽营。
(參考:https://blog.csdn.net/u013709270/article/details/73436588)
f. winsorize:對于簡單的虎忌,可以對單一維度做上下截取 -
評估聚類算法的指標(biāo):
a. 外部法(基于有標(biāo)注):Jaccard系數(shù)、純度
b. 內(nèi)部法(無標(biāo)注):內(nèi)平方和WSS和外平方和BSS
c. 此外還要考慮到算法的時間空間復(fù)雜度橱鹏、聚類穩(wěn)定性等
5.數(shù)據(jù)預(yù)處理過程有哪些膜蠢?
- 缺失值處理:刪、插
- 異常值處理
- 特征轉(zhuǎn)換:時間特征sin化表示
- 標(biāo)準(zhǔn)化:最大最小標(biāo)準(zhǔn)化莉兰、z標(biāo)準(zhǔn)化等
- 歸一化:對于文本或評分特征挑围,不同樣本之間可能有整體上的差異,如a文本共20個詞糖荒,b文本30000個詞杉辙,b文本中各個維度上的頻次都很可能遠(yuǎn)遠(yuǎn)高于a文本
- 離散化:onehot、分箱等
6. 隨機(jī)森林原理捶朵?有哪些隨機(jī)方法蜘矢?
- 隨機(jī)森林原理:通過構(gòu)造多個決策樹,做bagging以提高泛化能力
- subsample(有放回抽樣)综看、subfeature品腹、低維空間投影(特征做組合,參考林軒田的《機(jī)器學(xué)習(xí)基石》)
7. PCA(主成分分析)
- 主成分分析是一種降維的方法
- 思想是將樣本從原來的特征空間轉(zhuǎn)化到新的特征空間红碑,并且樣本在新特征空間坐標(biāo)軸上的投影方差盡可能大舞吭,這樣就能涵蓋樣本最主要的信息
- 方法:
a. 特征歸一化
b. 求樣本特征的協(xié)方差矩陣A
c. 求A的特征值和特征向量,即AX=λX
d. 將特征值從大到小排列,選擇topK镣典,對應(yīng)的特征向量就是新的坐標(biāo)軸(采用最大方差理論解釋兔毙,參考:https://blog.csdn.net/huang1024rui/article/details/46662195) - PCA也可以看成激活函數(shù)為線性函數(shù)的自動編碼機(jī)(參考林軒田的《機(jī)器學(xué)習(xí)基石》第13課,深度學(xué)習(xí))
8. hive兄春?spark澎剥?sql? nlp赶舆?
- Hive允許使用類SQL語句在hadoop集群上進(jìn)行讀哑姚、寫、管理等操作
- Spark是一種與hadoop相似的開源集群計算環(huán)境芜茵,將數(shù)據(jù)集緩存在分布式內(nèi)存中的計算平臺叙量,每輪迭代不需要讀取磁盤的IO操作,從而答復(fù)降低了單輪迭代時間
9. Linux基本命令
- 目錄操作:ls九串、cd绞佩、mkdir、find猪钮、locate品山、whereis等
- 文件操作:mv、cp烤低、rm肘交、touch、cat扑馁、more涯呻、less
- 權(quán)限操作:chmod+rwx421
- 賬號操作:su、whoami腻要、last复罐、who、w闯第、id市栗、groups等
- 查看系統(tǒng):history、top
- 關(guān)機(jī)重啟:shutdown咳短、reboot
- vim操作:i、w蛛淋、w!咙好、q、q!褐荷、wq等
10. NVL函數(shù)
- 是oracle的一個函數(shù)
- NVL( string1, replace_with)勾效,如果string1為NULL,則NVL函數(shù)返回replace_with的值,否則返回原來的值
11. LR
- 用于分類問題的線性回歸
- 采用sigmoid對輸出值進(jìn)行01轉(zhuǎn)換
- 采用似然法求解
- 手推
- 優(yōu)缺點(diǎn)局限性
- 改進(jìn)空間
12. sql中null與‘ ’的區(qū)別层宫。
- null表示空杨伙,用is null判斷
- ''表示空字符串,用=''判斷
13. 數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別萌腿。
- 簡單理解下數(shù)據(jù)倉庫是多個數(shù)據(jù)庫以一種方式組織起來
- 數(shù)據(jù)庫強(qiáng)調(diào)范式限匣,盡可能減少冗余
- 數(shù)據(jù)倉庫強(qiáng)調(diào)查詢分析的速度,優(yōu)化讀取操作毁菱,主要目的是快速做大量數(shù)據(jù)的查詢
- 數(shù)據(jù)倉庫定期寫入新數(shù)據(jù)米死,但不覆蓋原有數(shù)據(jù),而是給數(shù)據(jù)加上時間戳標(biāo)簽
- 數(shù)據(jù)庫采用行存儲贮庞,數(shù)據(jù)倉庫一般采用列存儲(行存儲與列存儲區(qū)別見題3)
- 數(shù)據(jù)倉庫的特征是面向主題峦筒、集成、相對穩(wěn)定窗慎、反映歷史變化物喷,存儲數(shù)歷史數(shù)據(jù);數(shù)據(jù)庫是面向事務(wù)的遮斥,存儲在線交易數(shù)據(jù)
- 數(shù)據(jù)倉庫的兩個基本元素是維表和事實表脯丝,維是看待問題的角度,比如時間伏伐、部門等宠进,事實表放著要查詢的數(shù)據(jù)
14. SQL的數(shù)據(jù)類型。
- 字符串:char藐翎、varchar材蹬、text
- 二進(jìn)制串:binary、varbinary
- 布爾類型:boolean
- 數(shù)值類型:integer吝镣、smallint堤器、bigint、decimal末贾、numeric闸溃、float、real拱撵、double
- 時間類型:date辉川、time、timestamp拴测、interval
15. 分類算法性能的主要評價指標(biāo)乓旗。
- 查準(zhǔn)率、查全率集索、F1
- AUC
- LOSS
- Gain和Lift
- WOE和IV
16. 數(shù)據(jù)缺失怎么辦
- 刪除樣本或刪除字段
- 用中位數(shù)屿愚、平均值汇跨、眾數(shù)等填充
- 插補(bǔ):同類均值插補(bǔ)、多重插補(bǔ)妆距、極大似然估計
- 用其它字段構(gòu)建模型穷遂,預(yù)測該字段的值,從而填充缺失值(注意:如果該字段也是用于預(yù)測模型中作為特征娱据,那么用其它字段建模填充缺失值的方式蚪黑,并沒有給最終的預(yù)測模型引入新信息)
- onehot,將缺失值也認(rèn)為一種取值
- 壓縮感知及矩陣補(bǔ)全
17. GBDT(梯度提升樹)
- 首先介紹Adaboost Tree吸耿,是一種boosting的樹集成方法祠锣。基本思路是依次訓(xùn)練多棵樹咽安,每棵樹訓(xùn)練時對分錯的樣本進(jìn)行加權(quán)伴网。樹模型中對樣本的加權(quán)實際是對樣本采樣幾率的加權(quán),在進(jìn)行有放回抽樣時妆棒,分錯的樣本更有可能被抽到
- GBDT是Adaboost Tree的改進(jìn)澡腾,每棵樹都是CART(分類回歸樹),樹在葉節(jié)點(diǎn)輸出的是一個數(shù)值糕珊,分類誤差就是真實值減去葉節(jié)點(diǎn)的輸出值动分,得到殘差。GBDT要做的就是使用梯度下降的方法減少分類誤差值红选。
在GBDT的迭代中澜公,假設(shè)我們前一輪迭代得到的強(qiáng)學(xué)習(xí)器是ft?1(x), 損失函數(shù)是L(y,ft?1(x)), 我們本輪迭代的目標(biāo)是找到一個CART回歸樹模型的弱學(xué)習(xí)器ht(x),讓本輪的損失損失L(y,ft(x)=L(y,ft?1(x)+ht(x))最小喇肋。也就是說坟乾,本輪迭代找到?jīng)Q策樹,要讓樣本的損失盡量變得更小蝶防。 - GBDT的思想可以用一個通俗的例子解釋甚侣,假如有個人30歲,我們首先用20歲去擬合间学,發(fā)現(xiàn)損失有10歲殷费,這時我們用6歲去擬合剩下的損失,發(fā)現(xiàn)差距還有4歲低葫,第三輪我們用3歲擬合剩下的差距详羡,差距就只有一歲了。如果我們的迭代輪數(shù)還沒有完氮采,可以繼續(xù)迭代下面殷绍,每一輪迭代,擬合的歲數(shù)誤差都會減小鹊漠。
(參考:https://www.cnblogs.com/pinard/p/6140514.html) - 得到多棵樹后主到,根據(jù)每顆樹的分類誤差進(jìn)行加權(quán)投票
18. 如何避免決策樹過擬合?
- 限制樹深
- 剪枝
- 限制葉節(jié)點(diǎn)數(shù)量
- 正則化項
- 增加數(shù)據(jù)
- bagging(subsample躯概、subfeature登钥、低維空間投影)
- 數(shù)據(jù)增強(qiáng)(加入有雜質(zhì)的數(shù)據(jù))
- 早停
19.SVM的優(yōu)缺點(diǎn)
- 優(yōu)點(diǎn):
a. 能應(yīng)用于非線性可分的情況
b. 最后分類時由支持向量決定,復(fù)雜度取決于支持向量的數(shù)目而不是樣本空間的維度娶靡,避免了維度災(zāi)難
c. 具有魯棒性:因為只使用少量支持向量牧牢,抓住關(guān)鍵樣本,剔除冗余樣本
d. 高維低樣本下性能好姿锭,如文本分類 - 缺點(diǎn):
a. 模型訓(xùn)練復(fù)雜度高
b. 難以適應(yīng)多分類問題
c. 核函數(shù)選擇沒有較好的方法論
20. 統(tǒng)計教授多門課老師數(shù)量并輸出每位老師教授課程數(shù)統(tǒng)計表塔鳍。
解:設(shè)表class中字段為id,teacher呻此,course
- 統(tǒng)計教授多門課老師數(shù)量
select count( * )
from class
group by teacher
having count( * ) > 1 - 輸出每位老師教授課程數(shù)統(tǒng)計
select teacher, count(course) as count_course
from class
group by teacher
21. 有uid轮纫,app名稱,app類別焚鲜,數(shù)據(jù)百億級別掌唾,設(shè)計算法算出每個app類別只安裝了一個app的uid總數(shù)。
- 小數(shù)據(jù)量的話直接查詢:
select b.apptype,count(b.uid)
from
(select uid, apptype, count(appname) as num
from app_info
group by uid,apptype
having count(appname) = 1
)b
group by b.apptype
- 大數(shù)據(jù)量下(沒用過hadoop不太清楚忿磅,望大家指正)
a. 原始文件可以拼接為uid-app-categroy
b. map階段形成的<k,v>是<uid-category,1>
c. reduce階段統(tǒng)計key為“uid-category”的count數(shù)量
d. 只保留count為1的數(shù)據(jù)
e. 剩下的數(shù)據(jù)量直接統(tǒng)計uid出現(xiàn)次數(shù)=category類別數(shù)的數(shù)據(jù)
22. 請說明隨機(jī)森林較一般決策樹穩(wěn)定的幾點(diǎn)原因.
- bagging的方法糯彬,多個樹投票提高泛化能力
- bagging中引入隨機(jī)(參數(shù)、樣本葱她、特征撩扒、空間映射),避免單棵樹的過擬合吨些,提高整體泛化能力
23. 什么是聚類分析搓谆?聚類算法有哪幾種?請選擇一種詳細(xì)描述其計算原理和步驟锤灿。
- 聚類分析是一種無監(jiān)督的學(xué)習(xí)方法挽拔,根據(jù)一定條件將相對同質(zhì)的樣本歸到一個類總。
- 聚類方法主要有:
a. 層次聚類
b. 劃分聚類:kmeans
c. 密度聚類
d. 網(wǎng)格聚類
e. 模型聚類:高斯混合模型 - k-means比較好介紹但校,選k個點(diǎn)開始作為聚類中心螃诅,然后剩下的點(diǎn)根據(jù)距離劃分到類中;找到新的類中心状囱;重新分配點(diǎn)术裸;迭代直到達(dá)到收斂條件或者迭代次數(shù)。 優(yōu)點(diǎn)是快亭枷;缺點(diǎn)是要先指定k袭艺,同時對異常值很敏感。
24. 余弦距離與歐式距離求相似度的差別叨粘。
- 歐氏距離能夠體現(xiàn)個體數(shù)值特征的絕對差異猾编,所以更多的用于需要從維度的數(shù)值大小中體現(xiàn)差異的分析瘤睹,如使用用戶行為指標(biāo)分析用戶價值的相似度或差異。
余弦距離更多的是從方向上區(qū)分差異答倡,而對絕對的數(shù)值不敏感轰传,更多的用于使用用戶對內(nèi)容評分來區(qū)分興趣的相似度和差異,同時修正了用戶間可能存在的度量標(biāo)準(zhǔn)不統(tǒng)一的問題(因為余弦距離對絕對數(shù)值不敏感)瘪撇。 - 總體來說获茬,歐氏距離體現(xiàn)數(shù)值上的絕對差異,而余弦距離體現(xiàn)方向上的相對差異倔既。
(1)例如恕曲,統(tǒng)計兩部劇的用戶觀看行為,用戶A的觀看向量為(0,1)渤涌,用戶B為(1,0)佩谣;此時二者的余弦距很大,而歐氏距離很屑吣蟆稿存;我們分析兩個用戶對于不同視頻的偏好,更關(guān)注相對差異瞳秽,顯然應(yīng)當(dāng)使用余弦距離瓣履。
(2)而當(dāng)我們分析用戶活躍度,以登陸次數(shù)(單位:次)和平均觀看時長(單:分鐘)作為特征時练俐,余弦距離會認(rèn)為(1,10)袖迎、(10,100)兩個用戶距離很近;但顯然這兩個用戶活躍度是有著極大差異的腺晾,此時我們更關(guān)注數(shù)值絕對差異燕锥,應(yīng)當(dāng)使用歐氏距離。
25. 數(shù)據(jù)清理中悯蝉,處理缺失值的方法是归形?
由于調(diào)查、編碼和錄入誤差鼻由,數(shù)據(jù)中可能存在一些無效值和缺失值暇榴,需要給予適當(dāng)?shù)奶幚怼3S玫奶幚矸椒ㄓ校汗浪憬妒溃齽h除蔼紧,變量刪除和成對刪除。
- 估算(estimation)狠轻。最簡單的辦法就是用某個變量的樣本均值奸例、中位數(shù)或眾數(shù)代替無效值和缺失值。這種辦法簡單向楼,但沒有充分考慮數(shù)據(jù)中已有的信息查吊,誤差可能較大谐区。另一種辦法就是根據(jù)調(diào)查對象對其他問題的答案,通過變量之間的相關(guān)分析或邏輯推論進(jìn)行估計菩貌。例如卢佣,某一產(chǎn)品的擁有情況可能與家庭收入有關(guān)重荠,可以根據(jù)調(diào)查對象的家庭收入推算擁有這一產(chǎn)品的可能性箭阶。
- 整例刪除(casewise deletion)是剔除含有缺失值的樣本。由于很多問卷都可能存在缺失值戈鲁,這種做法的結(jié)果可能導(dǎo)致有效樣本量大大減少仇参,無法充分利用已經(jīng)收集到的數(shù)據(jù)。因此婆殿,只適合關(guān)鍵變量缺失诈乒,或者含有無效值或缺失值的樣本比重很小的情況。
- 變量刪除(variable deletion)婆芦。如果某一變量的無效值和缺失值很多怕磨,而且該變量對于所研究的問題不是特別重要,則可以考慮將該變量刪除消约。這種做法減少了供分析用的變量數(shù)目肠鲫,但沒有改變樣本量。
- 成對刪除(pairwise deletion)是用一個特殊碼(通常是9或粮、99导饲、999等)代表無效值和缺失值,同時保留數(shù)據(jù)集中的全部變量和樣本氯材。但是渣锦,在具體計算時只采用有完整答案的樣本,因而不同的分析因涉及的變量不同氢哮,其有效樣本量也會有所不同袋毙。這是一種保守的處理方法,最大限度地保留了數(shù)據(jù)集中的可用信息冗尤。
作者:稻蛙
來源:CSDN
鏈接:https://me.csdn.net/u013382288
版權(quán)聲明:本文為博主原創(chuàng)文章听盖,轉(zhuǎn)載請附上博文鏈接!